تطلق OpenAI نموذجًا جديدًا رائدًا للذكاء الاصطناعي يسمى GPT-4o، ومن المقرر أن يتم طرحه “بشكل متكرر” عبر منتجات الشركة المطورة والموجهة للمستهلكين خلال الأسابيع القليلة المقبلة.
وقال موري موراتي، كبير مسؤولي التكنولوجيا في OpenAI، إن GPT-4o يوفر ذكاءً “على مستوى GPT-4” ولكنه يعمل على تحسين قدرات GPT-4 عبر النص والرؤية بالإضافة إلى الصوت.
فخلال العرض التقديمي رئيسي في مكاتب OpenAI: “أسباب GPT-4o عبر الصوت والنص والرؤية”. “وهذا مهم للغاية، لأننا ننظر إلى مستقبل التفاعل بيننا وبين الآلات.”
تم تدريب GPT-4، النموذج الرائد السابق لـ OpenAI، على مزيج من الصور والنصوص، ويمكنه تحليل الصور والنصوص لإنجاز مهام مثل استخراج النص من الصور أو حتى وصف محتوى تلك الصور. لكن GPT-4o يضيف الكلام إلى هذا المزيج.
ما الذي يتيحه هذا بشكل ملموس؟ مجموعة متنوعة من الأشياء.
يعمل GPT-4o على تحسين تجربة ChatGPT بشكل كبير – ChatGPT هو برنامج الدردشة الآلي الفيروسي المدعوم بالذكاء الاصطناعي الخاص بـ OpenAI. يقدم ChatGPT منذ فترة طويلة وضعًا صوتيًا يقوم بنسخ النص من ChatGPT باستخدام نموذج تحويل النص إلى كلام. يعمل GPT-4o على تعزيز ذلك، مما يسمح للمستخدمين بالتفاعل مع ChatGPT كمساعد.
على سبيل المثال، يمكن للمستخدمين طرح سؤال على ChatGPT – المدعوم من GPT-4o – ومقاطعة ChatGPT أثناء الإجابة. يقول OpenAI إن النموذج يوفر استجابة “في الوقت الفعلي”، ويمكنه حتى التقاط المشاعر في صوت المستخدم – وتوليد الصوت في “مجموعة من الأنماط العاطفية المختلفة”.
يعمل GPT-4o على تحسين قدرات رؤية ChatGPT أيضًا. من خلال صورة – أو شاشة سطح مكتب – يستطيع ChatGPT الآن الإجابة بسرعة على الأسئلة ذات الصلة، بدءًا من أشياء مثل “ما الذي يحدث في رمز البرنامج هذا” إلى “ما هي ماركة القميص التي يرتديها هذا الشخص؟”
وفي أخبار أخرى، تطلق OpenAI إصدار سطح المكتب من ChatGPT وواجهة مستخدم محدثة.
“نحن نعلم أن هذه النماذج تصبح أكثر تعقيدًا، ولكننا نريد أن تصبح تجربة التفاعل أكثر طبيعية وسهولة، ولا نركز على واجهة المستخدم على الإطلاق، بل نركز فقط على التعاون مع [موراتي].