تعرف على GPT-4o أحدث إصدارات OpenAI الذي يتفوق على Chat GPT

By Amira abowafa On مايو 16, 2024 30٬910

يشهد شهر مايز 2024 ميلاد GPT-4o أحدث إصدارات OpenAI التي سبق وأن أصدرت Chat GPT الذي اجتاح العالم وغيّر كثيرًا من الخطط بل غيّرها جميعًا. وانتشر كالنار في الهشيم ويعتمد عليه الألاف يوميًا ولا يمكنهم الاستغناء عنه أبدًا!

GPT-4o أحدث إصدارات OpenAI

إنه في يوم الإثنين الموافق 13 مايو لعام 2024 أصدرت شركة ومؤسسة OpenAI أحدث إصداراتها بعد ChatGPT وأقواها. تقوم فكرة GPT-4o على تقنية GPT-4 الأفضل في مجال روبوتات المحادثة والتي لم يتخطاها أي تقنية أخرى – حتى الآن- والتي كانت مجانية في بادئ أمر شات جي بي تي، ثم أصبحت قاصرة على مستخدمي النسخة المدفوعة منه فقط!

بم يتميز هذا الإصدار؟

إنه يمكنه التحدث والرؤية والتفاعل مع المستخدم بشكل أكثر استيعابًا وأكثر دقة عن الإصدارات السابقة.

ما هو GPT-4o؟ – GPT-4o أحدث إصدارات OpenAI

إنه عبارة عن تقنية GPT-4 مضافًا إليها الحرف “O” وهي تشير إلى كلمة “omni” بمعنى: كل أو كليًا. إنه نموذج متعدد الوسائط مزود بقدرات إدخال النصوص المرئية والصوتية وإخراحها، بناءً على التكرار السابق لـ OpenAI’s GPT-4 مع نموذج الرؤية “OpenAI’s GPT-4 with Vision model”،وكذلك GPT-4 Turbo. تأتي قوة وسرعة GPT-4o من كونه نموذجًا واحدًا يتعامل مع طرائق متعددة.

استخدمت إصدارات GPT-4 السابقة عدة نماذج ذات غرض واحد (تحويل الصوت إلى نص، تحويل النص إلى صوت، تحويل النص إلى صورة) وإنشاء تجربة مجزأة للتبديل بين النماذج لمهام مختلفة.

مميزات GPT-4o

قدمت النسخة التجريبية منه قدرات مرئية وصوتية مذهلة
مدونة الإصدار تحتوي على أمثلة تتجاوز بكثير القدرات السابقة لإصدارات GPT-4.
تتمتع أيضًا بقدرات الفهم والتوليد الأصلية عبر جميع الأساليب المدعومة، بما في ذلك الفيديو.
النموذج سريع خاصة عندما يتواصل النموذج بالصوت. هذه هي المرة الأولى التي لا يكون فيها أي تأخير في الاستجابة تقريبًا
يمكنك التفاعل مع GPT-4o بشكل مشابه لكيفية تفاعلك في المحادثات اليومية مع الأشخاص.

تقييم النص لـGPT-4o

بالنسبة للنص، يتميز GPT-4o بنتائج محسنة قليلاً أو مماثلة مقارنةً بـ LMMs الأخرى مثل تكرارات GPT-4 السابقة، و Claude، وGoogle’s Gemini، وMeta’s Llama، وفقًا لنتائج القياس التي تم إصدارها ذاتيًا بواسطة OpenAI.

قدراته في إنشاء الفيديو

يدعم GPT-4o في واجهة برمجة التطبيقات (API) فهم الفيديو (بدون صوت) عبر إمكانات الرؤية. تم إثبات أن GPT-4o يتمتع بالقدرة على عرض وفهم الفيديو والصوت من ملف فيديو تم تحميله، بالإضافة إلى القدرة على إنشاء مقاطع فيديو قصيرة.

قدراته في إنشاء المقاطع الصوتية

يمتلك GPT-4o أيضًا القدرة على استيعاب وإنشاء الملفات الصوتية. يُظهر مستوى مثيرًا للإعجاب من التحكم الدقيق في الصوت الناتج، والقدرة على تغيير سرعة الاتصال، وتغيير النغمات عند الطلب، وحتى الغناء عند الطلب.

لا يستطيع GPT-4o التحكم في مخرجاته فحسب، بل لديه القدرة على فهم صوت إدخال الصوت كسياق إضافي لأي طلب.

وفقًا للمعايير التي تم إصدارها ذاتيًا، يتفوق GPT-4o على Whisper-v3 الخاص بـ OpenAI، وهو الإصدار الأحدث السابق في التعرف التلقائي على الكلام (ASR) ويتفوق على الترجمة الصوتية بواسطة نماذج أخرى من Meta وGoogle.

إنشاء الصور – GPT-4o أحدث إصدارات OpenAI

له إمكانات مذهلة لإنشاء الصور وتمييز النصوص داخل الصورة. بالإضافة إلى أن لديه استيعاب مرئي ويفهم الكثير من البيانات المرئية ويتعامل معها مثل جيميني وكلود.

الدخول إلى موقع GPT-4o

الذكاء الاصطناعي