logo
#

أحدث الأخبار مع #ماركتشين،

أخبار التكنولوجيا : هل بالغت OpenAI في أداء o3؟ نتائج FrontierMath تكشف عن 10% فقط
أخبار التكنولوجيا : هل بالغت OpenAI في أداء o3؟ نتائج FrontierMath تكشف عن 10% فقط

نافذة على العالم

time٢٢-٠٤-٢٠٢٥

  • علوم
  • نافذة على العالم

أخبار التكنولوجيا : هل بالغت OpenAI في أداء o3؟ نتائج FrontierMath تكشف عن 10% فقط

الثلاثاء 22 أبريل 2025 06:00 صباحاً نافذة على العالم - أظهر نموذج الذكاء الاصطناعي o3 من OpenAI، الذي صدر الأسبوع الماضي، أداءً ضعيفًا في معيار محدد، حيث أشارت شركة Epoch AI، الشركة المسئولة عن معيار FrontierMath، إلى أن النسخة المتاحة للجمهور من نموذج الذكاء الاصطناعي o3 حققت 10% في الاختبار، وهي نسبة أقل بكثير من ادعاء الشركة عند الإطلاق. وكان مارك تشين، كبير مسؤولي الأبحاث في شركة الذكاء الاصطناعي ومقرها سان فرانسيسكو، قد صرّح بأن النموذج حقق 25% في الاختبار، محققًا رقمًا قياسيًا جديدًا، ومع ذلك، فإن هذا التباين لا يعني أن OpenAI كذبت بشأن هذا المقياس. وفي ديسمبر 2024، أجرت OpenAI بثًا مباشرًا على يوتيوب ومنصات التواصل الاجتماعي الأخرى، للإعلان عن نموذج الذكاء الاصطناعي o3، وفي ذلك الوقت، سلّطت الشركة الضوء على مجموعة القدرات المُحسّنة في نموذج اللغة الكبير (LLM)، وتحديدًا، أدائه المُحسّن في الاستعلامات القائمة على الاستدلال. ومن الطرق التي جسّدت بها الشركة هذا الادعاء مشاركة نتائج النموذج المرجعية عبر اختبارات شائعة مُختلفة، ومن بين هذه الاختبارات اختبار FrontierMath، الذي طورته شركة Epoch AI. يُعرف هذا الاختبار الرياضي بصعوبته وقدرته على التلاعب، حيث طوّره أكثر من 70 عالم رياضيات، وجميع المسائل فيه جديدة وغير منشورة، والجدير بالذكر أنه حتى ديسمبر، لم يُجْزِ أي نموذج ذكاء اصطناعي أكثر من 9% من الأسئلة في محاولة واحدة. ومع ذلك، عند إطلاقه، ادّعى تشين أن o3 تمكّنت من تحقيق رقم قياسي جديد بتسجيلها 25% في الاختبار، ولم يكن التحقق الخارجي من الأداء ممكنًا في ذلك الوقت، نظرًا لعدم توفر النموذج في المجال العام، وبعد إطلاق o3 وo4-mini الأسبوع الماضي، نشرت شركة Epoch AI منشورًا على منصة X (المعروفة سابقًا باسم تويتر)، مدّعيةً أن نموذج o3، في الواقع، قد حقق 10% في الاختبار. ومع أن نسبة 10% تجعل نموذج الذكاء الاصطناعي الأعلى تصنيفًا في الاختبار، إلا أن هذا الرقم أقل من نصف ما ادّعته الشركة، وقد دفع هذا المنشور العديد من المتحمسين للذكاء الاصطناعي إلى الحديث عن صحة نتائج اختبارات الأداء المعيارية. ولا يعني هذا التباين أن OpenAI كذبت بشأن أداء نموذج الذكاء الاصطناعي الخاص بها، بل على العكس، من المرجح أن نموذج شركة الذكاء الاصطناعي غير المُصدر استخدم قدرات حوسبة أعلى للحصول على هذه النتيجة، ومع ذلك، يُرجّح أن النسخة التجارية من النموذج قد عُدّلت لتكون أكثر كفاءة في استهلاك الطاقة، وفي هذه العملية، تم تخفيف بعض أدائها. على صعيد منفصل، نشرت ARC Prize، وهي المنظمة التي تقف وراء اختبار ARC-AGI المعياري، الذي يختبر الذكاء العام لنموذج الذكاء الاصطناعي، أيضًا على منصة X حول هذا التباين، وأكد المنشور أن "نموذج o3 الصادر يختلف عن النموذج الذي اختبرناه في ديسمبر 2024". وزعمت الشركة أن مستويات الحوسبة في نموذج o3 الصادر أصغر من الإصدار الذي اختبرته. ومع ذلك، أكدت أن o3 لم يُدرّب على بيانات ARC-AGI، حتى في مرحلة ما قبل التدريب. وأعلنت جائزة ARC أنها ستعيد اختبار نموذج الذكاء الاصطناعي o3 الصادر وستنشر النتائج المحدثة. كما ستعيد الشركة اختبار نموذج o4-mini، وستصنف النتائج السابقة على أنها "معاينة"، وليس من المؤكد أن أداء الإصدار الصادر من o3 سيكون دون المستوى في هذا الاختبار أيضًا.

هل بالغت OpenAI في أداء o3؟ نتائج FrontierMath تكشف عن 10% فقط
هل بالغت OpenAI في أداء o3؟ نتائج FrontierMath تكشف عن 10% فقط

موجز نيوز

time٢٢-٠٤-٢٠٢٥

  • علوم
  • موجز نيوز

هل بالغت OpenAI في أداء o3؟ نتائج FrontierMath تكشف عن 10% فقط

أظهر نموذج الذكاء الاصطناعي o3 من OpenAI ، الذي صدر الأسبوع الماضي، أداءً ضعيفًا في معيار محدد، حيث أشارت شركة Epoch AI، الشركة المسئولة عن معيار FrontierMath، إلى أن النسخة المتاحة للجمهور من نموذج الذكاء الاصطناعي o3 حققت 10% في الاختبار، وهي نسبة أقل بكثير من ادعاء الشركة عند الإطلاق. وكان مارك تشين، كبير مسؤولي الأبحاث في شركة الذكاء الاصطناعي ومقرها سان فرانسيسكو، قد صرّح بأن النموذج حقق 25% في الاختبار، محققًا رقمًا قياسيًا جديدًا، ومع ذلك، فإن هذا التباين لا يعني أن OpenAI كذبت بشأن هذا المقياس. وفي ديسمبر 2024، أجرت OpenAI بثًا مباشرًا على يوتيوب ومنصات التواصل الاجتماعي الأخرى، للإعلان عن نموذج الذكاء الاصطناعي o3، وفي ذلك الوقت، سلّطت الشركة الضوء على مجموعة القدرات المُحسّنة في نموذج اللغة الكبير (LLM)، وتحديدًا، أدائه المُحسّن في الاستعلامات القائمة على الاستدلال. ومن الطرق التي جسّدت بها الشركة هذا الادعاء مشاركة نتائج النموذج المرجعية عبر اختبارات شائعة مُختلفة، ومن بين هذه الاختبارات اختبار FrontierMath، الذي طورته شركة Epoch AI. يُعرف هذا الاختبار الرياضي بصعوبته وقدرته على التلاعب، حيث طوّره أكثر من 70 عالم رياضيات، وجميع المسائل فيه جديدة وغير منشورة، والجدير بالذكر أنه حتى ديسمبر، لم يُجْزِ أي نموذج ذكاء اصطناعي أكثر من 9% من الأسئلة في محاولة واحدة. ومع ذلك، عند إطلاقه، ادّعى تشين أن o3 تمكّنت من تحقيق رقم قياسي جديد بتسجيلها 25% في الاختبار، ولم يكن التحقق الخارجي من الأداء ممكنًا في ذلك الوقت، نظرًا لعدم توفر النموذج في المجال العام، وبعد إطلاق o3 وo4-mini الأسبوع الماضي، نشرت شركة Epoch AI منشورًا على منصة X (المعروفة سابقًا باسم تويتر)، مدّعيةً أن نموذج o3، في الواقع، قد حقق 10% في الاختبار. ومع أن نسبة 10% تجعل نموذج الذكاء الاصطناعي الأعلى تصنيفًا في الاختبار، إلا أن هذا الرقم أقل من نصف ما ادّعته الشركة، وقد دفع هذا المنشور العديد من المتحمسين للذكاء الاصطناعي إلى الحديث عن صحة نتائج اختبارات الأداء المعيارية. ولا يعني هذا التباين أن OpenAI كذبت بشأن أداء نموذج الذكاء الاصطناعي الخاص بها، بل على العكس، من المرجح أن نموذج شركة الذكاء الاصطناعي غير المُصدر استخدم قدرات حوسبة أعلى للحصول على هذه النتيجة، ومع ذلك، يُرجّح أن النسخة التجارية من النموذج قد عُدّلت لتكون أكثر كفاءة في استهلاك الطاقة، وفي هذه العملية، تم تخفيف بعض أدائها. على صعيد منفصل، نشرت ARC Prize، وهي المنظمة التي تقف وراء اختبار ARC-AGI المعياري، الذي يختبر الذكاء العام لنموذج الذكاء الاصطناعي، أيضًا على منصة X حول هذا التباين، وأكد المنشور أن "نموذج o3 الصادر يختلف عن النموذج الذي اختبرناه في ديسمبر 2024". وزعمت الشركة أن مستويات الحوسبة في نموذج o3 الصادر أصغر من الإصدار الذي اختبرته. ومع ذلك، أكدت أن o3 لم يُدرّب على بيانات ARC-AGI، حتى في مرحلة ما قبل التدريب. وأعلنت جائزة ARC أنها ستعيد اختبار نموذج الذكاء الاصطناعي o3 الصادر وستنشر النتائج المحدثة. كما ستعيد الشركة اختبار نموذج o4-mini، وستصنف النتائج السابقة على أنها "معاينة"، وليس من المؤكد أن أداء الإصدار الصادر من o3 سيكون دون المستوى في هذا الاختبار أيضًا.

هل بالغت OpenAI في أداء o3؟ نتائج FrontierMath تكشف عن 10% فقط
هل بالغت OpenAI في أداء o3؟ نتائج FrontierMath تكشف عن 10% فقط

اليوم السابع

time٢١-٠٤-٢٠٢٥

  • علوم
  • اليوم السابع

هل بالغت OpenAI في أداء o3؟ نتائج FrontierMath تكشف عن 10% فقط

أظهر نموذج الذكاء الاصطناعي o3 من OpenAI ، الذي صدر الأسبوع الماضي، أداءً ضعيفًا في معيار محدد، حيث أشارت شركة Epoch AI، الشركة المسئولة عن معيار FrontierMath، إلى أن النسخة المتاحة للجمهور من نموذج الذكاء الاصطناعي o3 حققت 10% في الاختبار، وهي نسبة أقل بكثير من ادعاء الشركة عند الإطلاق. وكان مارك تشين، كبير مسؤولي الأبحاث في شركة الذكاء الاصطناعي ومقرها سان فرانسيسكو، قد صرّح بأن النموذج حقق 25% في الاختبار، محققًا رقمًا قياسيًا جديدًا، ومع ذلك، فإن هذا التباين لا يعني أن OpenAI كذبت بشأن هذا المقياس. وفي ديسمبر 2024، أجرت OpenAI بثًا مباشرًا على يوتيوب ومنصات التواصل الاجتماعي الأخرى، للإعلان عن نموذج الذكاء الاصطناعي o3، وفي ذلك الوقت، سلّطت الشركة الضوء على مجموعة القدرات المُحسّنة في نموذج اللغة الكبير (LLM)، وتحديدًا، أدائه المُحسّن في الاستعلامات القائمة على الاستدلال. ومن الطرق التي جسّدت بها الشركة هذا الادعاء مشاركة نتائج النموذج المرجعية عبر اختبارات شائعة مُختلفة، ومن بين هذه الاختبارات اختبار FrontierMath، الذي طورته شركة Epoch AI. يُعرف هذا الاختبار الرياضي بصعوبته وقدرته على التلاعب، حيث طوّره أكثر من 70 عالم رياضيات، وجميع المسائل فيه جديدة وغير منشورة، والجدير بالذكر أنه حتى ديسمبر، لم يُجْزِ أي نموذج ذكاء اصطناعي أكثر من 9% من الأسئلة في محاولة واحدة. ومع ذلك، عند إطلاقه، ادّعى تشين أن o3 تمكّنت من تحقيق رقم قياسي جديد بتسجيلها 25% في الاختبار، ولم يكن التحقق الخارجي من الأداء ممكنًا في ذلك الوقت، نظرًا لعدم توفر النموذج في المجال العام، وبعد إطلاق o3 وo4-mini الأسبوع الماضي، نشرت شركة Epoch AI منشورًا على منصة X (المعروفة سابقًا باسم تويتر)، مدّعيةً أن نموذج o3، في الواقع، قد حقق 10% في الاختبار. ومع أن نسبة 10% تجعل نموذج الذكاء الاصطناعي الأعلى تصنيفًا في الاختبار، إلا أن هذا الرقم أقل من نصف ما ادّعته الشركة، وقد دفع هذا المنشور العديد من المتحمسين للذكاء الاصطناعي إلى الحديث عن صحة نتائج اختبارات الأداء المعيارية. ولا يعني هذا التباين أن OpenAI كذبت بشأن أداء نموذج الذكاء الاصطناعي الخاص بها، بل على العكس، من المرجح أن نموذج شركة الذكاء الاصطناعي غير المُصدر استخدم قدرات حوسبة أعلى للحصول على هذه النتيجة، ومع ذلك، يُرجّح أن النسخة التجارية من النموذج قد عُدّلت لتكون أكثر كفاءة في استهلاك الطاقة، وفي هذه العملية، تم تخفيف بعض أدائها. على صعيد منفصل، نشرت ARC Prize، وهي المنظمة التي تقف وراء اختبار ARC-AGI المعياري، الذي يختبر الذكاء العام لنموذج الذكاء الاصطناعي، أيضًا على منصة X حول هذا التباين، وأكد المنشور أن "نموذج o3 الصادر يختلف عن النموذج الذي اختبرناه في ديسمبر 2024". وزعمت الشركة أن مستويات الحوسبة في نموذج o3 الصادر أصغر من الإصدار الذي اختبرته. ومع ذلك، أكدت أن o3 لم يُدرّب على بيانات ARC-AGI، حتى في مرحلة ما قبل التدريب. وأعلنت جائزة ARC أنها ستعيد اختبار نموذج الذكاء الاصطناعي o3 الصادر وستنشر النتائج المحدثة. كما ستعيد الشركة اختبار نموذج o4-mini، وستصنف النتائج السابقة على أنها "معاينة"، وليس من المؤكد أن أداء الإصدار الصادر من o3 سيكون دون المستوى في هذا الاختبار أيضًا.

اختبار الرياضيات لنموذج الذكاء الاصطناعي o3 يكشف كذب "OpenAI"
اختبار الرياضيات لنموذج الذكاء الاصطناعي o3 يكشف كذب "OpenAI"

البلاد البحرينية

time٢١-٠٤-٢٠٢٥

  • علوم
  • البلاد البحرينية

اختبار الرياضيات لنموذج الذكاء الاصطناعي o3 يكشف كذب "OpenAI"

العربية.نت: في خطوة أثارت تساؤلات حول الشفافية والمصداقية، كشفت نتائج اختبار مستقلة عن أداء أقل من المتوقع لنموذج الذكاء الاصطناعي o3 الذي طورته شركة OpenAI، وذلك مقارنةً بالنتائج التي أعلنتها الشركة سابقًا. وكانت "OpenAI" قد استعرضت في ديسمبر قدرات النموذج الجديد، مشيرة إلى أنه قادر على الإجابة على أكثر من ربع أسئلة اختبار "FrontierMath" المتقدم، "اختبار مسائل رياضيات معقدة"، متفوقًا بشكل لافت على النماذج المنافسة التي لم تتجاوز دقتها 2% فقط. وخلال بث مباشر، صرّح مارك تشين، كبير الباحثين في "OpenAI"، بأن النموذج حقق نسبة تجاوزت 25% عند اختباره داخليًا باستخدام بنية حوسبية متقدمة، بحسب تقرير نشره موقع "تك كرانش" واطلعت عليه "العربية Business". غير أن هذه النتيجة تمثل على الأرجح الحد الأقصى لأداء النموذج، إذ تبيّن لاحقًا أنها كانت مستندة إلى نسخة تجريبية أكثر قوة من تلك التي طرحتها الشركة للعامة. وفي تقرير حديث، أعلن معهد "Epoch AI" – الجهة المطورة لمعيار "FrontierMath" – أن الاختبارات التي أجراها على الإصدار العام من o3 أظهرت أداءً أقل بكثير، إذ لم يتجاوز النموذج حاجز 10% من الإجابات الصحيحة. ورغم أن هذه النتيجة لا تُثبت أن "OpenAI" قدّمت معلومات مغلوطة، فإنها تثير تساؤلات حول أسلوب الشركة في عرض قدرات نماذجها. وأوضح معهد Epoch أن الفروقات قد تكون ناجمة عن اختلاف الإعدادات الحوسبية، أو عدد المسائل المستخدمة في كل اختبار. وفي منشور على منصة إكس، أكدت مؤسسة "ARC Prize" أن النسخة التي اختبرتها قبل الإطلاق الرسمي كانت مختلفة عن النموذج الموجّه للاستخدام في المنتجات، مشيرة إلى أن مستويات الحوسبة التي طُرحت للعامة أقل قوة من النسخ التجريبية. بدورها، قالت ويندا تشو، من الفريق التقني في "OpenAI"، إن النسخة الحالية من o3 مخصصة لتكون أكثر كفاءة وسرعة في الاستخدامات اليومية، ما قد يؤدي إلى تفاوت في نتائج الأداء. وتأتي هذه الواقعة لتضيف حلقة جديدة إلى سلسلة من الانتقادات التي تطال قطاع الذكاء الاصطناعي بشأن الشفافية في نتائج الاختبارات والمعايير. إذ سبق أن وُجهت اتهامات لشركة ميتا، وكذلك "xAI" التابعة لإيلون ماسك، بنشر نتائج اختبار غير دقيقة أو لم تُطبَّق على النماذج الفعلية المتاحة للمستخدمين. وفيما تستعد "OpenAI" لإطلاق نسخة أقوى من النموذج تحت اسم "o3-pro"، تبقى العبرة بضرورة توخي الحذر عند تقييم قدرات نماذج الذكاء الاصطناعي، خصوصًا عندما يكون مصدر النتائج جهةً لها مصلحة تجارية مباشرة.

تقنيات جديدة.. تفكر ملياً - كالبشر - قبل الإجابة عن الأسئلة
تقنيات جديدة.. تفكر ملياً - كالبشر - قبل الإجابة عن الأسئلة

الاتحاد

time٢١-٠٤-٢٠٢٥

  • علوم
  • الاتحاد

تقنيات جديدة.. تفكر ملياً - كالبشر - قبل الإجابة عن الأسئلة

نيويورك (الاتحاد) في سبتمبر، قدمت OpenAI تقنية ذكاء اصطناعي قادرة على «التفكير» لحل مهام تتعلق بالرياضيات، البرمجة، والعلوم. الآن، يمكن لهذه التقنية التعامل مع مهام مماثلة تشمل الصور، مثل الرسومات، الملصقات، الرسوم البيانية، والمخططات. وكشفت الشركة قبل أيام عن نسختين جديدتين من تقنية التفكير هذه، وهما OpenAI o3 وOpenAI o4-mini، وكلتاهما يمكنهما التعامل مع المهام التي تشمل النصوص والصور، بحسب صحيفة نيويورك تايمز. وقال مارك تشين، رئيس البحث في OpenAI، خلال بث مباشر عبر الإنترنت: «هذه الأنظمة يمكنها معالجة الصور، قصها، وتحويلها لخدمة المهمة التي تريد تنفيذها». كما أشارت OpenAI إلى أن هذه الأنظمة قادرة على إنشاء الصور، البحث في الإنترنت، واستخدام أدوات رقمية أخرى. على عكس الإصدارات الأولى من روبوت الدردشة ChatGPT، تقضي هذه الأنظمة التفكيرية وقتاً طويلاً في «التفكير» في السؤال قبل الإجابة، بدلاً من تقديم رد فوري. هذه الأنظمة جزء من جهود أوسع لتطوير ذكاء اصطناعي يمكنه التفكير في المهام المعقدة. والهدف هو بناء أنظمة تستطيع حل المشكلات من خلال سلسلة من الخطوات، حيث تبني كل خطوة على سابقتها، على غرار تفكير البشر. هذه التقنيات مفيدة بشكل خاص للمبرمجين. وتعتمد أنظمة التفكير على تقنية تُعرف بالنماذج اللغوية الكبيرة (L.L.M.s). لتطوير أنظمة التفكير، تخضع هذه النماذج لعملية إضافية تُسمى التعلم التعزيزي، حيث يتعلم النظام السلوك من خلال التجربة والخطأ المكثف. كما كشفت OpenAI عن أداة جديدة تُسمى Codex CLI، مصممة لتسهيل مهام البرمجة التي تشمل أنظمة، مثل o3 وo4-mini. تُعرف هذه الأداة بـ«وكيل الذكاء الاصطناعي»، وتوفر طرقاً لاستخدام أنظمة الذكاء الاصطناعي جنباً إلى جنب مع الأكواد المخزنة على جهاز المبرمج الشخصي. من خلال العمل على مسائل رياضية متنوعة، يتعلم النظام أي الطرق تؤدي للإجابة الصحيحة، فإذا تكررت هذه العملية مع عدد كبير من المسائل، يمكن للنظام التعرف على الأنماط.

حمل التطبيق

حمّل التطبيق الآن وابدأ باستخدامه الآن

مستعد لاستكشاف الأخبار والأحداث العالمية؟ حمّل التطبيق الآن من متجر التطبيقات المفضل لديك وابدأ رحلتك لاكتشاف ما يجري حولك.
app-storeplay-store