أحدث الأخبار مع #FrontierMath


نافذة على العالم
٢٢-٠٤-٢٠٢٥
- علوم
- نافذة على العالم
أخبار التكنولوجيا : هل بالغت OpenAI في أداء o3؟ نتائج FrontierMath تكشف عن 10% فقط
الثلاثاء 22 أبريل 2025 06:00 صباحاً نافذة على العالم - أظهر نموذج الذكاء الاصطناعي o3 من OpenAI، الذي صدر الأسبوع الماضي، أداءً ضعيفًا في معيار محدد، حيث أشارت شركة Epoch AI، الشركة المسئولة عن معيار FrontierMath، إلى أن النسخة المتاحة للجمهور من نموذج الذكاء الاصطناعي o3 حققت 10% في الاختبار، وهي نسبة أقل بكثير من ادعاء الشركة عند الإطلاق. وكان مارك تشين، كبير مسؤولي الأبحاث في شركة الذكاء الاصطناعي ومقرها سان فرانسيسكو، قد صرّح بأن النموذج حقق 25% في الاختبار، محققًا رقمًا قياسيًا جديدًا، ومع ذلك، فإن هذا التباين لا يعني أن OpenAI كذبت بشأن هذا المقياس. وفي ديسمبر 2024، أجرت OpenAI بثًا مباشرًا على يوتيوب ومنصات التواصل الاجتماعي الأخرى، للإعلان عن نموذج الذكاء الاصطناعي o3، وفي ذلك الوقت، سلّطت الشركة الضوء على مجموعة القدرات المُحسّنة في نموذج اللغة الكبير (LLM)، وتحديدًا، أدائه المُحسّن في الاستعلامات القائمة على الاستدلال. ومن الطرق التي جسّدت بها الشركة هذا الادعاء مشاركة نتائج النموذج المرجعية عبر اختبارات شائعة مُختلفة، ومن بين هذه الاختبارات اختبار FrontierMath، الذي طورته شركة Epoch AI. يُعرف هذا الاختبار الرياضي بصعوبته وقدرته على التلاعب، حيث طوّره أكثر من 70 عالم رياضيات، وجميع المسائل فيه جديدة وغير منشورة، والجدير بالذكر أنه حتى ديسمبر، لم يُجْزِ أي نموذج ذكاء اصطناعي أكثر من 9% من الأسئلة في محاولة واحدة. ومع ذلك، عند إطلاقه، ادّعى تشين أن o3 تمكّنت من تحقيق رقم قياسي جديد بتسجيلها 25% في الاختبار، ولم يكن التحقق الخارجي من الأداء ممكنًا في ذلك الوقت، نظرًا لعدم توفر النموذج في المجال العام، وبعد إطلاق o3 وo4-mini الأسبوع الماضي، نشرت شركة Epoch AI منشورًا على منصة X (المعروفة سابقًا باسم تويتر)، مدّعيةً أن نموذج o3، في الواقع، قد حقق 10% في الاختبار. ومع أن نسبة 10% تجعل نموذج الذكاء الاصطناعي الأعلى تصنيفًا في الاختبار، إلا أن هذا الرقم أقل من نصف ما ادّعته الشركة، وقد دفع هذا المنشور العديد من المتحمسين للذكاء الاصطناعي إلى الحديث عن صحة نتائج اختبارات الأداء المعيارية. ولا يعني هذا التباين أن OpenAI كذبت بشأن أداء نموذج الذكاء الاصطناعي الخاص بها، بل على العكس، من المرجح أن نموذج شركة الذكاء الاصطناعي غير المُصدر استخدم قدرات حوسبة أعلى للحصول على هذه النتيجة، ومع ذلك، يُرجّح أن النسخة التجارية من النموذج قد عُدّلت لتكون أكثر كفاءة في استهلاك الطاقة، وفي هذه العملية، تم تخفيف بعض أدائها. على صعيد منفصل، نشرت ARC Prize، وهي المنظمة التي تقف وراء اختبار ARC-AGI المعياري، الذي يختبر الذكاء العام لنموذج الذكاء الاصطناعي، أيضًا على منصة X حول هذا التباين، وأكد المنشور أن "نموذج o3 الصادر يختلف عن النموذج الذي اختبرناه في ديسمبر 2024". وزعمت الشركة أن مستويات الحوسبة في نموذج o3 الصادر أصغر من الإصدار الذي اختبرته. ومع ذلك، أكدت أن o3 لم يُدرّب على بيانات ARC-AGI، حتى في مرحلة ما قبل التدريب. وأعلنت جائزة ARC أنها ستعيد اختبار نموذج الذكاء الاصطناعي o3 الصادر وستنشر النتائج المحدثة. كما ستعيد الشركة اختبار نموذج o4-mini، وستصنف النتائج السابقة على أنها "معاينة"، وليس من المؤكد أن أداء الإصدار الصادر من o3 سيكون دون المستوى في هذا الاختبار أيضًا.


موجز نيوز
٢٢-٠٤-٢٠٢٥
- علوم
- موجز نيوز
هل بالغت OpenAI في أداء o3؟ نتائج FrontierMath تكشف عن 10% فقط
أظهر نموذج الذكاء الاصطناعي o3 من OpenAI ، الذي صدر الأسبوع الماضي، أداءً ضعيفًا في معيار محدد، حيث أشارت شركة Epoch AI، الشركة المسئولة عن معيار FrontierMath، إلى أن النسخة المتاحة للجمهور من نموذج الذكاء الاصطناعي o3 حققت 10% في الاختبار، وهي نسبة أقل بكثير من ادعاء الشركة عند الإطلاق. وكان مارك تشين، كبير مسؤولي الأبحاث في شركة الذكاء الاصطناعي ومقرها سان فرانسيسكو، قد صرّح بأن النموذج حقق 25% في الاختبار، محققًا رقمًا قياسيًا جديدًا، ومع ذلك، فإن هذا التباين لا يعني أن OpenAI كذبت بشأن هذا المقياس. وفي ديسمبر 2024، أجرت OpenAI بثًا مباشرًا على يوتيوب ومنصات التواصل الاجتماعي الأخرى، للإعلان عن نموذج الذكاء الاصطناعي o3، وفي ذلك الوقت، سلّطت الشركة الضوء على مجموعة القدرات المُحسّنة في نموذج اللغة الكبير (LLM)، وتحديدًا، أدائه المُحسّن في الاستعلامات القائمة على الاستدلال. ومن الطرق التي جسّدت بها الشركة هذا الادعاء مشاركة نتائج النموذج المرجعية عبر اختبارات شائعة مُختلفة، ومن بين هذه الاختبارات اختبار FrontierMath، الذي طورته شركة Epoch AI. يُعرف هذا الاختبار الرياضي بصعوبته وقدرته على التلاعب، حيث طوّره أكثر من 70 عالم رياضيات، وجميع المسائل فيه جديدة وغير منشورة، والجدير بالذكر أنه حتى ديسمبر، لم يُجْزِ أي نموذج ذكاء اصطناعي أكثر من 9% من الأسئلة في محاولة واحدة. ومع ذلك، عند إطلاقه، ادّعى تشين أن o3 تمكّنت من تحقيق رقم قياسي جديد بتسجيلها 25% في الاختبار، ولم يكن التحقق الخارجي من الأداء ممكنًا في ذلك الوقت، نظرًا لعدم توفر النموذج في المجال العام، وبعد إطلاق o3 وo4-mini الأسبوع الماضي، نشرت شركة Epoch AI منشورًا على منصة X (المعروفة سابقًا باسم تويتر)، مدّعيةً أن نموذج o3، في الواقع، قد حقق 10% في الاختبار. ومع أن نسبة 10% تجعل نموذج الذكاء الاصطناعي الأعلى تصنيفًا في الاختبار، إلا أن هذا الرقم أقل من نصف ما ادّعته الشركة، وقد دفع هذا المنشور العديد من المتحمسين للذكاء الاصطناعي إلى الحديث عن صحة نتائج اختبارات الأداء المعيارية. ولا يعني هذا التباين أن OpenAI كذبت بشأن أداء نموذج الذكاء الاصطناعي الخاص بها، بل على العكس، من المرجح أن نموذج شركة الذكاء الاصطناعي غير المُصدر استخدم قدرات حوسبة أعلى للحصول على هذه النتيجة، ومع ذلك، يُرجّح أن النسخة التجارية من النموذج قد عُدّلت لتكون أكثر كفاءة في استهلاك الطاقة، وفي هذه العملية، تم تخفيف بعض أدائها. على صعيد منفصل، نشرت ARC Prize، وهي المنظمة التي تقف وراء اختبار ARC-AGI المعياري، الذي يختبر الذكاء العام لنموذج الذكاء الاصطناعي، أيضًا على منصة X حول هذا التباين، وأكد المنشور أن "نموذج o3 الصادر يختلف عن النموذج الذي اختبرناه في ديسمبر 2024". وزعمت الشركة أن مستويات الحوسبة في نموذج o3 الصادر أصغر من الإصدار الذي اختبرته. ومع ذلك، أكدت أن o3 لم يُدرّب على بيانات ARC-AGI، حتى في مرحلة ما قبل التدريب. وأعلنت جائزة ARC أنها ستعيد اختبار نموذج الذكاء الاصطناعي o3 الصادر وستنشر النتائج المحدثة. كما ستعيد الشركة اختبار نموذج o4-mini، وستصنف النتائج السابقة على أنها "معاينة"، وليس من المؤكد أن أداء الإصدار الصادر من o3 سيكون دون المستوى في هذا الاختبار أيضًا.


اليوم السابع
٢١-٠٤-٢٠٢٥
- علوم
- اليوم السابع
هل بالغت OpenAI في أداء o3؟ نتائج FrontierMath تكشف عن 10% فقط
أظهر نموذج الذكاء الاصطناعي o3 من OpenAI ، الذي صدر الأسبوع الماضي، أداءً ضعيفًا في معيار محدد، حيث أشارت شركة Epoch AI، الشركة المسئولة عن معيار FrontierMath، إلى أن النسخة المتاحة للجمهور من نموذج الذكاء الاصطناعي o3 حققت 10% في الاختبار، وهي نسبة أقل بكثير من ادعاء الشركة عند الإطلاق. وكان مارك تشين، كبير مسؤولي الأبحاث في شركة الذكاء الاصطناعي ومقرها سان فرانسيسكو، قد صرّح بأن النموذج حقق 25% في الاختبار، محققًا رقمًا قياسيًا جديدًا، ومع ذلك، فإن هذا التباين لا يعني أن OpenAI كذبت بشأن هذا المقياس. وفي ديسمبر 2024، أجرت OpenAI بثًا مباشرًا على يوتيوب ومنصات التواصل الاجتماعي الأخرى، للإعلان عن نموذج الذكاء الاصطناعي o3، وفي ذلك الوقت، سلّطت الشركة الضوء على مجموعة القدرات المُحسّنة في نموذج اللغة الكبير (LLM)، وتحديدًا، أدائه المُحسّن في الاستعلامات القائمة على الاستدلال. ومن الطرق التي جسّدت بها الشركة هذا الادعاء مشاركة نتائج النموذج المرجعية عبر اختبارات شائعة مُختلفة، ومن بين هذه الاختبارات اختبار FrontierMath، الذي طورته شركة Epoch AI. يُعرف هذا الاختبار الرياضي بصعوبته وقدرته على التلاعب، حيث طوّره أكثر من 70 عالم رياضيات، وجميع المسائل فيه جديدة وغير منشورة، والجدير بالذكر أنه حتى ديسمبر، لم يُجْزِ أي نموذج ذكاء اصطناعي أكثر من 9% من الأسئلة في محاولة واحدة. ومع ذلك، عند إطلاقه، ادّعى تشين أن o3 تمكّنت من تحقيق رقم قياسي جديد بتسجيلها 25% في الاختبار، ولم يكن التحقق الخارجي من الأداء ممكنًا في ذلك الوقت، نظرًا لعدم توفر النموذج في المجال العام، وبعد إطلاق o3 وo4-mini الأسبوع الماضي، نشرت شركة Epoch AI منشورًا على منصة X (المعروفة سابقًا باسم تويتر)، مدّعيةً أن نموذج o3، في الواقع، قد حقق 10% في الاختبار. ومع أن نسبة 10% تجعل نموذج الذكاء الاصطناعي الأعلى تصنيفًا في الاختبار، إلا أن هذا الرقم أقل من نصف ما ادّعته الشركة، وقد دفع هذا المنشور العديد من المتحمسين للذكاء الاصطناعي إلى الحديث عن صحة نتائج اختبارات الأداء المعيارية. ولا يعني هذا التباين أن OpenAI كذبت بشأن أداء نموذج الذكاء الاصطناعي الخاص بها، بل على العكس، من المرجح أن نموذج شركة الذكاء الاصطناعي غير المُصدر استخدم قدرات حوسبة أعلى للحصول على هذه النتيجة، ومع ذلك، يُرجّح أن النسخة التجارية من النموذج قد عُدّلت لتكون أكثر كفاءة في استهلاك الطاقة، وفي هذه العملية، تم تخفيف بعض أدائها. على صعيد منفصل، نشرت ARC Prize، وهي المنظمة التي تقف وراء اختبار ARC-AGI المعياري، الذي يختبر الذكاء العام لنموذج الذكاء الاصطناعي، أيضًا على منصة X حول هذا التباين، وأكد المنشور أن "نموذج o3 الصادر يختلف عن النموذج الذي اختبرناه في ديسمبر 2024". وزعمت الشركة أن مستويات الحوسبة في نموذج o3 الصادر أصغر من الإصدار الذي اختبرته. ومع ذلك، أكدت أن o3 لم يُدرّب على بيانات ARC-AGI، حتى في مرحلة ما قبل التدريب. وأعلنت جائزة ARC أنها ستعيد اختبار نموذج الذكاء الاصطناعي o3 الصادر وستنشر النتائج المحدثة. كما ستعيد الشركة اختبار نموذج o4-mini، وستصنف النتائج السابقة على أنها "معاينة"، وليس من المؤكد أن أداء الإصدار الصادر من o3 سيكون دون المستوى في هذا الاختبار أيضًا.


البلاد البحرينية
٢١-٠٤-٢٠٢٥
- علوم
- البلاد البحرينية
اختبار الرياضيات لنموذج الذكاء الاصطناعي o3 يكشف كذب "OpenAI"
العربية.نت: في خطوة أثارت تساؤلات حول الشفافية والمصداقية، كشفت نتائج اختبار مستقلة عن أداء أقل من المتوقع لنموذج الذكاء الاصطناعي o3 الذي طورته شركة OpenAI، وذلك مقارنةً بالنتائج التي أعلنتها الشركة سابقًا. وكانت "OpenAI" قد استعرضت في ديسمبر قدرات النموذج الجديد، مشيرة إلى أنه قادر على الإجابة على أكثر من ربع أسئلة اختبار "FrontierMath" المتقدم، "اختبار مسائل رياضيات معقدة"، متفوقًا بشكل لافت على النماذج المنافسة التي لم تتجاوز دقتها 2% فقط. وخلال بث مباشر، صرّح مارك تشين، كبير الباحثين في "OpenAI"، بأن النموذج حقق نسبة تجاوزت 25% عند اختباره داخليًا باستخدام بنية حوسبية متقدمة، بحسب تقرير نشره موقع "تك كرانش" واطلعت عليه "العربية Business". غير أن هذه النتيجة تمثل على الأرجح الحد الأقصى لأداء النموذج، إذ تبيّن لاحقًا أنها كانت مستندة إلى نسخة تجريبية أكثر قوة من تلك التي طرحتها الشركة للعامة. وفي تقرير حديث، أعلن معهد "Epoch AI" – الجهة المطورة لمعيار "FrontierMath" – أن الاختبارات التي أجراها على الإصدار العام من o3 أظهرت أداءً أقل بكثير، إذ لم يتجاوز النموذج حاجز 10% من الإجابات الصحيحة. ورغم أن هذه النتيجة لا تُثبت أن "OpenAI" قدّمت معلومات مغلوطة، فإنها تثير تساؤلات حول أسلوب الشركة في عرض قدرات نماذجها. وأوضح معهد Epoch أن الفروقات قد تكون ناجمة عن اختلاف الإعدادات الحوسبية، أو عدد المسائل المستخدمة في كل اختبار. وفي منشور على منصة إكس، أكدت مؤسسة "ARC Prize" أن النسخة التي اختبرتها قبل الإطلاق الرسمي كانت مختلفة عن النموذج الموجّه للاستخدام في المنتجات، مشيرة إلى أن مستويات الحوسبة التي طُرحت للعامة أقل قوة من النسخ التجريبية. بدورها، قالت ويندا تشو، من الفريق التقني في "OpenAI"، إن النسخة الحالية من o3 مخصصة لتكون أكثر كفاءة وسرعة في الاستخدامات اليومية، ما قد يؤدي إلى تفاوت في نتائج الأداء. وتأتي هذه الواقعة لتضيف حلقة جديدة إلى سلسلة من الانتقادات التي تطال قطاع الذكاء الاصطناعي بشأن الشفافية في نتائج الاختبارات والمعايير. إذ سبق أن وُجهت اتهامات لشركة ميتا، وكذلك "xAI" التابعة لإيلون ماسك، بنشر نتائج اختبار غير دقيقة أو لم تُطبَّق على النماذج الفعلية المتاحة للمستخدمين. وفيما تستعد "OpenAI" لإطلاق نسخة أقوى من النموذج تحت اسم "o3-pro"، تبقى العبرة بضرورة توخي الحذر عند تقييم قدرات نماذج الذكاء الاصطناعي، خصوصًا عندما يكون مصدر النتائج جهةً لها مصلحة تجارية مباشرة.


الوئام
٢١-٠٤-٢٠٢٥
- علوم
- الوئام
تباين في نتائج اختبارات نموذج o3 يثير تساؤلات حول شفافية OpenAI
أثار تباين ملحوظ بين نتائج اختبارات الأداء التي أعلنتها شركة OpenAI لنموذج الذكاء الاصطناعي o3، وتلك التي توصلت إليها جهات بحثية مستقلة، تساؤلات حول شفافية الشركة وممارساتها في تقييم النماذج. ففي ديسمبر الماضي، كشفت OpenAI عن أن نموذجها الجديد o3 تمكن من حل أكثر من ربع مسائل Frontier Math، وهو اختبار رياضي عالي التعقيد يستخدم لقياس قدرات النماذج المتقدمة، في حين أن أفضل النماذج الأخرى لم تتجاوز نسبة 2% في نفس الاختبار. وقال مارك تشن، مدير الأبحاث في OpenAI، خلال بث مباشر: 'نحن نرى داخليًا، مع o3 في إعدادات استخدام حوسبة مكثفة، أنه قادر على تجاوز نسبة 25%'. لكن النتائج المستقلة التي نشرتها مؤسسة Epoch AI، وهي الجهة المطورة لاختبار Frontier Math، أظهرت أن نموذج o3 لم يتجاوز نسبة 10%، وهو ما يشير إلى فجوة واضحة بين الادعاءات الرسمية والنتائج المستقلة. ورغم هذا الفارق، لا تتهم Epoch شركة OpenAI بالتضليل صراحةً، بل أوضحت أن الفروقات قد تعود إلى استخدام OpenAI إصدارًا مختلفًا أو أكثر تطورًا من النموذج في اختبارات ديسمبر، أو ربما استُخدمت مجموعة مختلفة من المسائل ضمن Frontier Math، إلى جانب احتمال توظيف موارد حسابية أكبر في الاختبارات الداخلية. وفي هذا السياق، أكدت مؤسسة ARC Prize، التي اختبرت نسخة ما قبل الإطلاق من o3، أن النسخة العامة المطروحة للمستخدمين 'مختلفة'، وتم إعدادها لتناسب الاستخدامات التفاعلية مثل الدردشة، وهو ما يتماشى مع ملاحظات Epoch. وأضافت ARC أن جميع نسخ o3 المطروحة حاليًا أقل من حيث القوة الحوسبية مقارنة بالنسخة التي أجريت عليها الاختبارات الأولية. وبالرغم من هذا الجدل، فإن OpenAI أشارت إلى أن نماذجها الأحدث، مثل o3-mini-high وo4-mini، تتفوق على o3 في اختبار Frontier Math، مع خطط لإطلاق نسخة أكثر تطورًا تُعرف بـ o3-pro خلال الأسابيع المقبلة. لكن هذه الواقعة تسلط الضوء مجددًا على أن نتائج اختبارات النماذج، خاصة تلك الصادرة عن الشركات المطورة ذاتها، ينبغي التعامل معها بحذر. فسباق التنافس في سوق الذكاء الاصطناعي دفع العديد من الشركات إلى نشر نتائج أداء قد تكون انتقائية أو غير ممثلة بدقة للواقع. ويُذكر أن صناعة الذكاء الاصطناعي شهدت في الأشهر الأخيرة حالات مشابهة؛ منها انتقادات وُجّهت إلى مؤسسة Epoch لتأخرها في الكشف عن تمويل تلقّته من OpenAI، فضلًا عن اتهامات لشركة xAI التي يملكها إيلون ماسك بنشر رسوم بيانية مضللة حول أداء نموذجها Grok 3، واعتراف شركة Meta مؤخرًا بأن الأرقام التي أعلنتها تخص نسخة مختلفة من نموذجها لم تُتح بعد للمطورين.