أحدث الأخبار مع #ARCPrize

تباين في نتائج اختبارات نموذج o3 يثير تساؤلات حول شفافية OpenAI

الوئام

٢١-٠٤-٢٠٢٥

علوم
الوئام

تباين في نتائج اختبارات نموذج o3 يثير تساؤلات حول شفافية OpenAI

أثار تباين ملحوظ بين نتائج اختبارات الأداء التي أعلنتها شركة OpenAI لنموذج الذكاء الاصطناعي o3، وتلك التي توصلت إليها جهات بحثية مستقلة، تساؤلات حول شفافية الشركة وممارساتها في تقييم النماذج. ففي ديسمبر الماضي، كشفت OpenAI عن أن نموذجها الجديد o3 تمكن من حل أكثر من ربع مسائل Frontier Math، وهو اختبار رياضي عالي التعقيد يستخدم لقياس قدرات النماذج المتقدمة، في حين أن أفضل النماذج الأخرى لم تتجاوز نسبة 2% في نفس الاختبار. وقال مارك تشن، مدير الأبحاث في OpenAI، خلال بث مباشر: 'نحن نرى داخليًا، مع o3 في إعدادات استخدام حوسبة مكثفة، أنه قادر على تجاوز نسبة 25%'. لكن النتائج المستقلة التي نشرتها مؤسسة Epoch AI، وهي الجهة المطورة لاختبار Frontier Math، أظهرت أن نموذج o3 لم يتجاوز نسبة 10%، وهو ما يشير إلى فجوة واضحة بين الادعاءات الرسمية والنتائج المستقلة. ورغم هذا الفارق، لا تتهم Epoch شركة OpenAI بالتضليل صراحةً، بل أوضحت أن الفروقات قد تعود إلى استخدام OpenAI إصدارًا مختلفًا أو أكثر تطورًا من النموذج في اختبارات ديسمبر، أو ربما استُخدمت مجموعة مختلفة من المسائل ضمن Frontier Math، إلى جانب احتمال توظيف موارد حسابية أكبر في الاختبارات الداخلية. وفي هذا السياق، أكدت مؤسسة ARC Prize، التي اختبرت نسخة ما قبل الإطلاق من o3، أن النسخة العامة المطروحة للمستخدمين 'مختلفة'، وتم إعدادها لتناسب الاستخدامات التفاعلية مثل الدردشة، وهو ما يتماشى مع ملاحظات Epoch. وأضافت ARC أن جميع نسخ o3 المطروحة حاليًا أقل من حيث القوة الحوسبية مقارنة بالنسخة التي أجريت عليها الاختبارات الأولية. وبالرغم من هذا الجدل، فإن OpenAI أشارت إلى أن نماذجها الأحدث، مثل o3-mini-high وo4-mini، تتفوق على o3 في اختبار Frontier Math، مع خطط لإطلاق نسخة أكثر تطورًا تُعرف بـ o3-pro خلال الأسابيع المقبلة. لكن هذه الواقعة تسلط الضوء مجددًا على أن نتائج اختبارات النماذج، خاصة تلك الصادرة عن الشركات المطورة ذاتها، ينبغي التعامل معها بحذر. فسباق التنافس في سوق الذكاء الاصطناعي دفع العديد من الشركات إلى نشر نتائج أداء قد تكون انتقائية أو غير ممثلة بدقة للواقع. ويُذكر أن صناعة الذكاء الاصطناعي شهدت في الأشهر الأخيرة حالات مشابهة؛ منها انتقادات وُجّهت إلى مؤسسة Epoch لتأخرها في الكشف عن تمويل تلقّته من OpenAI، فضلًا عن اتهامات لشركة xAI التي يملكها إيلون ماسك بنشر رسوم بيانية مضللة حول أداء نموذجها Grok 3، واعتراف شركة Meta مؤخرًا بأن الأرقام التي أعلنتها تخص نسخة مختلفة من نموذجها لم تُتح بعد للمطورين.

تكاليف تشغيل نموذج "OpenAI" الجديد o3 قد تفوق التقديرات الأولية

المغرب اليوم

٠٣-٠٤-٢٠٢٥

أعمال
المغرب اليوم

تكاليف تشغيل نموذج "OpenAI" الجديد o3 قد تفوق التقديرات الأولية

يبدو أن تشغيل نموذج الذكاء الاصطناعي o3 من شركة OpenAI قد يكون أكثر تكلفة مما كان متوقعًا في البداية، وفقًا لتحديث جديد من مؤسسة ARC Prize، الجهة المسؤولة عن اختبار معايير الذكاء الاصطناعي عالي الكفاءة. عند إطلاقه في ديسمبر، قدمت "OpenAI" نموذجها الجديد باعتباره قفزة نوعية في عالم الذكاء الاصطناعي الاستدلالي، حيث تعاونت مع مطوري ARC-AGI لاختبار إمكانياته. لكن بعد مراجعة البيانات، تبين أن التكاليف الحقيقية قد تكون أعلى بعشرة أضعاف من التقديرات الأولية، بحسب تقرير نشره موقع "تك كرانش" واطلعت عليه "العربية Business". في البداية، قدرت مؤسسة ARC Prize أن تشغيل o3 high - أقوى إصدارات النموذج - يكلف حوالي 3.000 دولار لكل مهمة ضمن اختبارات ARC-AGI. لكن المراجعات الأخيرة أشارت إلى أن التكلفة الحقيقية قد تصل إلى 30.000 دولار لكل مهمة، مما يثير تساؤلات حول جدوى استخدامه على نطاق واسع. وبحسب مايك نوب، المؤسس المشارك للمؤسسة، فإن تكلفة تشغيل النموذج قد تقترب من o1-pro، وهو أغلى نموذج تقدمه "OpenAI" حتى الآن. وأكد أن هذه الأرقام لا تزال تقديرات أولية، إذ لم تعلن الشركة بعد عن تسعير o3 رسميًا. استهلاك ضخم لموارد الحوسبة تكشف البيانات أن o3 high يستخدم حوسبة أكثر بـ 172 مرة من o3 low، وهو الإصدار الأقل استهلاكًا، لتنفيذ نفس المهام. هذا يشير إلى أن تشغيل النموذج قد يتطلب استثمارات ضخمة في البنية التحتية السحابية، مما قد يجعل استخدامه محدودًا على نطاق واسع. خطط تسعير باهظة للشركات التكلفة العالية لـ o3 تتماشى مع تقارير سابقة حول نية "OpenAI" تقديم خطط تسعير مرتفعة للعملاء من الشركات. ووفقًا لصحيفة "The Information"، تدرس الشركة فرض 20.000 دولار شهريًا على بعض خدمات الذكاء الاصطناعي، مثل "وكلاء الذكاء الاصطناعي المتخصصين". رغم ذلك، يرى بعض المحللين أن حتى أغلى نماذج "OpenAI" قد تكون أقل تكلفة من توظيف موظفين بشريين، لكنها قد لا تتمتع بنفس الكفاءة. فوفقًا لباحث الذكاء الاصطناعي توبي أورد، احتاج o3 high إلى 1024 محاولة لكل مهمة في اختبار ARC-AGI للحصول على أفضل نتيجة، مما يعكس التحديات التي لا يزال الذكاء الاصطناعي يواجهها مقارنةً بالعقل البشري.

أحدث الأخبار مع #ARCPrize

تباين في نتائج اختبارات نموذج o3 يثير تساؤلات حول شفافية OpenAI

تكاليف تشغيل نموذج "OpenAI" الجديد o3 قد تفوق التقديرات الأولية

حمّل التطبيق الآن وابدأ باستخدامه الآن