
اختبار الرياضيات لنموذج الذكاء الاصطناعي o3 يكشف كذب "OpenAI"
العربية.نت:
في خطوة أثارت تساؤلات حول الشفافية والمصداقية، كشفت نتائج اختبار مستقلة عن أداء أقل من المتوقع لنموذج الذكاء الاصطناعي o3 الذي طورته شركة OpenAI، وذلك مقارنةً بالنتائج التي أعلنتها الشركة سابقًا.
وكانت "OpenAI" قد استعرضت في ديسمبر قدرات النموذج الجديد، مشيرة إلى أنه قادر على الإجابة على أكثر من ربع أسئلة اختبار "FrontierMath" المتقدم، "اختبار مسائل رياضيات معقدة"، متفوقًا بشكل لافت على النماذج المنافسة التي لم تتجاوز دقتها 2% فقط.
وخلال بث مباشر، صرّح مارك تشين، كبير الباحثين في "OpenAI"، بأن النموذج حقق نسبة تجاوزت 25% عند اختباره داخليًا باستخدام بنية حوسبية متقدمة، بحسب تقرير نشره موقع "تك كرانش" واطلعت عليه "العربية Business".
غير أن هذه النتيجة تمثل على الأرجح الحد الأقصى لأداء النموذج، إذ تبيّن لاحقًا أنها كانت مستندة إلى نسخة تجريبية أكثر قوة من تلك التي طرحتها الشركة للعامة.
وفي تقرير حديث، أعلن معهد "Epoch AI" – الجهة المطورة لمعيار "FrontierMath" – أن الاختبارات التي أجراها على الإصدار العام من o3 أظهرت أداءً أقل بكثير، إذ لم يتجاوز النموذج حاجز 10% من الإجابات الصحيحة.
ورغم أن هذه النتيجة لا تُثبت أن "OpenAI" قدّمت معلومات مغلوطة، فإنها تثير تساؤلات حول أسلوب الشركة في عرض قدرات نماذجها.
وأوضح معهد Epoch أن الفروقات قد تكون ناجمة عن اختلاف الإعدادات الحوسبية، أو عدد المسائل المستخدمة في كل اختبار.
وفي منشور على منصة إكس، أكدت مؤسسة "ARC Prize" أن النسخة التي اختبرتها قبل الإطلاق الرسمي كانت مختلفة عن النموذج الموجّه للاستخدام في المنتجات، مشيرة إلى أن مستويات الحوسبة التي طُرحت للعامة أقل قوة من النسخ التجريبية.
بدورها، قالت ويندا تشو، من الفريق التقني في "OpenAI"، إن النسخة الحالية من o3 مخصصة لتكون أكثر كفاءة وسرعة في الاستخدامات اليومية، ما قد يؤدي إلى تفاوت في نتائج الأداء.
وتأتي هذه الواقعة لتضيف حلقة جديدة إلى سلسلة من الانتقادات التي تطال قطاع الذكاء الاصطناعي بشأن الشفافية في نتائج الاختبارات والمعايير.
إذ سبق أن وُجهت اتهامات لشركة ميتا، وكذلك "xAI" التابعة لإيلون ماسك، بنشر نتائج اختبار غير دقيقة أو لم تُطبَّق على النماذج الفعلية المتاحة للمستخدمين.
وفيما تستعد "OpenAI" لإطلاق نسخة أقوى من النموذج تحت اسم "o3-pro"، تبقى العبرة بضرورة توخي الحذر عند تقييم قدرات نماذج الذكاء الاصطناعي، خصوصًا عندما يكون مصدر النتائج جهةً لها مصلحة تجارية مباشرة.

جرب ميزات الذكاء الاصطناعي لدينا
اكتشف ما يمكن أن يفعله Daily8 AI من أجلك:
التعليقات
لا يوجد تعليقات بعد...
أخبار ذات صلة


أخبار الخليج
منذ 5 أيام
- أخبار الخليج
OpenAI ومايكروسوفت تعيدان النظر في بنود شراكتهما
تعيد شركتا مايكروسوفت و OpenAI النظر في بنود شراكتهما، والتي تبلغ قيمتها عدة مليارات من الدولارات، وذلك لتحقيق المصالح والأهداف التي تسعى كل منهما لتحقيقها. وتعمل الشركتان على إعادة صياغة بنود عقد شراكتهما، بحيث تتمكن مطورة ChatGPT من خوض عملية اكتتاب عام مستقبلاً، مع استمرار وصول مايكروسوفت إلى نماذج الذكاء الاصطناعي فائقة التطور الخاصة بها، وفق صحيفة «فاينانشيال تايمز». وشكّل عملاق نظام التشغيل «ويندوز» ( Windows ) عامل رفض رئيسي وراء تعطيل خطط الشركة الناشئة، التي تبلغ قيمتها 260 مليار دولار، للخضوع لإعادة هيكلة مؤسسية من شأنها أن تبعد المجموعة عن جذورها كمنظمة غير ربحية. وكانت إحدى المسائل الشائكة المطروحة على طاولة المفاوضات هو حجم الحصة التي ستحصل عليها مايكروسوفت، في حال تمت إعادة هيكلة OpenAI ، نظير ما استثمرته، والذي وصل إلى قرابة 13 مليار دولار.


البلاد البحرينية
١٣-٠٥-٢٠٢٥
- البلاد البحرينية
ماسك يجري حديثاً مع الأمير محمد بن سلمان وترامب بقصر اليمامة
أثناء استقبال ولي العهد السعودي الأمير محمد بن سلمان للرئيس الأميركي دونالد ترامب، ظهر قطب التكنولوجيا والملياردير الأميركي إيلون ماسك بقصر اليمامة في العاصمة الرياض. إذ يرافق ماسك، وهو الرئيس التنفيذي لشركتي "تسلا" و"سبيس إكس"، ومؤسس شركة الذكاء الاصطناعي الناشئة "XAI"، الوفد الأميركي المصاحب لترامب خلال زيارته إلى السعودية، التي هي ضمن الجولة الرسمية الأولى له خارج الولايات المتحدة في ولايته الرئاسية الثانية. حديث مقتضب وظهر ماسك وهو يصافح ولي العهد، الذي كان يقف إلى جانب الرئيس الأميركي، لتحية الوفد الأميركي الكبير الذي يضم العديد من وزراء الحكومة وكبار المسؤولين، إلى جانب المسؤولين السعوديين. وأجرى ولي العهد وترامب حديثا صغيرا مقتضبًا مع ماسك أثناء مصافحته، حيث ابتسم ثلاثتهم بنهاية الحديث. يشار إلى أنه من المتوقع أن يكون ماسك من بين أبرز المشاركين في منتدى الاستثمار السعودي-الأميركي، الذي انطلق بوقت سابق اليوم في الرياض على هامش زيارة ترامب. كما يرتقب حضور قادة شركات تكنولوجيا كبرى أخرى منتدى الاستثمار السعودي-الأميركي بما في ذلك الرؤساء التنفيذيون لشركات ميتا و"OpenAI" وأمازون وإنفيديا. ومن المتوقع أن يكون الذكاء الاصطناعي محور اهتمام كبير في مؤتمر الاستثمار السعودي-الأميركي. فيما قال وزير الاستثمار السعودي، خالد الفالح، أثناء افتتاح فعاليات منتدى الاستثمار السعودي-الأميركي، إن "رؤية 2030" قطعت شوطًا هامًا في جميع القطاعات منها الذكاء الاصطناعي. وأطلق ولي العهد السعودي، أمس الاثنين، شركة هيوماين، إحدى الشركات المملوكة لصندوق الاستثمارات العامة، والتي تهدف إلى تطوير وإدارة حلول وتقنيات الذكاء الاصطناعي، والاستثمار في القطاع. وستعمل "هيوماين"، التي يرأس ولي العهد مجلس إدارتها، على تقديم أحدث نماذج وتطبيقات الذكاء الاصطناعي، ومن ذلك تطوير أحد أفضل النماذج اللغوية الكبيرة (LLM) باللغة العربية، إلى جانب الجيل الجديد من مراكز البيانات، والبنية التحتية للحوسبة السحابية.


الوطن
٠٩-٠٥-٢٠٢٥
- الوطن
واجهة برمجة التطبيقات الخاصة بـ«لاما» في الذكاء الاصطناعي
د. جاسم حاجي أعلنت شركة «ميتا» عن إطلاق واجهة برمجة التطبيقات الخاصة بـ«لاما» (Llama API)، والمصمّمة لمساعدة المطورين على دمج نماذج الذكاء الاصطناعي من نوع «لاما» في منتجاتهم بشكل أكثر سهولة. وقد تم تقديم هذه الواجهة خلال أول مؤتمر لمطوري الذكاء الاصطناعي تنظمه «ميتا»، وهي متاحة حالياً لمجموعة مختارة من المستخدمين، مع خطة لتوسيع نطاق الإتاحة خلال الأشهر المقبلة. وبالتوازي مع إطلاق الواجهة، طرحت «ميتا» تطبيقاً مستقلاً لمساعد ذكي يعمل بالذكاء الاصطناعي، وأكدت عزمها اختبار نظام اشتراك مدفوع لمحادثات الذكاء الاصطناعي في وقت لاحق من هذا العام. كما سلّطت الشركة الضوء على التحسينات التي طرأت على أحدث نماذج «لاما»، مركّزة على الكفاءة وتقليل التكاليف. وأكدت «ميتا» أيضاً أن المطورين سيحتفظون بالتحكم الكامل في النماذج المخصّصة التي يقومون بإنشائها، مع المرونة في نشرها خارج منصات «ميتا». ويأتي طرح واجهة «لاما» في إطار سعي «ميتا» للحفاظ على ريادتها في سوق النماذج المفتوحة المصدر، الذي يشهد تنافساً حاداً. وعلى الرغم من أن نماذج «لاما» قد تم تحميلها أكثر من مليار مرة حتى الآن وفقاً لميتا، إلا أن منافسين مثل «ديب سيك» (DeepSeek) و«تشيوين» (Qwen) التابع لشركة «علي بابا» يشكّلون تحدياً لطموحات «ميتا» في بناء منظومة واسعة تعتمد على «لاما». وتوفر واجهة «لاما» أدوات لتخصيص النماذج وتقييم أدائها، بدءاً من نموذج «لاما 3.3 8 B». ويمكن للمستخدمين توليد بيانات تدريبية، والتدرب عليها، ثم استخدام مجموعة أدوات التقييم المضمنة في واجهة «لاما» لاختبار جودة النموذج المخصّص. وأكدت «ميتا» أنها لن تستخدم بيانات عملاء واجهة «لاما» في تدريب نماذجها الخاصة، وأن النماذج التي يتم إنشاؤها عبر هذه الواجهة يمكن نقلها إلى منصات استضافة أخرى. وتقوم «ميتا» بإتاحة نماذج «لاما» للمطورين بشكل شبه مجاني، وهي استراتيجية سبق للرئيس التنفيذي مارك زوكربيرغ أن أشار إلى أنها ستؤتي ثمارها عبر تحفيز الابتكار، وتقليل الاعتماد على المنافسين المحتملين، وزيادة التفاعل على شبكات الشركة الاجتماعية الرئيسة. - شراكة «ميتا - سيريبراس»: تتيح هذه الشراكة للمطورين الذين يعملون على نموذج «Llama 4» من «سيريبراس» عبر واجهة البرمجة التطبيقية (API) تحقيق سرعات تصل إلى 18 ضعفاً مقارنةً بالحلول التقليدية المعتمدة على وحدات معالجة الرسوميات (GPU)، وذلك وفقاً لتصريحات شركة «سيريبراس». وتُعدّ هذه السرعة الفائقة بوابةً نحو جيلٍ جديد بالكامل من التطبيقات التي كان من المستحيل بناؤها باستخدام تقنيات أخرى. وتشمل هذه التطبيقات: المحادثات الصوتية الفورية منخفضة الكمون، وتوليد الشيفرات التفاعلية، والاستدلال الفوري متعدد الخطوات، بالإضافة إلى الوكلاء الذكيين في الزمن الحقيقي – وجميعها تعتمد على سلسلة من استدعاءات النماذج اللغوية الكبيرة (LLM)، والتي أصبح بالإمكان تنفيذها في ثوانٍ بدلاً من دقائق.