هل كذبت شركة xAI بشأن معايير "غروك 3"؟
لقد انتشرت المناقشات حول معايير الذكاء الاصطناعي، وكيف يتم الإبلاغ عنها من قبل مختبرات الذكاء الاصطناعي.
هذا الأسبوع، اتهم أحد موظفي "OpenAI" شركة الذكاء الاصطناعي"xAI" التابعة لإيلون ماسك، بنشر نتائج معايير مضللة لأحدث نموذج للذكاء الاصطناعي، "غروك 3".
بينما أصر أحد المؤسسين المشاركين لشركة xAI، إيغور بابوشكين، على أن الشركة كانت على حق، بحسب تقرير نشره موقع "تك كرانش" واطلعت عليه "العربية Business".
في منشور على مدونة "xAI"، نشرت الشركة رسمًا بيانيًا يوضح أداء "غروك 3" في AIME 2025، وهي مجموعة من أسئلة الرياضيات الصعبة من اختبار رياضيات.
شكك بعض الخبراء في صحة اختبارات AIME كمعيار للذكاء الاصطناعي.
ومع ذلك، تُستخدم AIME 2025 والإصدارات الأقدم من الاختبار بشكل شائع لاستكشاف قدرة النموذج على الرياضيات.
أظهر الرسم البياني الخاص بشركة xAI نسختين من Grok 3، Grok 3 Reasoning Beta و Grok 3 mini Reasoning، متفوقين على أفضل نموذج متاح أداءً من o3-mini-high، في AIME 2025.
لكن موظفي "OpenAI" على منصة إكس أشاروا إلى أن الرسم البياني الخاص بـ "xAI" لم يتضمن درجة AIME 2025 لـ o3-mini-high في أحد نماذج الاختبارات يسمي "cons@64".
ويميل "cons@64" إلى تعزيز درجات معيار الأداء للنماذج بشكل كبير، وقد يؤدي حذفه من الرسم البياني إلى جعل الأمر يبدو وكأن أحد النماذج يتفوق على الآخر بينما في الواقع، هذا ليس هو الحال.
إن درجات Grok 3 Reasoning Beta و Grok 3 mini Reasoning في AIME 2025 عند "@1" - أي الدرجة الأولى التي حصلت عليها النماذج في المعيار - تقع أقل من درجة o3-mini-high.
كما أن Grok 3 Reasoning Beta يتخلف قليلاً عن نموذج "o1" الذي تم ضبطه على الحوسبة المتوسطة، ومع ذلك، قالت "xAI" عن "غروك 3" أذكى ذكاء اصطناعي في العالم.
زعم بابوشكين على منصة إكس أن "OpenAI" نشرت مخططات معيارية مضللة مماثلة في الماضي، وإن كانت مخططات لمقارنة أداء نماذجها الخاصة.

جرب ميزات الذكاء الاصطناعي لدينا
اكتشف ما يمكن أن يفعله Daily8 AI من أجلك:
التعليقات
لا يوجد تعليقات بعد...
أخبار ذات صلة


الشرق السعودية
منذ 4 ساعات
- الشرق السعودية
OpenAI تكشف تفاصيل مشروع "ستارجيت الإمارات" للذكاء الاصطناعي
أعلنت شركة OpenAI إطلاق "ستارجيت الإمارات" (Stargate UAE) وهو أول توسع دولي لمنصة البنية التحتية للذكاء الاصطناعي "ستارجيت" التابعة للشركة، بالتعاون مع مجموعة "G42" الإماراتية، وبدعم من الحكومة الأميركية، ضمن شراكة استراتيجية تهدف إلى تعزيز الابتكار والنمو الاقتصادي في المنطقة. ويمثل المشروع استثماراً متبادلاً، يتضمن إنشاء مركز حوسبة متطور في أبوظبي بقدرة 1 جيجاواط، وتمويل إماراتي لمنشآت حوسبة متقدمة في الولايات المتحدة، في سياق شراكة أوسع لتسريع تطبيقات الذكاء الاصطناعي بين البلدين، والتي أُعلن عنها خلال زيارة الرئيس الأميركي دونالد ترمب الأسبوع الماضي، وفق بيان للشركة. وفي هذا السياق، قال بنج شياو، الرئيس التنفيذي لـ"G42"، إن المشروع "يعزز نقل فوائد الذكاء الاصطناعي إلى الاقتصادات والمجتمعات في العالم"، مؤكداً أنه يمثل خطوة مهمة في الشراكة الإماراتية الأميركية في هذا المجال. من جانبه، قال سام ألتمان، الرئيس التنفيذي لـ"OpenAI": "تضمن هذه الخطوة ظهور بعض من أهم الابتكارات في هذا العصر، مثل الأدوية الأكثر أماناً والتعليم المخصص والطاقة الحديثة، من مزيد من الدول لتعود بالنفع على البشرية"، وفق بيان. ومن المتوقع أن توفر "ستارجيت الإمارات" بنية تحتية للذكاء الاصطناعي وقدرات حوسبة تغطي دائرة نصف قطرها 2000 ميل، بما يصل إلى نصف سكان العالم. بنية تحتية عملاقة وبحسب ما أفادت به وكالة الأنباء الإماراتية، فإن المنشأة المرتقبة ستكون الأكبر من نوعها خارج الولايات المتحدة، وستقام ضمن مجمع ذكاء اصطناعي إماراتي-أميركي في أبوظبي، وسيزوّد المجمع مراكز بيانات الذكاء الاصطناعي وموارد الحوسبة الإقليمية بقدرة تصل إلى 5 جيجاواط، يمتد على مساحة 10 أميال مربعة، ويعتمد على مزيج من الطاقة النووية والشمسية والغاز الطبيعي، لتشغيل منشآته، في خطوة تهدف إلى خفض البصمة الكربونية للمشروع. ويُتوقع بدء تشغيل أول تجمع حوسبي بسعة 200 ميجاواط في عام 2026، بينما تتولى "OpenAI" و"أوراكل" إدارة عمليات التشغيل، مع تولي "G42" مسؤولية البناء. تفعيل وطني لـChatGPT أبرز ما تكشف عنه الاتفاقية هو أن الإمارات ستكون أول دولة تُفعل ChatGPT على نطاق وطني، ما يتيح لسكانها استخدام تقنيات OpenAI في مجالات حيوية تشمل الحوكمة، والرعاية الصحية، والطاقة، والتعليم، والنقل. ويعزز هذا التوسع الشامل من جهود الإمارات لتبني تقنيات الذكاء الاصطناعي بشكل منهجي، مع توظيفها في دعم التحول الرقمي وتطوير الخدمات العامة والخاصة. تعاون دولي واسع ويشارك في تطوير مركز البيانات عدد من الشركات العالمية، من بينها "سوفت بنك"، و"أوراكل"، و"إنفيديا"، و"سيسكو سيستمز"، ما يعكس حجم التعاون الدولي الواسع الذي يحظى به المشروع. ويأتي هذا الإعلان بعد أيام من تأكيد الإمارات التزامها باستثمار 1.4 تريليون دولار في الولايات المتحدة، ما يعزز من سياق المشروع ضمن شبكة أوسع من العلاقات الاقتصادية والتقنية بين البلدين. هذا المحتوى من "اقتصاد الشرق مع بلومبرغ"


الرجل
منذ 5 ساعات
- الرجل
بعد أعطال X.. إيلون ماسك يعود لـ "العمل 24/7" ويعد بتحسينات كبرى
صرح الملياردير الأمريكي إيلون ماسك إنه سيعود إلى أسلوبه الشهير بالعمل لساعات طويلة والنوم قاعات المؤتمرات، في محاولة لإصلاح المشكلات وتكثيف العمل على مشاريع شركته. وجاء ذلك في رد علني على سلسلة الأعطال التي أصابت منصة التواصل الاجتماعي X وكتب ماسك في منشور عبر منصة X: "عدت إلى قضاء 24 ساعة يوميًا في العمل، والنوم في قاعات المؤتمرات والمصانع. عليّ أن أكون شديد التركيز على X وxAI وTesla، خصوصًا مع اقتراب إطلاق Starship الأسبوع المقبل." Back to spending 24/7 at work and sleeping in conference/server/factory rooms. I must be super focused on 𝕏/xAI and Tesla (plus Starship launch next week), as we have critical technologies rolling out. As evidenced by the 𝕏 uptime issues this week, major operational… — Elon Musk (@elonmusk) May 24, 2025 المرحلة "حرجة" والتقنيات "مصيرية" يأتي تصريح ماسك في وقتٍ حرج يشهد فيه كل من "إكس" و"تسلا" و"سبيس إكس" لحظات مصيرية، إذ يعمل على إطلاق تقنيات جديدة تتعلق بالقيادة الذاتية والذكاء الاصطناعي، إضافة إلى الاستعداد لإطلاق صاروخ ستارشيب العملاق الأسبوع المقبل. وبحسب ماسك، فإن التركيز الكامل على هذه المشاريع لم يعد خيارًا، بل أصبح ضرورة حتمية، في ظل ارتفاع مستوى التعقيد التقني والمنافسة العالمية المتسارعة. أعطال متكررة تثير القلق وكان عدد من المستخدمين قد أبلغوا عن أعطال تقنية في منصة X خلال عطلة نهاية الأسبوع، ما دفع ماسك إلى الاعتراف بوجود حاجة ملحة لـ "تحسينات كبرى" في البنية التحتية والمنظومة التشغيلية للمنصة. ورغم محاولات ماسك في الأشهر الأخيرة لتفويض المهام وتقليل انخراطه المباشر، يبدو أن الأعطال الأخيرة أعادت تشكيل أولوياته، وأجبرته على إعادة الانخراط العملي اليومي المكثف داخل شركاته. اقرأ أيضًا: أسهم تسلا تقفز بثروة إيلون ماسك لتتخطى الـ 300 مليار دولار سباق مع الوقت وتأتي هذه التحركات في إطار سباق تقني تخوضه شركات ماسك لمواكبة التطورات المتسارعة في مجال الذكاء الاصطناعي، والروبوتات، والصواريخ القابلة لإعادة الاستخدام. ويرى مراقبون أن تعهد ماسك بالعودة إلى نمط "العمل والنوم في المصنع" يشير إلى تصاعد التوتر داخل مجموعة شركاته، لا سيما مع تصاعد الضغوط التنافسية والمطالب بتحقيق استقرار تشغيلي أكبر. وتبقى الأيام القادمة حاسمة في تحديد ما إذا كان هذا التركيز الكامل من ماسك سينجح في إنقاذ المنصة وتثبيت موقعها في عالم التواصل الاجتماعي سريع التغير.


صحيفة مال
منذ 6 ساعات
- صحيفة مال
'أنثروبيك' تكشف نماذج Claude 4 بقدرات محسّنة في البرمجة والاستدلال
كشفت شركة أنثروبيك رسميًا عن أحدث نماذج الذكاء الاصطناعي التي تطورها، Claude Opus 4 و Claude Sonnet 4، وهي نماذج هجينة متطورة تُركّز على تحسين أداء المهام البرمجية وحل المشكلات المعقدة. وأوضحت الشركة أن نموذج Claude Opus 4 يُعدّ أقوى نماذجها حتى الآن، إذ يستطيع العمل بنحو مستمر على مهام طويلة لعدة ساعات، مشيرةً إلى أنه تمكّن من العمل لمدة وصلت إلى سبع ساعات خلال اختبارات العملاء. ووفقا لـ 'بوابة التقنية' وصفت أنثروبيك هذا النموذج بأنه 'أفضل نموذج برمجي في العالم'، إذ تفوق على نماذج منافسة مثل Google Gemini 2.5 Pro بالإضافة إلى GPT-o3 و GPT-4.1 من OpenAI، في مهام البرمجة واستخدام الأدوات مثل البحث عبر الويب. اقرأ المزيد وأما Claude Sonnet 4 فهو إصدار أكثر كفاءة بتكلفة أقل، وهو موجه للمهام العامة، ويأتي خلفًا لنموذج Sonnet 3.7 الذي أُطلق في فبراير الماضي. وأكدت الشركة أن النموذج الجديد يقدم أداءً أفضل في البرمجة والاستدلال، إلى جانب ردود أكثر دقة، كما أظهرت تقييمات أنثروبيك أن كلا النموذجين الجديدين أقل احتمالًا بنسبة قدرها 65% إلى اللجوء إلى طرق مختصرة وغير موثوقة في تنفيذ المهام مقارنةً بالإصدارات السابقة، بالإضافة إلى تحسين القدرة على تخزين المعلومات الضرورية للمهام الطويلة عند منحه حق الوصول إلى الملفات المحلية. ومن المزايا الجديدة التي أُضيفت إلى كلا النموذجين ميزة 'ملخصات التفكير'، التي تُبسّط طريقة تحليل النموذج المعلومات لتسهيل فهمها، إلى جانب ميزة 'التفكير الموسّع' التي تسمح للمستخدمين بالتحكم في أنماط الاستدلال في النموذج. وتتوفر نماذج Claude Opus 4 و Sonnet 4 من خلال واجهة برمجة التطبيقات الخاصة بأنثروبيك، ومنصتي Amazon Bedrock و Google Cloud Vertex AI. وتتضمن خطط Claude المأجورة ميزة 'التفكير الموسّع' بنسختها التجريبية، في حين يمكن للمستخدمين أصحاب الحسابات المجانية استخدام نموذج Claude Sonnet 4 فقط. وفي السياق ذاته، أعلنت الشركة الإطلاق العام لأداة Claude Code، وهي أداة أوامر ذكية لتطوير البرمجيات، بعد أن كانت متاحة ضمن وضع تجريبي محدود منذ فبراير الماضي. وأكدت أنثروبيك أنها ستعتمد سياسة التحديثات المتكررة لنماذجها في محاولة لمواكبة المنافسة المتسارعة مع OpenAI وغوغل وميتا.