أحدث الأخبار مع #ألعاببوكيمون

نموذج جيميني للذكاء الاصطناعي يصُاب بالذعر أثناء لعب بوكيمون

سرايا الإخبارية

منذ يوم واحد

علوم
سرايا الإخبارية

نموذج جيميني للذكاء الاصطناعي يصُاب بالذعر أثناء لعب بوكيمون

سرايا - تتنافس شركات الذكاء الاصطناعي للسيطرة على هذه الصناعة، لكنها أحيانًا تتنافس أيضًا في صالات بوكيمون. بينما تدرس كلٌّ من "غوغل" و"أنثروبيك" كيفية تعامل أحدث نماذج الذكاء الاصطناعي الخاصة بهما مع ألعاب بوكيمون المبكرة، يمكن أن تكون النتائج مسلية ومفيدة في آنٍ واحد. كتبت "غوغل ديب مايند" في تقرير أن جيميني 2.5 برو يلجأ إلى الذعر عندما تكون بوكيموناته على وشك الموت. يمكن أن يؤدي هذا إلى "تدهور نوعي ملحوظ في قدرة النموذج على التفكير"، وفقًا للتقرير. يُعد تقييم أداء الذكاء الاصطناعي - أو عملية مقارنة أداء نماذج الذكاء الاصطناعي المختلفة - فنًا مشكوكًا فيه، وغالبًا ما لا يوفر سياقًا كافيًا للقدرات الفعلية لنموذج معين، بحسب تقرير نشره موقع "تك كرانش" . ويعتقد بعض الباحثين أن دراسة كيفية لعب نماذج الذكاء الاصطناعي لألعاب الفيديو قد تكون مفيدة. على مدار الأشهر القليلة الماضية، أنشأ مطوران مستقلان عن "غوغل" و"أنثروبيك" بثين مباشرين على "تويتش" بعنوان "جيميني يلعب بوكيمون" و"كلود يلعب بوكيمون"، حيث يمكن لأي شخص المشاهدة مباشرةً بينما يحاول الذكاء الاصطناعي التنقل في لعبة فيديو للأطفال من أكثر من 25 عامًا. يعرض كل بث عملية "التفكير" التي يتبعها الذكاء الاصطناعي - أو ترجمة لغوية طبيعية لكيفية تقييمه لمشكلة ما والتوصل إلى حل - مما يمنحنا فهمًا أعمق لكيفية عمل هذه النماذج. مع أن تطور نماذج الذكاء الاصطناعي هذه مثير للإعجاب، إلا أنها لا تزال غير بارعة في لعب البوكيمون. يستغرق جيميني مئات الساعات للتفكير في لعبة يمكن لطفل إكمالها في وقت أقصر بكثير . المثير للاهتمام في مشاهدة ذكاء اصطناعي يتنقل في لعبة بوكيمون ليس وقت إكمالها، بل سلوكها خلال اللعبة. خلال اللعب، يواجه جيميني 2.5 برو مواقف مختلفة تُحاكي حالة "الذعر" في النموذج، وفقًا للتقرير. قد تؤدي حالة الذعر هذه إلى تراجع أداء النموذج، إذ قد يتوقف الذكاء الاصطناعي فجأةً عن استخدام أدوات مُعينة متاحة له لفترة من اللعب. في حين أن الذكاء الاصطناعي لا يُفكر ولا يُدرك المشاعر، إلا أن أفعاله تُحاكي الطريقة التي قد يتخذ بها الإنسان قرارات خاطئة ومتسرعة تحت الضغط - وهي استجابة مُلفتة، وإن كانت مُقلقة. ويقول التقرير: "لقد حدث هذا السلوك في حالات مُنفصلة كافية لدرجة أن مُشاركي دردشة تويتش لاحظوا حدوثه بدقة". أظهر كلود أيضًا بعض السلوكيات الغريبة خلال رحلاته عبر كانتو. في إحدى الحالات، لاحظ الذكاء الاصطناعي نمطًا يُشير إلى أنه عندما تنفد صحة جميع بوكيموناته، فإن شخصية اللاعب "تتلاشى" وتعود إلى مركز بوكيمون. عندما علق كلود في كهف جبل القمر، افترض خطأً أنه إذا أغمي على جميع بوكيموناته عمدًا، فسيتم نقلها عبر الكهف إلى مركز بوكيمون في المدينة التالية. مع ذلك، ليست هذه هي طريقة عمل اللعبة، عندما يموت جميع بوكيموناتك، تعود إلى مركز بوكيمون الذي استخدمته مؤخرًا، بدلًا من أقرب مركز جغرافي. شاهد المشاهدون في رعب كيف حاول الذكاء الاصطناعي قتل نفسه في اللعبة. على الرغم من عيوبه، هناك بعض الطرق التي يمكن للذكاء الاصطناعي من خلالها التفوق على اللاعبين البشر. اعتبارًا من إصدار جيميني 2.5 برو، أصبح الذكاء الاصطناعي قادرًا على حل الألغاز بدقة مذهلة. ابتكر الذكاء الاصطناعي بمساعدة بشرية أدوات تفاعلية - نماذج مُحفزة من جيميني 2.5 برو مُوجهة لمهام محددة - لحل ألغاز الصخور في اللعبة وإيجاد مسارات فعالة للوصول إلى الوجهة. يقول التقرير: "بمجرد توجيه يصف فيزياء الصخور ووصف لكيفية التحقق من صحة المسار، يستطيع جيميني 2.5 برو حل بعض ألغاز الصخور المعقدة هذه، وهي مطلوبة للتقدم عبر طريق النصر". بما أن جيميني 2.5 برو قام بالكثير من العمل في إنشاء هذه الأدوات بمفرده، فإن "غوغل" تفترض أن النموذج الحالي قد يكون قادرًا على إنشاء هذه الأدوات دون تدخل بشري.

أخبار التكنولوجيا : عندما تصبح بوكيمون معيارًا: جدلية شفافية تقييم نماذج الذكاء الاصطناعى

نافذة على العالم

١٧-٠٤-٢٠٢٥

نافذة على العالم

أخبار التكنولوجيا : عندما تصبح بوكيمون معيارًا: جدلية شفافية تقييم نماذج الذكاء الاصطناعى

الخميس 17 أبريل 2025 12:01 مساءً نافذة على العالم - في مفارقة لافتة، لم تسلم حتى لعبة بوكيمون الشهيرة من الجدل الدائر حول معايير تقييم نماذج الذكاء الاصطناعي، فقد انتشر الأسبوع الماضي منشور على منصة X بشكل واسع، زاعمًا أن نموذج Gemini من تطوير جوجل تفوق على نموذج Claude من شركة Anthropic في التقدم داخل ثلاثية ألعاب بوكيمون الأصلية. ووفقًا للمنشور، تمكن Gemini من الوصول إلى مدينة 'Lavender Town'، بينما ظل Claude عالقًا في 'Mount Moon' منذ أواخر فبراير. لكن، ما لم يُذكر في المنشور هو أن Gemini كان يملك أفضلية تقنية. فقد أشار عدد من مستخدمي Reddit إلى أن المطور المسؤول عن بث Gemini على منصة Twitch قام بتطوير خريطة مصغّرة مخصصة تساعد النموذج في التعرف على العناصر داخل اللعبة، مثل الأشجار القابلة للقطع. هذه الأداة تقلل من الحاجة لتحليل الصور قبل اتخاذ القرارات، مما يمنح Gemini تفوقًا واضحًا. ورغم أن استخدام لعبة بوكيمون كمعيار أداء للذكاء الاصطناعي يُعد أمرًا شبه هزلي، إلا أنه يسلط الضوء على نقطة جوهرية: كيفية تنفيذ التقييم يمكن أن تؤثر بشكل كبير على النتائج النهائية. فعلى سبيل المثال، أعلنت شركة Anthropic عن نتيجتين مختلفتين لنموذج Claude 3.7 Sonnet في اختبار SWE-bench Verified، المصمم لتقييم قدرات النماذج على البرمجة. سجل النموذج دقة بلغت 62.3%، بينما ارتفعت إلى 70.3% عند استخدام هيكل مخصص طورته الشركة. وفي خطوة مشابهة، قامت شركة Meta مؤخرًا بتعديل نسخة من نموذجها Llama 4 Maverick خصيصًا لتحسين أدائه في معيار LM Arena. واللافت أن النسخة العادية من النموذج سجلت أداءً أقل بكثير في نفس التقييم. هذه الحالات تكشف عن مشكلة أعمق: معايير التقييم ليست مثالية أصلًا، واستخدام أدوات مخصصة أو غير قياسية قد يزيد من تعقيد المقارنات بين النماذج الجديدة، مما يجعل عملية تقييم الذكاء الاصطناعي أقل شفافية وأكثر جدلية بمرور الوقت.

موجز نيوز

١٧-٠٤-٢٠٢٥

علوم
موجز نيوز

عندما تصبح بوكيمون معيارًا: جدلية شفافية تقييم نماذج الذكاء الاصطناعى

في مفارقة لافتة، لم تسلم حتى لعبة بوكيمون الشهيرة من الجدل الدائر حول معايير تقييم نماذج الذكاء الاصطناعي، فقد انتشر الأسبوع الماضي منشور على منصة X بشكل واسع، زاعمًا أن نموذج Gemini من تطوير جوجل تفوق على نموذج Claude من شركة Anthropic في التقدم داخل ثلاثية ألعاب بوكيمون الأصلية. ووفقًا للمنشور، تمكن Gemini من الوصول إلى مدينة 'Lavender Town'، بينما ظل Claude عالقًا في 'Mount Moon' منذ أواخر فبراير. لكن، ما لم يُذكر في المنشور هو أن Gemini كان يملك أفضلية تقنية. فقد أشار عدد من مستخدمي Reddit إلى أن المطور المسؤول عن بث Gemini على منصة Twitch قام بتطوير خريطة مصغّرة مخصصة تساعد النموذج في التعرف على العناصر داخل اللعبة، مثل الأشجار القابلة للقطع. هذه الأداة تقلل من الحاجة لتحليل الصور قبل اتخاذ القرارات، مما يمنح Gemini تفوقًا واضحًا. ورغم أن استخدام لعبة بوكيمون كمعيار أداء للذكاء الاصطناعي يُعد أمرًا شبه هزلي، إلا أنه يسلط الضوء على نقطة جوهرية: كيفية تنفيذ التقييم يمكن أن تؤثر بشكل كبير على النتائج النهائية. فعلى سبيل المثال، أعلنت شركة Anthropic عن نتيجتين مختلفتين لنموذج Claude 3.7 Sonnet في اختبار SWE-bench Verified، المصمم لتقييم قدرات النماذج على البرمجة. سجل النموذج دقة بلغت 62.3%، بينما ارتفعت إلى 70.3% عند استخدام هيكل مخصص طورته الشركة. وفي خطوة مشابهة، قامت شركة Meta مؤخرًا بتعديل نسخة من نموذجها Llama 4 Maverick خصيصًا لتحسين أدائه في معيار LM Arena. واللافت أن النسخة العادية من النموذج سجلت أداءً أقل بكثير في نفس التقييم. هذه الحالات تكشف عن مشكلة أعمق: معايير التقييم ليست مثالية أصلًا، واستخدام أدوات مخصصة أو غير قياسية قد يزيد من تعقيد المقارنات بين النماذج الجديدة، مما يجعل عملية تقييم الذكاء الاصطناعي أقل شفافية وأكثر جدلية بمرور الوقت.

أحدث الأخبار مع #ألعاببوكيمون

نموذج جيميني للذكاء الاصطناعي يصُاب بالذعر أثناء لعب بوكيمون

أخبار التكنولوجيا : عندما تصبح بوكيمون معيارًا: جدلية شفافية تقييم نماذج الذكاء الاصطناعى

عندما تصبح بوكيمون معيارًا: جدلية شفافية تقييم نماذج الذكاء الاصطناعى

حمّل التطبيق الآن وابدأ باستخدامه الآن