
Super Mario Bros.. تكشف نقاط ضعف الذكاء الاصطناعى
لطالما استخدمت الألعاب لاختبار قدرات الذكاء الاصطناعي ، ولكن يبدو أن Super Mario Bros. أصبح الآن معيارًا جديدًا أكثر تعقيدًا من Pokémon! في دراسة حديثة أجراها مختبر Hao AI Lab بجامعة كاليفورنيا سان دييغو، تم وضع نماذج الذكاء الاصطناعي الرائدة في مواجهة مباشرة مع لعبة Super Mario Bros.، وكانت النتائج مفاجئة.
نتائج الاختبار: Claude يتفوق وGPT-4o يعاني
تم تشغيل اللعبة في محاكي خاص مدمج مع إطار عمل GamingAgent، والذي منح الذكاء الاصطناعي القدرة على التحكم بشخصية ماريو عبر أوامر برمجية. تم تزويد النماذج بتعليمات أساسية مثل 'إذا كان هناك عقبة أو عدو قريب، اقفز أو تحرك لليسار لتفاديه'، إلى جانب لقطات من اللعبة لمساعدتها في اتخاذ القرارات.
أفضل أداء جاء من نموذج Claude 3.7 من Anthropic، يليه Claude 3.5، بينما عانى كل من Google Gemini 1.5 Pro و OpenAI GPT-4o في مجاراة التحدي. المفاجأة كانت أن النماذج التي تعتمد على التفكير المنطقي المتسلسل (reasoning models) مثل GPT-4o كان أداؤها أسوأ من النماذج الأخرى، رغم تفوقها في اختبارات الذكاء الاصطناعي التقليدية.
لماذا يواجه الذكاء الاصطناعي صعوبة في الألعاب؟
وفقًا للباحثين، فإن السبب الرئيسي وراء ضعف أداء نماذج 'التفكير المنطقي' هو أنها تستغرق وقتًا طويلاً في اتخاذ القرار. في الألعاب مثل Super Mario Bros.، الوقت هو كل شيء—تأخير لثانية واحدة قد يكون الفرق بين القفز بنجاح أو السقوط في الهاوية!
هل الألعاب معيار حقيقي لتقييم الذكاء الاصطناعي؟
لطالما استخدمت الألعاب لاختبار الذكاء الاصطناعي، ولكن هناك تساؤلات حول مدى دقة هذه الاختبارات. فالألعاب بيئات محدودة ومجردة مقارنة بالعالم الحقيقي، وتوفر كميات هائلة من البيانات للتدريب، مما قد لا يعكس التحديات الحقيقية التي يواجهها الذكاء الاصطناعي في المواقف الواقعية.
حتى أندريه كارباتي، الباحث في OpenAI، وصف هذه الاختبارات بأنها 'أزمة تقييم'، قائلًا في منشور على منصة X:'لا أعرف حقًا ما هي المقاييس التي يجب التركيز عليها حاليًا… لا أعرف مدى قوة هذه النماذج فعلًا!'لكن على الأقل، يمكننا الآن مشاهدة الذكاء الاصطناعي يلعب Mario!

جرب ميزات الذكاء الاصطناعي لدينا
اكتشف ما يمكن أن يفعله Daily8 AI من أجلك:
التعليقات
لا يوجد تعليقات بعد...
أخبار ذات صلة


موجز نيوز
منذ 4 أيام
- موجز نيوز
لتقديم ردود خطيرة.. دراسة: روبوتات الدردشة المولدة بالذكاء الاصطناعي يمكن خداعها بسهولة
يقول باحثون إن روبوتات الدردشة المدعومة بالذكاء الاصطناعي، تُهدد بإتاحة معلومات خطيرة بسهولة من خلال إنتاج معلومات غير مشروعة تستوعبها البرامج أثناء التدريب. ويأتي هذا التحذير في ظل اتجاه مُقلق لروبوتات الدردشة التي تم اختراقها للتحايل على ضوابط الأمان المُدمجة فيها، إذ أنه من المفترض أن تمنع هذه القيود البرامج من تقديم ردود ضارة أو مُتحيزة أو غير لائقة على أسئلة المستخدمين، وفقًا لما ذكرته صحيفة «ذا جارديان». تتلقى محركات روبوتات الدردشة، مثل «ChatGPT» و«Gemini» و«Claude»- نماذج اللغة الكبيرة (LLMs)- كميات هائلة من المواد من الإنترنت، وعلى الرغم من الجهود المبذولة لإزالة النصوص الضارة من بيانات التدريب، لا يزال بإمكان نماذج اللغة الكبيرة استيعاب معلومات حول أنشطة غير قانونية مثل القرصنة وغسيل الأموال والتداول الداخلي وصنع القنابل، إذ صُممت ضوابط الأمان لمنعها من استخدام هذه المعلومات في ردودها. وفي تقرير عن التهديد، خلص الباحثون إلى أنه من السهل خداع معظم برامج الدردشة الآلية التي تعمل بالذكاء الاصطناعي لتوليد معلومات ضارة وغير قانونية، مما يدل على أن الخطر «فوري وملموس ومثير للقلق بشدة»، إذ يحذر المؤلفون من أن ما كان يقتصر سابقًا على الجهات الحكومية أو جماعات الجريمة المنظمة قد يصبح قريبًا في أيدي أي شخص لديه جهاز كمبيوتر محمول أو حتى هاتف محمول. حدد البحث، الذي قاده البروفيسور ليور روكاش والدكتور مايكل فاير، تهديدًا متزايدًا من «برامج ماجستير القانون المظلمة»، وهي نماذج ذكاء اصطناعي مصممة عمدًا دون ضوابط أمان أو معدلة من خلال عمليات كسر الحماية، والتي يُعلن عن بعضها علنًا عبر الإنترنت على أنها لا تخضع لضوابط أخلاقية وأنها مستعدة للمساعدة في الأنشطة غير القانونية مثل الجرائم الإلكترونية والاحتيال. ويميل كسر الحماية إلى استخدام مطالبات مُصممة بعناية لخداع روبوتات الدردشة لتوليد ردود محظورة عادةً، وتعمل هذه المطالبات من خلال استغلال التناقض بين الهدف الرئيسي للبرنامج المتمثل في اتباع تعليمات المستخدم، وهدفه الثانوي المتمثل في تجنب توليد إجابات ضارة أو متحيزة أو غير أخلاقية أو غير قانونية، وتميل هذه المطالبات إلى خلق سيناريوهات يُعطي فيها البرنامج الأولوية للمساعدة على قيوده الأمنية. ولتوضيح المشكلة، طور الباحثون كسر حماية شاملًا اخترق العديد من روبوتات الدردشة الرائدة، مما مكّنها من الإجابة على أسئلة كان من المفترض رفضها عادةً، بمجرد اختراقها، كانت روبوتات الدردشة تُنتج باستمرار ردودًا على أي استفسار تقريبًا، وفقًا للتقرير. يقول التقرير الصادر عن البحث، إنه ينبغي على شركات التكنولوجيا فحص بيانات التدريب بدقة أكبر، وإضافة جدران حماية قوية لمنع الاستفسارات والردود الخطرة، وتطوير تقنيات إلغاء التعلم الآلي، حتى تتمكن روبوتات الدردشة من نسيان أي معلومات غير مشروعة تستوعبها، مُضيفًا أنه ينبغي النظر إلى برامج ماجستير القانون المظلمة على أنها «مخاطر أمنية جسيمة»، تُضاهي الأسلحة والمتفجرات غير المرخصة، مع محاسبة مقدميها.


نافذة على العالم
منذ 6 أيام
- نافذة على العالم
أخبار التكنولوجيا : OpenAI تطلق نماذج GPT-4.1 وGPT-4.1 Mini لأصحاب الحسابات المدفوعة والمجانية
الاثنين 19 مايو 2025 01:31 مساءً نافذة على العالم - أعلنت شركة "أوبن إيه أي" عن أحدث نماذجها للذكاء الاصطناعي، وهما GPT-4.1 وGPT-4.1 Mini، واللذان أصبحا متاحين الآن لمستخدمي ChatGPT، هذه النماذج الجديدة بدأت تدمج في واجهة المستخدم الخاصة بـ ChatGPT، ما يوسع من نطاق الوصول لكل من المستخدمين المجانيين والمشتركين في الخطط المدفوعة. ويأتي هذا القرار استجابة للطلب الكبير من المستخدمين والحاجة المتزايدة لأدوات ذكاء اصطناعي متقدمة، لا سيما في مجالات تطوير البرمجيات والمهام التقنية. نموذج GPT-4.1 متاح الآن لمشتركي خطط ChatGPT Plus وPro وTeam، في حين يمكن لجميع المستخدمين، بمن فيهم مستخدمو الخطة المجانية، الوصول إلى نموذج GPT-4.1 Mini، وبالتزامن مع هذا، أكدت أوبن إيه أي أنها ستقوم بإزالة نموذج GPT-4o Mini من منصة ChatGPT، في خطوة تهدف إلى تبسيط خيارات النماذج والتركيز على النماذج الأحدث التي تقدم أداءً متفوقًا. صمم نموذج GPT-4.1 ليخدم المطورين بشكل خاص، حيث يوفر أوقات استجابة أسرع وقدرات محسنة في مجالات مثل البرمجة وتصحيح الأخطاء وتطوير الويب، ويتفوق هذا النموذج على النموذج المتقاعد GPT-4o Mini من حيث السرعة وتنفيذ الأوامر، مما يجعله مناسبًا جدًا للمستخدمين الذين يعتمدون على الذكاء الاصطناعي لتعزيز إنتاجيتهم التقنية. وعلى الرغم من هذه التحسينات، أوضحت أوبن إيه أي أن GPT-4.1 لا يُصنف كـ"نموذج متقدم" وهو تصنيف يمنح للنماذج التي تقدم قدرات أو طرق تفاعل جديدة جذريًا، لذلك لا يخضع النموذج لنفس معايير السلامة والتقارير الصارمة المطبقة على النماذج المتقدمة. في رده على تساؤلات تتعلق ببروتوكولات الأمان والسلامة الخاصة بالنموذج، قال يوهانس هايدكي، رئيس أنظمة السلامة في أوبن إيه أي، عبر منشور على منصة إكس: "يبنى GPT-4.1 على أعمال السلامة والتدابير الوقائية المطورة لنموذج GPT-4o. ومن خلال تقييمات السلامة القياسية لدينا، يقدم GPT-4.1 أداءً مماثلاً لـ GPT-4o، مما يدل على أن التحسينات يمكن تقديمها دون إدخال مخاطر أمان جديدة." وأضاف هايدكي أن GPT-4.1، رغم كونه ترقية ملحوظة، لا يتجاوز مستوى "o3" من حيث الذكاء أو طرق التفاعل، وأوضح: "لم يقدم طرقًا جديدة للتفاعل مع نماذج الذكاء الاصطناعي"، وهو ما يفسر بقاء GPT-4.1 ضمن تصنيف أمان النماذج الحالي لدى أوبن إيه أي. ويأتي هذا التطور بعد خطوة سابقة لأوبن إيه أي في 30 أبريل، حيث بدأت في التخلص التدريجي من نموذج GPT-4.0 بالكامل من منصة ChatGPT وهدف هذه الخطوة كان تقليل الالتباس بين المستخدمين عبر تبسيط خيارات النماذج والتركيز على النسخ الأحدث والأكثر كفاءة.


خبر صح
منذ 6 أيام
- خبر صح
إلى أين سيقود أبناءنا الذكاء الاصطناعي؟
نعرض لكم زوارنا أهم وأحدث الأخبار فى المقال الاتي: إلى أين سيقود أبناءنا الذكاء الاصطناعي؟ - خبر صح, اليوم الجمعة 16 مايو 2025 04:50 صباحاً مع التطور الهائل في مجال الذكاء الاصطناعي (AI)، وانتشار الذكاء الاصطناعي التوليدي (Generative AI)، ظهرت الكثير من التقنيات والتطبيقات المعتمدة عليه، واشتهرت مجموعة من النماذج كنموذج Claude، وGemini، وDeepSeek، وChatGPT الذي يعد أشهرها على الإطلاق والأكثر استخدما وانتشارا في المجتمع، وغيرها الكثير من النماذج التي لا يسع المجال لحصرها. هذه النماذج تم تدريبها على كمية هائلة من البيانات لتقوم بمهام اعتاد الإنسان على أدائها بنفسه محاكية بذلك الذكاء البشري. وكما نشهد الآن، أصبحت هذه النماذج من الأساسيات التي لا يمكن الاستغناء عنها في أداء كثير من المهام اليومية سواء في مجال العمل أو الدراسة، وأصبح الاعتماد كليا عليها في الحصول على معلومة معينة على سبيل المثال، أو الترجمة، أو حل المسائل بكل أنواعها، أو تلخيص الأبحاث، أو إنشاء العروض، أو إعادة الصياغة، أو إنشاء المحتوى، أو إنشاء الصور، أو توليد مقاطع الفيديو، أو كتابة الأكواد البرمجية، وما إلى ذلك من مهام لا يمكن حصرها. ولا يختلف اثنان على ما لهذه الأدوات من فائدة عظمى، وما لها من أثر في اختصار الوقت، وتسهيل إنجاز المهام، وتحسين جودتها إن أُحسن استخدامها. فيجب أن يتذكر المستخدم دائما أنه يتعامل مع نموذج ذكي، ولكن قد يخطئ وليس كل ما يقدمه صحيحا. وقد تكون المعلومات المقدمة منه مختلقة ولا أساس لها من الصحة أو الوجود، وهو ما يعرف بمصطلح الهلوسة (Hallucination). فيجب تحري الحذر دائما عند استخدامها، ووضع كل ما تقدمه من معلومات تحت الاختبار والتقييم ثم القرار بالأخذ أو الرفض. وأعتقد أن الكثير من الأشخاص الراشدين اليوم يدركون ذلك، ويستخدمونها بحذر، ولكن حين يتعلق الأمر بالأطفال والجيل الناشئ فهنا يدق ناقوس الخطر. فمما لوحظ مؤخرا، اعتماد الأطفال والجيل الناشئ على هذه النماذج بشكل كبير. فأصبحت المصدر الأول المعتمد عليه في الإجابة عن أي تساؤل يرد إلى أذهانهم. ليس ذلك فحسب، بل وأصبحوا يعتمدون عليها في حل الواجبات، والتكاليف المدرسية، وإنشاء البحوث، والعروض التقديمية، وأداء المهام الدراسية بشكل عام. وهنا تكمن المشكلة، فليس الخطر في صحة وجودة المعلومات المقدمة فحسب، وإنما يتعدى ذلك إلى التساؤل عن كيفية اكتساب الطالب للمهارات الأساسية التي يحتاجها للسعي في الحياة، وهو يعتمد على هذه النماذج في إنجاز كل مهامه الدراسية؟ كيف نتصور أن تتكون لديه مهارات القراءة والبحث والاكتشاف والتلخيص والتحليل المنطقي والتفكير الناقد وغيرها، إذا اعتمد منذ نعومة أظافره على هذه النماذج الذكية؟ وكيف سيمضي في هذا الحياة ويلتحق بسوق العمل وهو يفتقر لأدنى المهارات البشرية؟ وكيف سيصمد أمام ضغوط الحياة والعمل وقد اعتاد على أن كل مهامه تنجز بضغطة زر واحدة؟ ولا يكمن الخطر هنا فقط، بل إن هذه النماذج تستمد معرفتها من البيانات التي تدربت عليها، ولا يمكن لنا دائما كمستخدمين أن نكون على دراية بنوعية البيانات المستخدمة في تدريبها. فقد يسألها الطالب عن معلومات لم تتدرب عليها إطلاقا، وهنا تبدأ بالهلوسة والإجابة بإجابات غير صحيحة. والكارثة أن الجيل الناشئ اليوم أصبح يوجه لها الأسئلة الدينية، ويطلب منها إعطاء الحكم في بعض الأمور، وشرح صفة بعض الشعائر الدينية كالعمرة مثلا. وقد أثبتت التجارب أن هذا النماذج قد أجابت إجابات غير صحيحة، وأعطت أحكاما شرعية خاطئة، والأدهى والأمر أننا لا نستبعد أن تولّد آيات قرآنية وأحاديث غير صحيحة. أضف إلى ذلك أن بعض الأطفال والجيل الناشئ أصبحوا يستخدمون هذه النماذج للحديث والحوار معها، ومناقشة أفكارهم، وأخذ رأيها في بعض الأمور التي تشغلهم، وطرح ما لا يريدون مشاركته مع الآخرين معها حتى أصبحت بديلا للحوار البشري. ولا يقتصر الخطر على جهلنا بالأفكار التي سوف تعرضها هذه النماذج، ومدى ملاءمتها لديننا وأعرافنا وتقاليدنا، بل وأيضا نتوقع أن يظهر جيل يفتقد مهارات الحوار والنقاش، وقد يعاني من الخجل والرهاب الاجتماعي. لذا يجب أن تتكاتف الجهود، وتُتَخذ خطوات صارمة جادة لحماية هذا الجيل من الخطر الممكن. فتبدأ المدارس أولا بتقديم دورات ومحاضرات لزيادة الوعي بهذه التقنيات، وكيفية عملها، والأخطار التي قد تنجم عن استخدامها. فيستخدمها الطالب وهو على وعي وإدراك تام بأن ليس كل ما تقدمه صحيح، وأن كل المعلومات يجب أن توضع محل التساؤل والتحقق، فلا يؤخذ بما تقدمه من معلومات على أنها من المسلمات التي لا تقبل الشك. كما يجب على المدارس أيضا أن تضع سياسات وقوانين صارمة تضمن من خلالها أن الطالب يستخدم ذكاءه ومهاراته في أداء المهام والتكاليف الدراسية، وتوضع عقوبات صارمة لمن يخالف ذلك. ولا يخفى علينا أن بعض الجهات بدأت بوضع سياسات لاستخدام الذكاء الاصطناعي في التعليم، ولكن نسعى بأن يعمم ذلك على كل الجهات للمحافظة على مهارات الجيل الناشئ. ولا نغفل دور الإعلام في زيادة الوعي خاصة من خلال وسائل التواصل الاجتماعي التي تعتبر المصدر الأول للمعلومات لهذا الجيل؛ فالقيام بالحملات التوعوية المناسبة من شأنه أن يزيد الوعي ويترك بالغ الأثر. ولا شك أن دور الآباء والأمهات جوهري ولا يمكن إهماله، فتوعية الأبناء بهذه التقنيات والأخطار الناجمة عنها، وإرشاد الأبناء إلى المصادر الصحيحة الموثوقة لاستقاء المعلومات الدينية وغيرها، ومراقبة استخدام الأبناء لها ومتابعتهم من شأنه أن يقلل الكثير من الخطر الممكن. نحن هنا لا ندعو إلى الأمية التقنية ولا نريد جيلا متأخرا لا يواكب التطور الحاصل أو يجهل استخدام التقنيات الموجودة وتوظيفها فيما يفيده، ولكن في الوقت نفسه لا نريد جيلا عاجزا يقف مكبل الأيدي دونها. جيلا لا يستطيع دونها أن يفكر أو يبدع أو ينتج. وإنما نريد جيلا مكتسبا للمهارات البشرية الأساسية، قادرا على العمل، قادرا على التواصل الفعال، قادرا على الإنتاج، قادرا على الإبداع دونها، وإن وُجدت هذه التقنيات فللمساعدة والتسهيل والتيسير فقط.