#أحدث الأخبار مع #دينفالنتاين،الرجل٢٠-٠٤-٢٠٢٥علومالرجلخبراء يحذرون: لا تثق بكل ما يُقال عن تفوق نماذج الذكاء الاصطناعيمع تزايد الاعتماد على الذكاء الاصطناعي في العمل والحياة اليومية، أصبح اختيار النموذج الأنسب تحديًا حقيقيًّا. حيث تضخ الشركات الكبرى نماذج جديدة بوتيرة متسارعة، وكل منها يَعِدُ بأنه "الأكثر تفوقًا". لكن خلف هذه الوعود، هناك أسئلة حقيقية تُطرح حول مدى مصداقية هذا التفوق. السباق على التفوق يضعف نزاهة التقييم غاري ماركوس، عالم الأعصاب والباحث في الذكاء الاصطناعي، قال: "عندما يصبح الأداء على اختبارات معينة عاملًا حاسمًا لصرف مليارات الدولارات، تبدأ الشركات بتعليم النماذج كيف تتجاوز هذه الاختبارات تحديدًا، وهو ما يُضعف من مصداقية النتائج بمرور الوقت". وفي دراسة أوروبية حديثة بعنوان "هل يمكن الوثوق باختبارات الذكاء الاصطناعي؟"، أكد الباحثون أن معايير الأداء الحالية تعاني "عيوبًا منهجية"، وهي متأثرة بثقافة تنافسية وتجارية تضع الأداء التقني فوق الاعتبارات الأخلاقية والمجتمعية. الأداء الحقيقي للنماذج قد لا ينعكس على الواقع من جانبه، قال دين فالنتاين، المؤسس المشارك والرئيس التنفيذي لشركة أمن سيبراني تعمل بالذكاء الاصطناعي، إنه وفريقه اختبروا عددًا من النماذج الجديدة منذ إطلاق Claude 3.5 Sonnet، ولم يلاحظوا أي "تحسن جوهري" على أرض الواقع. وأضاف: "بعض النماذج صارت ممتعة أكثر في المحادثة، لكن هذا لا يعني أنها تقدم فائدة اقتصادية أو قدرة عامة حقيقية. معظم التقدم المزعوم مجرد كلام تسويقي". هل تقيس "المعايير" ما يجب أن نقيسه فعلًا؟ خلال 2025 فقط، أُطلِق ما لا يقل عن 12 نموذجًا جديدًا من شركات مثل OpenAI، Meta، Google، وAnthropic، جميعها ادعت تفوقها في اختبارات الأداء أو ما يعرف بـ Benchmarks. لكن هذه المعايير بدأت تواجه تشكيكًا واسعًا، إذ يقول خبراء إن نتائجها قد تكون "مضللة أو غير موثوقة". في هذا السياق، واجهت Meta مؤخرًا انتقادات بعد إعلانها أن Llama 4 Maverick يتفوق على نماذج منافسة، ليتبين لاحقًا أنها استخدمت إصدارًا "مُخصصًا" للظهور بمستوى أعلى على منصة LMArena، وهي جهة تقييم تعتمد على تصويت الجمهور.
الرجل٢٠-٠٤-٢٠٢٥علومالرجلخبراء يحذرون: لا تثق بكل ما يُقال عن تفوق نماذج الذكاء الاصطناعيمع تزايد الاعتماد على الذكاء الاصطناعي في العمل والحياة اليومية، أصبح اختيار النموذج الأنسب تحديًا حقيقيًّا. حيث تضخ الشركات الكبرى نماذج جديدة بوتيرة متسارعة، وكل منها يَعِدُ بأنه "الأكثر تفوقًا". لكن خلف هذه الوعود، هناك أسئلة حقيقية تُطرح حول مدى مصداقية هذا التفوق. السباق على التفوق يضعف نزاهة التقييم غاري ماركوس، عالم الأعصاب والباحث في الذكاء الاصطناعي، قال: "عندما يصبح الأداء على اختبارات معينة عاملًا حاسمًا لصرف مليارات الدولارات، تبدأ الشركات بتعليم النماذج كيف تتجاوز هذه الاختبارات تحديدًا، وهو ما يُضعف من مصداقية النتائج بمرور الوقت". وفي دراسة أوروبية حديثة بعنوان "هل يمكن الوثوق باختبارات الذكاء الاصطناعي؟"، أكد الباحثون أن معايير الأداء الحالية تعاني "عيوبًا منهجية"، وهي متأثرة بثقافة تنافسية وتجارية تضع الأداء التقني فوق الاعتبارات الأخلاقية والمجتمعية. الأداء الحقيقي للنماذج قد لا ينعكس على الواقع من جانبه، قال دين فالنتاين، المؤسس المشارك والرئيس التنفيذي لشركة أمن سيبراني تعمل بالذكاء الاصطناعي، إنه وفريقه اختبروا عددًا من النماذج الجديدة منذ إطلاق Claude 3.5 Sonnet، ولم يلاحظوا أي "تحسن جوهري" على أرض الواقع. وأضاف: "بعض النماذج صارت ممتعة أكثر في المحادثة، لكن هذا لا يعني أنها تقدم فائدة اقتصادية أو قدرة عامة حقيقية. معظم التقدم المزعوم مجرد كلام تسويقي". هل تقيس "المعايير" ما يجب أن نقيسه فعلًا؟ خلال 2025 فقط، أُطلِق ما لا يقل عن 12 نموذجًا جديدًا من شركات مثل OpenAI، Meta، Google، وAnthropic، جميعها ادعت تفوقها في اختبارات الأداء أو ما يعرف بـ Benchmarks. لكن هذه المعايير بدأت تواجه تشكيكًا واسعًا، إذ يقول خبراء إن نتائجها قد تكون "مضللة أو غير موثوقة". في هذا السياق، واجهت Meta مؤخرًا انتقادات بعد إعلانها أن Llama 4 Maverick يتفوق على نماذج منافسة، ليتبين لاحقًا أنها استخدمت إصدارًا "مُخصصًا" للظهور بمستوى أعلى على منصة LMArena، وهي جهة تقييم تعتمد على تصويت الجمهور.