logo
دراسة: النماذج اللغوية مثل GPT-o4-mini نسب إجاباتها الخاطئة تتجاوز 70%

دراسة: النماذج اللغوية مثل GPT-o4-mini نسب إجاباتها الخاطئة تتجاوز 70%

جريدة المال٠٧-٠٥-٢٠٢٥

رغم الطفرة والتقدم المذهل في قدرات الذكاء الاصطناعي التوليدي، إلا أن الطريق نحو اعتماد موثوقيته يسير دائمًا في خط مستقيم. فبينما صُممت النماذج الأحدث من OpenAI، مثل GPT-o3 وGPT-o4-mini، لمحاكاة التفكير البشري بدقة فريدة من نوعها لم يحظى بها أي برنامج، تشير نتائج دراسات بحثية جديدة إلى مفارقة مثيرة للقلق، كلما أصبح النموذج 'أذكى'، زادت احتمالية ارتكابه للأخطاء أو ما يعرف بالهلوسات
وفقًا لتحقيق نشرته نيويورك تايمز، كشفت اختبارات معيارية داخلية عن ارتفاع ملحوظ في ما يُعرف بـ'هلوسة الذكاء الاصطناعي' أي تقديم معلومات خاطئة أو مختلقة تُعرض على أنها صحيحة.
وذكرت الصحيفة الأمريكية أنه في اختبار تناول معلومات عن شخصيات عامة، ارتكب GPT-o3 أخطاء في 33% من الحالات، ضعف معدل GPT-o1 أما النتائج الأسوأ جاءت من ذلك نموذج GPT-o4-mini، الذي يتمتع ببنية أكثر إحكامًا، قدّم إجابات غير دقيقة في 48% من المرات.
النتائج تضع تساؤلات حقيقية أمام النهج الجديد الذي تتبعه OpenAI. فبينما كانت النماذج السابقة تُركز على توليد نصوص سلسة دون تعقيد، تم تصميم o3 وo4-mini للعمل بمنطق 'التفكير خطوة بخطوة' بهدف تعزيز قدرتهما على الاستدلال المنطقي. لكن يبدو أن هذا 'التفكير العميق' قد يكون سلاحًا ذا حدين.
يشير خبراء في مجال الذكاء الاصطناعي التوليدي إلى أن زيادة قدرة النموذج على التحليل والربط قد تفتح الباب أمام استنتاجات خاطئة، لا سيما عندما يُطلب من هذه النماذج التعامل مع مفاهيم معقدة أو تركيبية. فبدلاً من التمسك باستجابات بسيطة وآمنة، قد ينزلق النموذج نحو تخمينات تبدو منطقية لكنها ببساطة غير صحيحة.
في اختبار 'SimpleQA' لقياس المعرفة العامة، ارتفعت نسب الهلوسة إلى مستويات صادمة حيث سجل GPT-o3 معدل أخطاء بلغ 51%، في حين وصل أداء o4-mini إلى 79% ما يعني أن ثمانية من كل عشرة إجابات كانت خاطئة جزئيًا أو كليًا، الأمر الذي يمثل فجوات كبيرة في درجة الموثوقية.
تُرجع OpenAI هذه المشكلة جزئيًا إلى أن النماذج الجديدة أكثر ميلًا للإسهاب والتفصيل. في سعيها لتقديم إجابات شاملة، قد تتجاوز هذه النماذج ما هو معروف ومؤكد إلى ما هو مُحتمل أو متخيل، ما يؤدي إلى نتائج خاطئة يصعب على المستخدم تمييزها.
هذه الظاهرة تزداد خطورة عندما تُستخدم نماذج الذكاء الاصطناعي في مجالات عالية الحساسية مثل الطب، القانون، التعليم، والخدمات الحكومية.
جاء في تقرير جديد منشور في موقع TechRadar تحذير من أن مجرد معلومة زائفة واحدة في سياق قانوني أو طبي قد تؤدي إلى تداعيات جسيمة، والأمثلة على أرض الواقع بدأت تظهر بالفعل. ففي إحدى القضايا، عوقب محامٍ أمريكي لتقديمه مراجع قانونية وهمية من تأليف ChatGPT. ومع ازدياد اعتماد المؤسسات والأفراد على الذكاء الاصطناعي في كتابة التقارير وصياغة السياسات، تصبح كل هلوسة محتملة سببًا لفقدان الثقة.
وبالتالي كلما زادت قدرات الذكاء الاصطناعي، زادت الحاجة إلى التعامل معه كأداة مساعدة تحتاج لإشراف الشبشر على كل نتائج أو تحليل وبالتالي هو ليس مرجعا نهائيا، ورغم براعة نماذج مثل GPT-o3 وo4-mini في البرمجة والتحليل، فإن ميلها لتقديم 'معلومات خاطئة بثقة' يجعل من الضروري أن يظل البشر في موقع التحقق والمراجعة.

Orange background

جرب ميزات الذكاء الاصطناعي لدينا

اكتشف ما يمكن أن يفعله Daily8 AI من أجلك:

التعليقات

لا يوجد تعليقات بعد...

أخبار ذات صلة

الإمارات تطلق 'ستارجيت'.. أقوى مركز ذكاء اصطناعي بالشراكة مع OpenAI
الإمارات تطلق 'ستارجيت'.. أقوى مركز ذكاء اصطناعي بالشراكة مع OpenAI

أخبار مصر

timeمنذ 5 ساعات

  • أخبار مصر

الإمارات تطلق 'ستارجيت'.. أقوى مركز ذكاء اصطناعي بالشراكة مع OpenAI

الإمارات تطلق 'ستارجيت'.. أقوى مركز ذكاء اصطناعي بالشراكة مع OpenAI أعلنت شركة OpenAI -المُطوّرة لنموذج ChatGPT- عن تعاونها مع مجموعة G42 الإماراتية وعدد من الشركات التكنولوجية الكبرى لإنشاء مركز بيانات ضخم للذكاء الاصطناعي في أبوظبي، ليصبح أول مشروع واسع النطاق للشركة خارج الولايات المتحدة.مشروع ستارجيت الإمارات: طموح تقني بقدرة 1 جيجاواط كشفت OpenAI وG42 أنّ مركز البيانات ستبلغ طاقته 1 جيجاواط، ليكون ضمن أضخم مراكز البيانات عالميًا. وسيشمل المشروع، المُسمى ستارجيت الإمارات 'Stargate UAE'، بنية تحتية مُتطوّرة تدعم تطبيقات الذكاء الاصطناعي، في إطار مساعي الدولة لتصبح مركزًا عالميًا لهذه التكنولوجيا. تقود شركة G42 المشروع -وهي شركة ذكاء اصطناعي يشرف عليها الشيخ طحنون بن زايد آل نهيان -مستشار الأمن الوطني الإماراتي وشقيق رئيس الدولة. وكجزء من الاتفاقية، ستتوفّر نسخة مُحسنّة من ChatGPT مجانًا لسكان الإمارات.الجدول الزمني والتمويلستنتهي المرحلة الأولى (بقدرة 200 ميجاواط) بحلول نهاية 2026.ستموِّل G42 بناء المُنشأة، بينما تتولّى شركتيّ OpenAI وOracle تشغيل المركز.يضم المشروع شركاء آخرين مثل SoftBank وإنفيديا وCisco.كما ستستثمر G42 مبلغًا مُماثلًا في مشروع 'ستارجيت' الأمريكي، وهو شبكة مراكز بيانات تبلغ قيمتها 100 مليار دولار بتمويل من OpenAI وSoftBank. ولم يُكشف عن تكلفة المشروع الإماراتي، رغم أن المشاريع المُماثلة في الولايات المتحدة تتجاوز 10 مليارات دولار.مُفاوضات أمريكية حاسمة جاء…..لقراءة المقال بالكامل، يرجى الضغط على زر 'إقرأ على الموقع الرسمي' أدناه

جوجل تطلق "AI Ultra": اشتراك فائق لمستخدمي الذكاء الاصطناعى
جوجل تطلق "AI Ultra": اشتراك فائق لمستخدمي الذكاء الاصطناعى

اليوم السابع

timeمنذ 14 ساعات

  • اليوم السابع

جوجل تطلق "AI Ultra": اشتراك فائق لمستخدمي الذكاء الاصطناعى

كشفت شركة جوجل عن خطة اشتراك جديدة تحت اسم Google AI Ultra، وهي باقة فائقة تستهدف المبدعين والمحترفين والمطورين، وتوفر لهم وصولًا حصريًا إلى منظومة الذكاء الاصطناعي المتطورة الخاصة بالشركة. وتبلغ تكلفة الاشتراك 249.99 دولارًا شهريًا (حوالي 24 ألف جنيه مصري)، وتشمل حزمة من الأدوات المتقدمة مثل أدوات صناعة الأفلام المعتمدة على الذكاء الاصطناعي، ووكلاء ذكيين متعددي المهام، بالإضافة إلى إتاحة مبكرة لنماذج تجريبية مثل Veo 3 وGemini 2.5 Pro. وتُعد هذه الخطوة بمثابة رد من جوجل على خطط OpenAI الخاصة بالاشتراكات المؤسسية في ChatGPT، لكن مع تكامل أعمق داخل منظومة خدمات جوجل، بما يشمل Chrome وDocs وGmail وYouTube وDrive وغيرها. ما هو Google AI Ultra؟ Google AI Ultra هو اشتراك مميز جديد ضمن باقات Google One ، يتيح للمستخدمين الحد الأقصى من استخدام أدوات الذكاء الاصطناعي، إلى جانب ميزات حصرية وإمكانية الوصول المبكر إلى أحدث النماذج المتطورة. تستهدف هذه الباقة صناع الأفلام الذين يستخدمون الذكاء الاصطناعي في إعداد السيناريوهات أو إنتاج الرسوم المتحركة، والمطورين الباحثين عن قدرات ذكاء اصطناعي متقدمة، والباحثين والأكاديميين الذين يحتاجون إلى قدرات تحليل أعمق وتجميع من مصادر متعددة، وكذلك المستخدمين المتقدمين الراغبين في تكامل الذكاء الاصطناعي عبر تطبيقات الإنتاجية اليومية. من يمكنه الاشتراك؟ تشير جوجل إلى أن خطة الاشتراك متوفرة حاليًا داخل الولايات المتحدة فقط، مع خطط للتوسع في دول أخرى قريبًا، ويحصل المشتركون الجدد على خصم بنسبة 50% خلال الأشهر الثلاثة الأولى. وتتيح الشركة الاشتراك للأفراد والفرق الذين يبحثون عن أفضل ما تقدمه تقنيات الذكاء الاصطناعي، مؤكدة أن الباقة مخصصة لمن "يتطلبون الأفضل على الإطلاق". ما الذي تتضمنه الباقة؟ يتمتع المشتركون في Google AI Ultra بإمكانية الوصول الحصري إلى مجموعة واسعة من أدوات الذكاء الاصطناعي الجديدة، بما في ذلك أداة صناعة الأفلام Flow، ونموذج Veo 2، والوصول المبكر إلى Veo 3، وتطبيق Gemini. وتمنح الباقة حدود استخدام قصوى لمساعد جوجل الذكي "Deep Research"، المخصص لتحليل الوثائق الطويلة وتوليد الرؤى من مصادر متعددة، بالإضافة إلى نمط "Deep Think" في Gemini 2.5 Pro، الذي يوفر مستوى متقدمًا من المنطق والتحليل، ودعمًا متكاملًا لمهام البرمجة والكتابة وتحليل البيانات. وقد عززت جوجل أيضًا قدرات Gemini داخل متصفح Chrome، حيث يحصل مشتركو Ultra على أولوية في استخدام ميزات مثل قراءة وتلخيص صفحات الويب، وفهم الجداول واللوحات البيانية والمواقع الغنية بالبيانات، واستخدام سياق الويب للكتابة والبحث وإتمام المهام مباشرة داخل المتصفح. وتتضمن الباقة أيضًا مشروع Project Mariner، وهو وكيل ذكاء اصطناعي تجريبي قادر على إدارة ما يصل إلى 10 مهام في آن واحد، كما يحصل المشتركون على مزايا إضافية داخل منظومة جوجل، مثل YouTube Premium، وسعة تخزين تصل إلى 30 تيرابايت، وإمكانية استخدام Gemini عبر تطبيقات جوجل المختلفة.

شركة Minisforum الصينية تطلق خادم ذكاء اصطناعي مدمج بمعالج Ryzen AI Max+ 395
شركة Minisforum الصينية تطلق خادم ذكاء اصطناعي مدمج بمعالج Ryzen AI Max+ 395

جريدة المال

timeمنذ 14 ساعات

  • جريدة المال

شركة Minisforum الصينية تطلق خادم ذكاء اصطناعي مدمج بمعالج Ryzen AI Max+ 395

أعلنت شركة Minisforum الصينية المتخصصة في تطوير وتصنيع أجهزة الكمبيوتر الصغيرة (Mini PCs)، عن إطلاقها MS-S1 Max، نظام خوادم مدمج ثنائي الوحدات 2U rackmount بتصميم تثبيت على حامل، مدعوم بأحدث معالجات AMD من فئة ، Ryzen AI Max+ 395، في خطوة وصفتها الشركة بأنها "ثورة في نشر الذكاء الاصطناعي في بيئات الحوسبة المدمجة". ويُعد MS-S1 Max محطة عمل متقدمة تستهدف الشركات الصغيرة والمتوسطة (SMB)، بالإضافة إلى الجامعات والمختبرات التقنية الناشئة، حيث يوفر حلاً مدمجًا ومنخفض التكلفة لتشغيل نماذج الذكاء الاصطناعي الكبيرة محليًا دون الاعتماد على بنية تحتية تقليدية باهظة. ورغم الإشادة بتصميم الجهاز بحجمه الصغير البالغ 3.2 لتر وكفاءته في إدارة الطاقة، أثار خيار Minisforum باستخدام معالج Ryzen المُخصص للأجهزة المحمولة بدلاً من معالجات EPYC المخصصة للخوادم، انتقادات وتساؤلات حول مدى ملاءمته للاستخدامات المؤسسية الحساسة. ويمتلك المعالج Ryzen AI Max+ 395 وحدة معالجة عصبية (NPU) مدمجة ورسوميات Radeon قوية، ما يُتيح تشغيل نماذج ذكاء اصطناعي مثل DeepSeek 70B بكفاءة على الخادم نفسه. لكن غياب ميزات مثل دعم ذاكرة ECC، والتي تُعد ضرورية لأحمال العمل الحرجة، يُقلل من موثوقية النظام على المدى الطويل. هذا النهج غير التقليدي من Minisforum، والذي يُمثل إعادة توظيف لمعالجات المستهلك في سوق الخوادم، قد يُعقّد استراتيجيات AMD التي تسعى للحفاظ على التمايز بين شرائح EPYC وRyzen. كما قد يدفع الشركة إلى إعادة النظر في كيفية التعامل مع هذا الاتجاه إذا ازداد اعتماده من قبل مصنّعي الحوسبة المصغّرة. من المتوقع طرح MS-S1 Max في الأسواق خلال النصف الثاني من عام 2025.

حمل التطبيق

حمّل التطبيق الآن وابدأ باستخدامه الآن

مستعد لاستكشاف الأخبار والأحداث العالمية؟ حمّل التطبيق الآن من متجر التطبيقات المفضل لديك وابدأ رحلتك لاكتشاف ما يجري حولك.
app-storeplay-store