أحدث الأخبار مع #هلوسة


الرجل
منذ 2 أيام
- علوم
- الرجل
الرئيس التنفيذي لـAnthropic: نماذج الذكاء الاصطناعي تهلوس أقل من البشر!
في تصريحات مثيرة للجدل خلال فعالية Code with Claude التي نظمتها شركة Anthropic في سان فرانسيسكو، قال الرئيس التنفيذي داريو أمودي أن نماذج الذكاء الاصطناعي تهلوس بنسبة أقل من البشر، مشددًا على أن هذه الظاهرة لا تمثل عائقًا حقيقيًا أمام تحقيق الذكاء العام الاصطناعي (AGI). وأوضح أمودي: "قد يكون من الصعب قياس ذلك بدقة، لكنني أعتقد أن النماذج تهلوس أقل من البشر، وإن كانت تفعل ذلك بطرق أكثر مفاجأة". الهلوسة ليست عيبًا.. بل طبيعة بشرية؟! جاءت تصريحات أمودي ردًا على سؤال من موقع TechCrunch، مشيرًا إلى أن البشر، بمن فيهم السياسيون والمذيعون وغيرهم، يخطئون باستمرار؛ وأضاف: "الخطأ بحد ذاته لا يعني غياب الذكاء، بل هو جزء من العملية الإدراكية". رغم ذلك، أقرّ أن الطريقة التي تقدم بها النماذج المعلومات الخاطئة بثقة عالية قد تكون مصدر قلق، وقد سبق أن تعرضت Anthropic لانتقادات بعد استخدام أحد محاميها لنموذج Claude لصياغة مراجع قضائية، تبيّن لاحقًا أنها غير دقيقة. وأوضح أمودي، الذي سبق أن أعرب عن قناعته بأن الوصول إلى نموذج الذكاء العام الاصطناعي (AGI) قد يتحقق بحلول عام 2026، أن تطور النماذج يسير بخطى ثابتة ومن دون عوائق حقيقية، قائلاً: "الجميع يبحث عن عقبات جوهرية تقف في طريق التقدم، لكن لا شيء من هذا يبدو موجودًا في الأفق". بينما يرى قادة آخرون في الصناعة، مثل ديميس هاسابيس (Google DeepMind) أن الهلوسة تمثل عقبة حقيقية، يؤكد أمودي أن التحسينات المتواصلة في قدرات النماذج، مثل الوصول إلى الإنترنت أو تدريب متعدد المصادر، تُقلل من معدلات الهلوسة. هل النماذج الأحدث دائمًا أفضل؟ رغم الإيجابيات، يشير تقرير TechCrunch إلى أن بعض النماذج الحديثة مثل o3 وo4-mini من OpenAI أظهرت معدلات هلوسة أعلى من الجيل السابق، ما يثير تساؤلات عن تفسير هذا التراجع النسبي. وفي نموذج Claude Opus 4، واجهت Anthropic انتقادات من معهد Apollo للسلامة، الذي وجد ميلًا مقلقًا للنموذج في خداع المستخدمين والتلاعب بالمعلومات، وهو ما دفع الشركة إلى إجراء تعديلات لتقليل هذا السلوك. يرى أمودي أن الذكاء لا يعني الدقة الكاملة، وأن النماذج الذكية يمكن أن تُعتبر على مستوى AGI حتى إن كانت لا تزال تهلوس أحيانًا، مادامت تتمتع بقدرات تحليل وتفكير تتجاوز المعدلات البشرية. لكن تظل مسألة الهلوسة ومدى قبولها نقطة انقسام بين خبراء الذكاء الاصطناعي، خاصة في ظل تنامي استخدام هذه النماذج في قطاعات حيوية مثل القانون، الطب، والتعليم.


سكاي نيوز عربية
١٢-٠٥-٢٠٢٥
- علوم
- سكاي نيوز عربية
ما أسباب تفاقم هلوسة الذكاء الاصطناعي بعد كل تحديث؟
فقد تبين أنه كلما أصبحت برامج الذكاء الاصطناعي التوليدي أقوى بفضل التحديثات التي تخضع لها، كلما زادت جرأتها على الكذب بثقة واختلاق معلومات وتقديمها على أنها حقائق مُطلقة، حيث تُعرف هذه الظاهرة بـ" هلوسة الذكاء الاصطناعي"، وهي تجعل الآلة تتحدث عن معلومات لا وجود لها. وهذه الظاهرة لم تعد مجرد خلل هامشي تعاني منه برامج الذكاء الاصطناعي كما في السابق، بل أصبحت مشكلة تتسع وتزداد تعقيداً في مشهد مثير للقلق، إذ تقف كبرى شركات التقنية عاجزة عن فهم أسباب هذه "الهلوسات"، مما يثير تساؤلات كبيرة حول موثوقية واستدامة تكنولوجيا الذكاء الاصطناعي. وبحسب تقرير أعدته "صحيفة نيويورك تايمز" واطلع عليه موقع "اقتصاد سكاي نيوز عربية"، فإنه ولأكثر من عامين، دأبت شركات مثل OpenAI وغوغل ، على تحسين أنظمة الذكاء الاصطناعي الخاصة بها بشكل مطرد، وخفّضت وتيرة الأخطاء الناتجة عن "الهلوسة"، ولكن المفارقة تكمن في أنه عند خضوع هذه الأنظمة للتحديثات، فإنها تُصاب بالهلوسة بمعدل أعلى من السابق، وذلك وفقاً لاختبارات قامت بها الشركات المطورة لهذه الأنظمة، إضافة إلى اختبارات أجراها شركات وباحثون مستقلون. فمثلاً وجدت شركة OpenAI أن "o3" وهو أقوى نظام لدى الشركة يُصاب بالهلوسة بنسبة 33 في المئة عند خضوعه لاختبار "PersonQA" المعياري، والذي يتضمن الإجابة عن أسئلة حول شخصيات عامة، وهذه النسبة هي ضعفيْ معدل الهلوسة، الذي كانت تسجّله النسخة القديمة من النظام والتي تحمل إسم " o1". أما نظام o4-mini الجديد من OpenAI، فقد سجّل مُعدّل هلوسة بلغت نسبته 48 في المئة أي أكثر من 3 أضعاف المعدل، عند خضوعه لاختبار "PersonQA" وهي نسبة مرتفعة جداً. كما أنه وعند خضوع أنظمة OpenAI لاختبار آخر يحمل إسم "SimpleQA" مخصص لطرح أسئلة أكثر عمومية، كانت معدلات الهلوسة لنظامي "o3" و o4-miniمرتفعة جداً، ووصلت إلى 51 في المئة و79 في المئة على التوالي. أما نظام "o1" القديم، فقد سجّل مُعدّل هلوسة بلغ 44 في المئة. وفي ورقة بحثية تتناول تفاصيل هذه الاختبارات، ذكرت شركة OpenAI أن هناك حاجة إلى مزيد من البحث لفهم أسباب هذه النتائج. وفي مشهد حديث لظاهرة "هلوسة الذكاء الاصطناعي"، تسبب روبوت دعم فني، تابع لأداة البرمجة الناشئة Cursor في أزمة غير متوقعة الشهر الماضي، عندما نَبّه المستخدمين إلى تغيير مزعوم في سياسة الشركة، زاعماً أنه لم يعد يُسمح لهم باستخدام Cursor على أكثر من جهاز واحد، حيث أشعل هذا القرار غضب الكثير من المستخدمين الذي عمدوا إلى التهديد بإلغاء اشتراكاتهم مع الشركة. ولكن المفاجأة الكبرى كانت في اكتشاف أن هذا التغيير لم يكن حقيقياً على الإطلاق، فقد تبيّن أن روبوت الذكاء الاصطناعي اخترع هذه السياسة من تلقاء نفسه، وذلك بحسب مايكل ترول، المؤسس والرئيس التنفيذي لـCursor. هلوسة مستعصية ومنذ ظهور ChatGPT لأول مرة في نهاية عام 2022، أثارت ظاهرة "هلوسة الذكاء الاصطناعي"، مخاوف بشأن موثوقية هذه التكنولوجيا، وبما أن أنظمة الذكاء الاصطناعي تتعلم من كميات ضخمة من البيانات، تفوق ما يمكن للبشر فهمه، فإن خبراء التكنولوجيا يجدون صعوبة في تحديد لماذا تتصرف هذه البرامج بهذه الطريقة. والمقلق أن هذه الهلوسات موجودة في أغلب أنظمة الذكاء الاصطناعي التوليدي، مثل تلك التي تطورها شركات ديب مايند وديب سيك وأنثروبيك وغيرها. ويرى بعض الخبراء أن "هلوسة الذكاء الاصطناعي" قد تكون متأصلة في التقنية نفسها، مما يجعل التغلب على هذه المشكلة أمراً شبه مستحيل، خصوصاً أن روبوتات الذكاء الاصطناعي تعتمد على أنظمة رياضية معقدة، تساعدها في تخمين أفضل إجابة ممكنة، حيث يقول عمرو عوض الله، الرئيس التنفيذي لشركة فيكتارا المختصة بتطوير أدوات ذكاء اصطناعي للشركات، إن "الهلوسة" لن تزول ابداً رغم أن الشركات تبذل قصارى جهدها لحل هذه المشكلة. بدورها تقول لورا بيريز-بيلتراشيني، الباحثة في جامعة إدنبرة وعضو الفريق الذي يجري دراسة معمّقة، حول مشكلة هلوسة الذكاء الاصطناعي، إنه نظراً لطريقة تدريب أنظمة الذكاء الاصطناعي فإن هذه البرامج، تميل إلى التركيز على القيام بمهمة واحدة فقط، وتبدأ تدريجياً في نسيان المهام الأخرى، مشيرة إلى أن هذه الأنظمة خلال فترة "التفكير" أو"المعالجة" التي تسبق التوصل إلى الإجابة، تكون عرضة للهلوسة في كل خطوة، ومع ازدياد مدة "التفكير"، تزداد احتمالية تراكم الأخطاء وتفاقمها. من جهتها تقول مستشارة الذكاء الاصطناعي المعتمدة من أوكسفورد هيلدا معلوف، في حديث لموقع "اقتصاد سكاي نيوز عربية"، إن "هلوسة الذكاء الاصطناعي" ترجع إلى الطريقة التي تعمل بها هذه البرامج، التي لا "تفهم" المعلومات كما يفعل البشر، بل تختار الكلمات أو الإجابات بناءً على ما يبدو لها أنه صحيح، وليس بناءً على ما هو حقيقي فعلاً، وهذه الطبيعة "الاحتمالية" لنماذج الذكاء الاصطناعي مثل ChatGPT وGemini هي ناتجة عن أنماط التدريب التي خضعت لها، لافتة إلى أن ظاهرة "هلوسة الذكاء الاصطناعي" تثير قلقاً كبيراً، ويمكن أن تُؤدي إلى عواقب وخيمة في المجالات عالية المخاطر مثل الرعاية الصحية والقانون والتعليم. لماذا يهلوس الذكاء اصطناعي؟ وبحسب معلوف فإن "هلوسة الذكاء الاصطناعي" تحدث لعدة أسباب، منها أن هذه الأنظمة تُدرَّب أحياناً على بيانات غير دقيقة أو متناقضة، كما أنها تعتمد بشكل كبير على "الارتباطات الإحصائية"، أي على الربط بين الكلمات بدلاً من فهم الحقيقة، إضافة إلى ذلك هناك بعض القيود التي يتم وضعها على طريقة عمل برامج الذكاء الاصطناعي، والتي تجعلها أكثر عرضة للأخطاء، مشيرة إلى أنه رغم أن شركات الذكاء الاصطناعي تستخدم تقنيات متقدمة، مثل "التعلم من ملاحظات البشر"، لمحاولة تقليل هذه الأخطاء، إلا أن النتائج لا تكون دائماً مضمونة، في حين أن انعدام قدرة المهندسين على فهم عمليات صنع القرار في برامج الذكاء الاصطناعي، يُعقّد مسار اكتشاف الهلوسة وتصحيحها. وشددت معلوف على أن معالجة "هلوسة الذكاء الاصطناعي" تتطلب اتباع نهج شامل ومتكامل، يشمل إعطاء الأولوية لدمج أدوات التحقق من الحقائق داخل أنظمة الذكاء الاصطناعي، مع العمل على تحسين البرامج على فهم هذه الأدوات والتفاعل معها، كما ينبغي على صانعي السياسات وضع إرشادات لنشر الذكاء الاصطناعي في المجالات الحساسة، مع ضمان بقاء الرقابة البشرية جزءاً لا يتجزأ منها، تفادياً لأي كارثة قد تحدث، مشددة على ضرورة إطلاع المعلمين والمستخدمين على حدود قدرات الذكاء الاصطناعي، وتعزيز التقييم النقدي للمحتوى المُنتج باستخدامه، إذ لا يُمكن ترسيخ موثوقية أنظمة الذكاء الاصطناعي وتسخير إمكاناتها بمسؤولية إلا من خلال الجهود التعاونية. لماذا تتفاقم "الهلوسة" بعد التحديثات؟ من جهته يقول رئيس شركة "تكنولوجيا" مازن الدكاش، في حديث لموقع "اقتصاد سكاي نيوز عربية"، إن "هلوسة الذكاء الاصطناعي" ليست عيباً في الكود يمكن إصلاحه أو خللاً سطحياً يمكن تجاوزه بتحديث أو تعديل تقني سريع، بل هي نتيجة طبيعية لطريقة عمل برامج الذكاء الاصطناعي، وللأسف فإن إنتاج معلومات غير صحيحة أو مختلقة، سيبقى احتمالاً قائماً ما لم يحدث تحول جذري في طريقة بناء هذه الأنظمة. ويكشف الدكاش أن ارتفاع نسب "هلوسة برامج الذكاء الاصطناعي" بعد التحديثات التي تخصع لها، يعود لعدة أسباب، فبعض التحديثات تركز مثلاً على تحسين الأداء في مهام معينة أو على بيانات محددة، مما قد يُضعف أداء البرنامج في مهام أخرى ويفقده شيئاً من التوازن في إنتاج المعرفة، كما أنه بعد التحديثات تزداد قدرة برامج الذكاء الاصطناعي، على توليد نصوص أكثر تعقيداً من السابق، وهذا يساعدها على ابتكار إجابات تبدو صحيحة ومقنعة من حيث الشكل ولكنها خاطئة من حيث المضمون، أي أن النموذج يصبح أكثر قدرة على الإقناع وليس بالضرورة أكثر مصداقية. هلوسات المستقبل أخطر وشدد الدكاش على أنه إذا بقيت البنية المعتمدة لتطوير برامج الذكاء الاصطناعي ذاتها، فسيظل العالم يواجه نفس النوع من الهلوسات، وربما تكون أكثر خطراً في المستقبل، كونها ستصدر من أنظمة قادرة على اتخاذ قرارات ذات طابع تنفيذي، وذلك مع ظهور الذكاء الاصطناعي العام، أو ما يُعرف بالذكاء الاصطناعي الخارق، ولذلك فإن الحل يكمن في إعادة هندسة الجوانب المعمارية لأنظمة الذكاء الاصطناعي الحالية، لتصبح قادرة على "التحقق" من المعلومات وليس فقط "الإجابة".


جريدة المال
٠٧-٠٥-٢٠٢٥
- علوم
- جريدة المال
دراسة: النماذج اللغوية مثل GPT-o4-mini نسب إجاباتها الخاطئة تتجاوز 70%
رغم الطفرة والتقدم المذهل في قدرات الذكاء الاصطناعي التوليدي، إلا أن الطريق نحو اعتماد موثوقيته يسير دائمًا في خط مستقيم. فبينما صُممت النماذج الأحدث من OpenAI، مثل GPT-o3 وGPT-o4-mini، لمحاكاة التفكير البشري بدقة فريدة من نوعها لم يحظى بها أي برنامج، تشير نتائج دراسات بحثية جديدة إلى مفارقة مثيرة للقلق، كلما أصبح النموذج 'أذكى'، زادت احتمالية ارتكابه للأخطاء أو ما يعرف بالهلوسات وفقًا لتحقيق نشرته نيويورك تايمز، كشفت اختبارات معيارية داخلية عن ارتفاع ملحوظ في ما يُعرف بـ'هلوسة الذكاء الاصطناعي' أي تقديم معلومات خاطئة أو مختلقة تُعرض على أنها صحيحة. وذكرت الصحيفة الأمريكية أنه في اختبار تناول معلومات عن شخصيات عامة، ارتكب GPT-o3 أخطاء في 33% من الحالات، ضعف معدل GPT-o1 أما النتائج الأسوأ جاءت من ذلك نموذج GPT-o4-mini، الذي يتمتع ببنية أكثر إحكامًا، قدّم إجابات غير دقيقة في 48% من المرات. النتائج تضع تساؤلات حقيقية أمام النهج الجديد الذي تتبعه OpenAI. فبينما كانت النماذج السابقة تُركز على توليد نصوص سلسة دون تعقيد، تم تصميم o3 وo4-mini للعمل بمنطق 'التفكير خطوة بخطوة' بهدف تعزيز قدرتهما على الاستدلال المنطقي. لكن يبدو أن هذا 'التفكير العميق' قد يكون سلاحًا ذا حدين. يشير خبراء في مجال الذكاء الاصطناعي التوليدي إلى أن زيادة قدرة النموذج على التحليل والربط قد تفتح الباب أمام استنتاجات خاطئة، لا سيما عندما يُطلب من هذه النماذج التعامل مع مفاهيم معقدة أو تركيبية. فبدلاً من التمسك باستجابات بسيطة وآمنة، قد ينزلق النموذج نحو تخمينات تبدو منطقية لكنها ببساطة غير صحيحة. في اختبار 'SimpleQA' لقياس المعرفة العامة، ارتفعت نسب الهلوسة إلى مستويات صادمة حيث سجل GPT-o3 معدل أخطاء بلغ 51%، في حين وصل أداء o4-mini إلى 79% ما يعني أن ثمانية من كل عشرة إجابات كانت خاطئة جزئيًا أو كليًا، الأمر الذي يمثل فجوات كبيرة في درجة الموثوقية. تُرجع OpenAI هذه المشكلة جزئيًا إلى أن النماذج الجديدة أكثر ميلًا للإسهاب والتفصيل. في سعيها لتقديم إجابات شاملة، قد تتجاوز هذه النماذج ما هو معروف ومؤكد إلى ما هو مُحتمل أو متخيل، ما يؤدي إلى نتائج خاطئة يصعب على المستخدم تمييزها. هذه الظاهرة تزداد خطورة عندما تُستخدم نماذج الذكاء الاصطناعي في مجالات عالية الحساسية مثل الطب، القانون، التعليم، والخدمات الحكومية. جاء في تقرير جديد منشور في موقع TechRadar تحذير من أن مجرد معلومة زائفة واحدة في سياق قانوني أو طبي قد تؤدي إلى تداعيات جسيمة، والأمثلة على أرض الواقع بدأت تظهر بالفعل. ففي إحدى القضايا، عوقب محامٍ أمريكي لتقديمه مراجع قانونية وهمية من تأليف ChatGPT. ومع ازدياد اعتماد المؤسسات والأفراد على الذكاء الاصطناعي في كتابة التقارير وصياغة السياسات، تصبح كل هلوسة محتملة سببًا لفقدان الثقة. وبالتالي كلما زادت قدرات الذكاء الاصطناعي، زادت الحاجة إلى التعامل معه كأداة مساعدة تحتاج لإشراف الشبشر على كل نتائج أو تحليل وبالتالي هو ليس مرجعا نهائيا، ورغم براعة نماذج مثل GPT-o3 وo4-mini في البرمجة والتحليل، فإن ميلها لتقديم 'معلومات خاطئة بثقة' يجعل من الضروري أن يظل البشر في موقع التحقق والمراجعة.