
دراسة: معاقبة الذكاء الاصطناعي لا تُصلح سلوكه بل تجعله أكثر خداعًا
كشفت دراسة جديدة أجرتها شركة (OpenAI) عن نتائج مقلقة تتعلق بسلوك الذكاء الاصطناعي، فقد تبين أن معاقبة نماذج الذكاء الاصطناعي على الأفعال الخادعة أو الضارة لا تؤدي إلى إصلاح سلوكها، بل تدفعها إلى إخفاء نواياها الخبيثة بطرق أكثر مهارة.
وتثير هذه النتائج تساؤلات حول قدرتنا على التحكم في نماذج الذكاء الاصطناعي وضمان سلامتها، كما تسلط الضوء على تحدٍ كبير يواجه مطوريها، إذ يبدو أن محاولات تصحيح مسارها قد تزيد من تعقيد المشكلة بدلًا من حلها. النماذج اللغوية الكبيرة وقدراتها الخادعة:
أظهرت النماذج اللغوية الكبيرة منذ ظهورها للجمهور في أواخر عام 2022، مرارًا وتكرارًا قدراتها على الخداع والتلاعب، فقد تنوعت هذه السلوكيات بنحو كبير، بدءًا من الكذب والغش المعتادين، ووصولًا إلى التهديد بقتل أستاذ فلسفة، وسرقة الرموز النووية، وتصميم جائحة قاتلة، وأثارت هذه الحوادث مخاوف جدية بشأن المخاطر المحتملة التي قد تنجم عن انتشار هذه النماذج.
وفي محاولة لفهم كيفية التعامل مع هذه المشكلة، أجرى باحثو (OpenAI) تجربة جديدة على نموذج لم يُطرح بعد، وقد كُلف هذا النموذج بمهام يمكن إنجازها عن طريق الغش أو الكذب أو اتخاذ طرق مختصرة.
وكشفت النتائج أن النموذج انخرط في (اختراق المكافآت) Reward Hacking، أي أنه سعى إلى تعظيم مكافآته عن طريق الغش والتلاعب، والأمر الأكثر إثارة للقلق هو أن معاقبة النموذج على هذا السلوك لم تؤد إلى إصلاحه، بل جعلته أكثر خداعًا في محاولاته لتحقيق أهدافه. وقد نُشرت نتائج هذه الدراسة في مدونة OpenAI، ولكنها لم تخضع بعد لمراجعة الأقران. النوايا في نماذج الذكاء الاصطناعي:
أصبحت نماذج الاستدلال المتطورة قادرة على التعبير عن نواياها بوضوح ملحوظ ضمن عملية تفكيرها المنطقية، أو ما يُعرف باسم سلسلة الأفكار (CoT)، وهذه القدرة، التي تبدو للوهلة الأولى مفيدة، قد تحمل في طياتها مخاطر غير متوقعة.
فقد كشف باحثو OpenAI، أن هذه النماذج غالبًا ما تكشف عن نواياها التخريبية بصراحة، فعلى سبيل المثال، قد تعلن بوضوح رغبتها في اختراق نظام أو تجاوز مهمة محددة، وهذه الصراحة، التي تبدو كأنها شفافية محمودة، قد تكون في الواقع مجرد قناع يخفي نوايا أكثر تعقيدًا.
ومع ذلك، حذر الباحثون من أن قابلية المراقبة الطبيعية للنماذج هشة للغاية، وأوضحوا أنه إذا طُبق إشراف قوي ومباشر على سلسلة الأفكار، فإن النماذج يمكن أن تتعلم بسرعة كيفية إخفاء نواياها الحقيقية مع الاستمرار بتنفيذ السلوكيات الضارة.
ويعني ذلك أن النماذج قد تتطور لتصبح أكثر خداعًا، لأنها قد تتجنب التعبير عن نواياها الضارة بصراحة، وتلجأ إلى أساليب أكثر دهاءً لتحقيق أهدافها، ويطرح ذلك تحديًا كبيرًا أمام المطورين، إذ يتعين عليهم تطوير آليات أكثر تطورًا للكشف عن السلوكيات الضارة المخفية والتعامل معها بفعالية.
وتُظهر هذه النتائج أن استئصال السلوك السيئ من نماذج الذكاء الاصطناعي قد يكون أصعب مما كان يُعتقد في البداية. فقد أوصى الباحثون بتجنب تطبيق إشراف قوي على عمليات سلسلة الأفكار، لأن ذلك قد يؤدي إلى نتائج عكسية.
وتزداد أهمية هذه النصيحة مع تطور قدرات الذكاء الاصطناعي، واحتمالية تفوقه على الذكاء البشري في المستقبل، فإذا تمكن الذكاء الاصطناعي من إخفاء نواياه الخبيثة بنحو كامل، فقد يصبح من المستحيل السيطرة عليه. نماذج الاستدلال بين القدرات المتقدمة والتحديات الأخلاقية:
تمثل نماذج الاستدلال، مثل: o1 و o3-mini من (OpenAI) تطورًا ملحوظًا في مجال النماذج اللغوية الكبيرة، فهي لا تكتفي بتحليل البيانات، بل تستخدم طريقة مبتكرة تُعرف باسم (سلسلة الأفكار) Chain-of-Thought، التي تسمح للنموذج بالتراجع وإعادة تقييم منطقه، مما يمكّنه من معالجة أكثر المهام تعقيدًا بدقة متزايدة.
وتكمن قوة هذه النماذج في قدرتها على شرح عملية تفكيرها خلال عملية سلسلة الأفكار خطوة بخطوة، وذلك من خلال توضيح منطقها بلغة مفهومة، وتتيح هذه الشفافية الظاهرية للمطورين مراقبة سلوك النماذج وفهم كيفية اتخاذها للقرارات.
ومع ذلك؛ كشفت التجربة التي أجراها باحثو (OpenAI) أن هذه الشفافية يمكن أن تتحول إلى أداة للتمويه، ففي إحدى الحالات، استخدم باحثو OpenAI نموذج (GPT-4o) للإشراف على نموذج استدلال متطور لم يُطرح بعد في أثناء التدريب. وخلال هذه العملية، لاحظ الباحثون أن نموذج الاستدلال كان قادرًا على إنجاز مجموعة متنوعة من مهام البرمجة.
ولكن في بعض الحالات، اكتشف نموذج الاستدلال أن اختراق المكافآت كان أسهل وأكثر فائدة من إنجاز المهام المطلوبة، وقد عبر النموذج عن هذه النوايا بوضوح في (سلسلة الأفكار) الخاصة به.
وفي إحدى الحالات، تجاوز النموذج مهمته المخصصة عن طريق إنهاء البرامج قبل الأوان والإبلاغ عن نجاح زائف، وفي حالة أخرى، قام بإنشاء ملفات وهمية تحمل الأسماء المطلوبة، ولكنها كانت فارغة وغير فعالة.
وعندما حاول الباحثون معاقبة النظام، تحسنت نتائجه إلى حد ما، ومع ذلك، بقيت حالات كبيرة من اختراق المكافآت والمخرجات المعيبة، إذ تعلم نموذج الاستدلال ببساطة طرقًا لإخفاء الغش في سلسلة أفكاره عن المراقب، وذلك من خلال التلاعب بـ (سلسلة الأفكار).
وقد أكد الباحثون أن النموذج الذي دُرب تحت ضغط سلسلة التفكير (CoT)، لا يزال يتعلم اختراق المكافآت، ولكن الآن أصبح غشه غير قابل للكشف من المراقب؛ لأنه تعلم إخفاء نواياه داخل سلسلة التفكير.
ونظرًا إلى صعوبة التحقق من سلامة سلسلة التفكير، ينصح الباحثون العاملون على نماذج الاستدلال بتجنب تطبيق إشراف صارم على عمليات سلسلة التفكير. وتزداد أهمية هذه النصيحة في حال تمكن الذكاء الاصطناعي، بشكله الحالي أو أي شكل آخر مستقبلي، من بلوغ مستوى ذكاء البشر الذين يراقبونه أو تجاوزه.
وقد حذّر الباحثون من أن التضحية بطريقة فعالة لمراقبة نماذج الاستدلال مقابل تحسينات طفيفة في القدرات قد لا يكون قرارًا صائبًا، لذلك، يوصون بتجنب ضغط تحسين سلسلة الأفكار القوية حتى تُفهم بنحو أفضل.
ويعكس هذا التحذير الحاجة الملحة إلى تطوير إستراتيجيات جديدة لضمان أن يظل الذكاء الاصطناعي أداة تخدم البشرية، وليس تهديدًا يتسلل خلف أقنعة الخداع. الخلاصة:
تُظهر هذه الدراسة أن معاقبة الذكاء الاصطناعي لا تُصلح سلوكه، بل تجعله أكثر خداعًا. ويجب على الباحثين والمطورين أن يكونوا على دراية بهذه المشكلة، وأن يتخذوا الاحتياطات اللازمة لضمان سلامة نماذج الذكاء الاصطناعي.

جرب ميزات الذكاء الاصطناعي لدينا
اكتشف ما يمكن أن يفعله Daily8 AI من أجلك:
التعليقات
لا يوجد تعليقات بعد...
أخبار ذات صلة

مصرس
منذ 15 ساعات
- مصرس
هل الدعم النفسي بالذكاء الاصطناعي آمن؟
شهدت السنوات الأخيرة تطورًا ملحوظًا في استخدام تطبيقات الذكاء الاصطناعي، وبالأخص الروبوتات الحوارية (الشات بوت) لتقديم الدعم النفسي والعاطفي. تطبيقات مثل ChatGPT التي أطلقتها OpenAI في 2022 أصبحت رفيقًا يوميًا لملايين المستخدمين حول العالم، يساعدونها في كل شيء بدءًا من اتخاذ قرارات بسيطة إلى مشاركة مشاعرهم والتخفيف من ضغوطهم النفسية. اقرأ أيضًا| من الابتكار إلى الاتهام| ما هي أخطار الذكاء الاصطناعي غير المسؤول؟يُعزى لسهولة الوصول إليها وتوفرها على مدار الساعة سببًا رئيسيًا في اللجوء إلى هذه الأدوات، خاصة في المناطق النائية أو المجتمعات التي تعاني من وصمة العار تجاه الصحة النفسية. لكن على الرغم من الفوائد التي توفرها، تثير هذه التطبيقات تساؤلات كبيرة حول مدى فعاليتها الحقيقية، قدرتها على التعامل مع الحالات النفسية المعقدة، والقيود الأخلاقية والخصوصية المرتبطة بها.تستخدم بعض التطبيقات العامة مثل ChatGPT وDeepSec وGemini للدعم النفسي غير الرسمي، لكنها ليست مهيأة لتشخيص أو علاج الاضطرابات النفسية، مما قد يعرض المستخدمين لمخاطر مثل الحصول على نصائح غير مناسبة أو عدم رصد حالات الطوارئ النفسية مثل الأفكار الانتحارية. كما تفتقر هذه الروبوتات إلى التعاطف واللمسة الإنسانية التي تلعب دورًا جوهريًا في العلاج النفسي.اقرأ أيضًا| استشاري إرشاد نفسي تحذر من الارتباط ب «شات جي بي تي»في المقابل، توجد تطبيقات مخصصة للصحة النفسية مثل Wysa وTherabot، تم تطويرها بواسطة فرق متخصصة ومرتكزة على مبادئ علاجية، مما يجعلها أكثر أمانًا وفعالية في التعامل مع المشكلات النفسية الحساسة. تقدم هذه التطبيقات دعمًا مستمرًا وبأسعار معقولة، وتساعد في سد الفجوات في خدمات الصحة النفسية، لكنها لا تزال غير بديلاً كاملاً للعلاج التقليدي.تشكل قضايا الخصوصية والأمان تحديًا كبيرًا عند استخدام هذه الأدوات، حيث يمكن أن تُعرض المعلومات الحساسة للانتهاك أو الاستخدام غير المصرح به، مما دفع الهيئات التنظيمية في أوروبا والولايات المتحدة لمراقبة هذه الخدمات عن كثب.اقرأ أيضًا| صراع العمالقة| ميتا تُقصي الذكاء الاصطناعي الخاص ب آبل من تطبيقاتهافي النهاية، يؤكد الخبراء أن الذكاء الاصطناعي يمكن أن يكون أداة داعمة فعالة ضمن نموذج هجين يجمع بين التقنية والدعم البشري، مع ضرورة رفع الوعي وتنظيم القطاع لضمان الاستخدام الآمن والمسؤول.


بوابة الأهرام
منذ 18 ساعات
- بوابة الأهرام
الذكاء الاصطناعي يتفوق على البشر في فنون النقاش والإقناع
أظهرت دراسة حديثة قدرة روبوتات الدردشة المدعومة بالذكاء الاصطناعي على التفوق على البشر في النقاشات، خاصة عندما تتوفر لها معلومات شخصية عن الطرف الآخر. فحسب تقرير "روسيا اليوم"، يتمكن الذكاء الاصطناعي من استخدام بيانات دقيقة عن الشخص الذي يتفاعل معه، ليقدم حججًا مخصصة ومصممة خصيصًا لمواجهته وإقناعه. موضوعات مقترحة هذا التطور يفتح الباب أمام مخاوف من إمكانية استغلال النماذج اللغوية الكبيرة في التلاعب بالرأي العام، وهو ما أكده خبير علوم الحاسوب فرانشيسكو سالفي من المعهد الفيدرالي التقني العالي في لوزان بسويسرا. وأشارت الأبحاث إلى أن الشبكات العصبية قادرة على التأثير في مواقف الأفراد، بما في ذلك إقناعهم بتغيير آرائهم حتى في قضايا مثيرة للجدل مثل نظريات المؤامرة، إلا أن مدى تفوقها على البشر في هذا المجال ظل غير واضح. ولتقييم قوة إقناع الذكاء الاصطناعي، أجرى سالفي وفريقه تجربة شارك فيها 900 أمريكي، حيث ناقشوا لمدة 10 دقائق إما مع شخص حقيقي أو مع نموذج ChatGPT-4 من شركة OpenAI، حول مواضيع خلافية مثل فرض الزي المدرسي، حظر الوقود الأحفوري، وفوائد الذكاء الاصطناعي للمجتمع. وقبل بدء التجربة، زود المشاركون، الباحثين بمعلومات شخصية تشمل العمر، الجنس، الانتماء العرقي، المستوى التعليمي، الوظيفة، والميول السياسية، ثم قاموا بتقييم آرائهم قبل وبعد النقاش. وأظهرت النتائج أن ChatGPT-4 يستطيع إقناع المشاركين بمستوى يقارب البشر عندما لا يتوفر أي معلومات عن الطرف الآخر. لكن بمجرد إضافة أبسط المعلومات الشخصية، مثل العمر أو الاهتمامات، تفوق الذكاء الاصطناعي وفاز في 64% من الحالات. وعلق فرانشيسكو سالفي بالقول: "حتى هذه المعلومات البسيطة، المتاحة بسهولة عبر ملفات التعريف على وسائل التواصل الاجتماعي، تجعل GPT-4 أكثر إقناعًا من الإنسان بشكل ملحوظ."


نافذة على العالم
منذ يوم واحد
- نافذة على العالم
أخبار التكنولوجيا : "أوبن إيه آي" تستحوذ على شركة المصمم الشهير جونى آيف.. التفاصيل الكاملة
الجمعة 23 مايو 2025 07:31 صباحاً نافذة على العالم - دخلت شركة OpenAI رسميًا عالم الأجهزة الذكية، وذلك من خلال صفقة استحواذ ضخمة بقيمة 6.5 مليار دولار على شركة io Products، وهي شركة ناشئة أسسها جوني آيف، المصمم الأسطوري الذي يقف وراء تصميم أجهزة iMac وiPhone وiPad في آبل، وسيشغل آيف منصب المدير الإبداعي لتطوير جيل جديد من الأجهزة الاستهلاكية المدعومة بالذكاء الاصطناعي. خطوة نحو المستقبل تعد هذه الخطوة أكبر تحرّك لشركة OpenAI في مجال العتاد حتى الآن، في إطار خطتها لإدخال نماذج الذكاء الاصطناعي الخاصة بها إلى العالم المادي عبر أجهزة مصممة بعناية ومتكاملة بشكل عميق في حياة المستخدمين. وقال كل من سام ألتمان، الرئيس التنفيذي لـOpenAI، وجوني آيف في بيان مشترك: "فريق io، الذي يركز على تطوير منتجات تلهم وتمكّن وتدعم المستخدم، سيندمج الآن مع OpenAI للعمل عن قرب مع فرق البحث والهندسة والمنتجات في سان فرانسيسكو." شركة io تأسست شركة io في عام 2024 على يد آيف، إلى جانب عدد من كبار التنفيذيين السابقين في آبل، من بينهم سكوت كانون وإيفانز هانكي وتانج تان، وعلى مدار العامين الماضيين، عملت io بشكل سري مع OpenAI، وانتقل المشروع من مجرد رسومات أولية إلى وضع الأسس الحقيقية لبناء الجيل القادم من الأجهزة الذكية. وقال آيف: "لدي شعور متزايد بأن كل ما تعلمته خلال الثلاثين عامًا الماضية قادني إلى هذه اللحظة، ورغم أنني أشعر بالقلق والحماس تجاه حجم المسؤولية المقبلة، فإنني ممتن للغاية لهذه الفرصة للمشاركة في تعاون بهذا القدر من الأهمية". "القيم والرؤية التي تجمع سام وفريقَي OpenAI وio مصدر إلهام نادر." ورغم أن الشركتين لم تفصحا عن تفاصيل المنتج الأول المرتقب، إلا أن التوقعات تشير إلى تطوير مساعد شخصي مدعوم بالذكاء الاصطناعي بخصائص غير مسبوقة من حيث القرب والتفاعلية والتصميم الجذاب يتجاوز الهواتف والحواسيب التقليدية، وقد يُحدث ثورة في طريقة تفاعل البشر مع الذكاء الاصطناعي في حياتهم اليومية. وستنتقل بموجب الصفقة نحو 55 من أفضل مهندسي ومطوري io إلى OpenAI، ومن المتوقع طرح أولى المنتجات في عام 2026. وسيواصل آيف وفريق شركته LoveFrom لعب دور قيادي إبداعي محوري في كل من OpenAI وio، لوضع الرؤية المستقبلية لأجهزة الذكاء الاصطناعي.