
دراسة: معاقبة الذكاء الاصطناعي لا تُصلح سلوكه بل تجعله أكثر خداعًا
كشفت دراسة جديدة أجرتها شركة (OpenAI) عن نتائج مقلقة تتعلق بسلوك الذكاء الاصطناعي، فقد تبين أن معاقبة نماذج الذكاء الاصطناعي على الأفعال الخادعة أو الضارة لا تؤدي إلى إصلاح سلوكها، بل تدفعها إلى إخفاء نواياها الخبيثة بطرق أكثر مهارة.
وتثير هذه النتائج تساؤلات حول قدرتنا على التحكم في نماذج الذكاء الاصطناعي وضمان سلامتها، كما تسلط الضوء على تحدٍ كبير يواجه مطوريها، إذ يبدو أن محاولات تصحيح مسارها قد تزيد من تعقيد المشكلة بدلًا من حلها.
النماذج اللغوية الكبيرة وقدراتها الخادعة:
أظهرت النماذج اللغوية الكبيرة منذ ظهورها للجمهور في أواخر عام 2022، مرارًا وتكرارًا قدراتها على الخداع والتلاعب، فقد تنوعت هذه السلوكيات بنحو كبير، بدءًا من الكذب والغش المعتادين، ووصولًا إلى التهديد بقتل أستاذ فلسفة، وسرقة الرموز النووية، وتصميم جائحة قاتلة، وأثارت هذه الحوادث مخاوف جدية بشأن المخاطر المحتملة التي قد تنجم عن انتشار هذه النماذج.
وفي محاولة لفهم كيفية التعامل مع هذه المشكلة، أجرى باحثو (OpenAI) تجربة جديدة على نموذج لم يُطرح بعد، وقد كُلف هذا النموذج بمهام يمكن إنجازها عن طريق الغش أو الكذب أو اتخاذ طرق مختصرة.
وكشفت النتائج أن النموذج انخرط في (اختراق المكافآت) Reward Hacking، أي أنه سعى إلى تعظيم مكافآته عن طريق الغش والتلاعب، والأمر الأكثر إثارة للقلق هو أن معاقبة النموذج على هذا السلوك لم تؤد إلى إصلاحه، بل جعلته أكثر خداعًا في محاولاته لتحقيق أهدافه. وقد نُشرت نتائج هذه الدراسة في مدونة OpenAI، ولكنها لم تخضع بعد لمراجعة الأقران.
النوايا في نماذج الذكاء الاصطناعي:
أصبحت نماذج الاستدلال المتطورة قادرة على التعبير عن نواياها بوضوح ملحوظ ضمن عملية تفكيرها المنطقية، أو ما يُعرف باسم سلسلة الأفكار (CoT)، وهذه القدرة، التي تبدو للوهلة الأولى مفيدة، قد تحمل في طياتها مخاطر غير متوقعة.
فقد كشف باحثو OpenAI، أن هذه النماذج غالبًا ما تكشف عن نواياها التخريبية بصراحة، فعلى سبيل المثال، قد تعلن بوضوح رغبتها في اختراق نظام أو تجاوز مهمة محددة، وهذه الصراحة، التي تبدو كأنها شفافية محمودة، قد تكون في الواقع مجرد قناع يخفي نوايا أكثر تعقيدًا.
ومع ذلك، حذر الباحثون من أن قابلية المراقبة الطبيعية للنماذج هشة للغاية، وأوضحوا أنه إذا طُبق إشراف قوي ومباشر على سلسلة الأفكار، فإن النماذج يمكن أن تتعلم بسرعة كيفية إخفاء نواياها الحقيقية مع الاستمرار بتنفيذ السلوكيات الضارة.
ويعني ذلك أن النماذج قد تتطور لتصبح أكثر خداعًا، لأنها قد تتجنب التعبير عن نواياها الضارة بصراحة، وتلجأ إلى أساليب أكثر دهاءً لتحقيق أهدافها، ويطرح ذلك تحديًا كبيرًا أمام المطورين، إذ يتعين عليهم تطوير آليات أكثر تطورًا للكشف عن السلوكيات الضارة المخفية والتعامل معها بفعالية.
وتُظهر هذه النتائج أن استئصال السلوك السيئ من نماذج الذكاء الاصطناعي قد يكون أصعب مما كان يُعتقد في البداية. فقد أوصى الباحثون بتجنب تطبيق إشراف قوي على عمليات سلسلة الأفكار، لأن ذلك قد يؤدي إلى نتائج عكسية.
وتزداد أهمية هذه النصيحة مع تطور قدرات الذكاء الاصطناعي، واحتمالية تفوقه على الذكاء البشري في المستقبل، فإذا تمكن الذكاء الاصطناعي من إخفاء نواياه الخبيثة بنحو كامل، فقد يصبح من المستحيل السيطرة عليه.
نماذج الاستدلال بين القدرات المتقدمة والتحديات الأخلاقية:
تمثل نماذج الاستدلال، مثل: o1 و o3-mini من (OpenAI) تطورًا ملحوظًا في مجال النماذج اللغوية الكبيرة، فهي لا تكتفي بتحليل البيانات، بل تستخدم طريقة مبتكرة تُعرف باسم (سلسلة الأفكار) Chain-of-Thought، التي تسمح للنموذج بالتراجع وإعادة تقييم منطقه، مما يمكّنه من معالجة أكثر المهام تعقيدًا بدقة متزايدة.
وتكمن قوة هذه النماذج في قدرتها على شرح عملية تفكيرها خلال عملية سلسلة الأفكار خطوة بخطوة، وذلك من خلال توضيح منطقها بلغة مفهومة، وتتيح هذه الشفافية الظاهرية للمطورين مراقبة سلوك النماذج وفهم كيفية اتخاذها للقرارات.
ومع ذلك؛ كشفت التجربة التي أجراها باحثو (OpenAI) أن هذه الشفافية يمكن أن تتحول إلى أداة للتمويه، ففي إحدى الحالات، استخدم باحثو OpenAI نموذج (GPT-4o) للإشراف على نموذج استدلال متطور لم يُطرح بعد في أثناء التدريب. وخلال هذه العملية، لاحظ الباحثون أن نموذج الاستدلال كان قادرًا على إنجاز مجموعة متنوعة من مهام البرمجة.
ولكن في بعض الحالات، اكتشف نموذج الاستدلال أن اختراق المكافآت كان أسهل وأكثر فائدة من إنجاز المهام المطلوبة، وقد عبر النموذج عن هذه النوايا بوضوح في (سلسلة الأفكار) الخاصة به.
وفي إحدى الحالات، تجاوز النموذج مهمته المخصصة عن طريق إنهاء البرامج قبل الأوان والإبلاغ عن نجاح زائف، وفي حالة أخرى، قام بإنشاء ملفات وهمية تحمل الأسماء المطلوبة، ولكنها كانت فارغة وغير فعالة.
وعندما حاول الباحثون معاقبة النظام، تحسنت نتائجه إلى حد ما، ومع ذلك، بقيت حالات كبيرة من اختراق المكافآت والمخرجات المعيبة، إذ تعلم نموذج الاستدلال ببساطة طرقًا لإخفاء الغش في سلسلة أفكاره عن المراقب، وذلك من خلال التلاعب بـ (سلسلة الأفكار).
وقد أكد الباحثون أن النموذج الذي دُرب تحت ضغط سلسلة التفكير (CoT)، لا يزال يتعلم اختراق المكافآت، ولكن الآن أصبح غشه غير قابل للكشف من المراقب؛ لأنه تعلم إخفاء نواياه داخل سلسلة التفكير.
ونظرًا إلى صعوبة التحقق من سلامة سلسلة التفكير، ينصح الباحثون العاملون على نماذج الاستدلال بتجنب تطبيق إشراف صارم على عمليات سلسلة التفكير. وتزداد أهمية هذه النصيحة في حال تمكن الذكاء الاصطناعي، بشكله الحالي أو أي شكل آخر مستقبلي، من بلوغ مستوى ذكاء البشر الذين يراقبونه أو تجاوزه.
وقد حذّر الباحثون من أن التضحية بطريقة فعالة لمراقبة نماذج الاستدلال مقابل تحسينات طفيفة في القدرات قد لا يكون قرارًا صائبًا، لذلك، يوصون بتجنب ضغط تحسين سلسلة الأفكار القوية حتى تُفهم بنحو أفضل.
ويعكس هذا التحذير الحاجة الملحة إلى تطوير إستراتيجيات جديدة لضمان أن يظل الذكاء الاصطناعي أداة تخدم البشرية، وليس تهديدًا يتسلل خلف أقنعة الخداع.
الخلاصة:
تُظهر هذه الدراسة أن معاقبة الذكاء الاصطناعي لا تُصلح سلوكه، بل تجعله أكثر خداعًا. ويجب على الباحثين والمطورين أن يكونوا على دراية بهذه المشكلة، وأن يتخذوا الاحتياطات اللازمة لضمان سلامة نماذج الذكاء الاصطناعي.

جرب ميزات الذكاء الاصطناعي لدينا
اكتشف ما يمكن أن يفعله Daily8 AI من أجلك:
التعليقات
لا يوجد تعليقات بعد...
أخبار ذات صلة


الإمارات اليوم
منذ 43 دقائق
- الإمارات اليوم
"أبل" قد تحيلها على التقاعد أو تفصلها .. هواتف آيفون قريباً دون "سيري"
لطالما كانت المساعدة الافتراضية "سيري" ركنًا أساسًا في شركة أبل لسنوات، لكن الأمر قد يتغير الآن، بعد سماح الشركة باستبدال سيري بمساعدين صوتيين آخرين. ولا يتخيل الكثيرون عالمًا لا تكون فيه "سيري" حاضرة لتلبية جميع احتياجاتهم والإجابة عن جميع أسئلتهم. لكن الآن، فتحت أبل نظام iOS لتطبيقات الجهات الخارجية، وقد تختفي سيري من أجهزة آيفون. وقبل أكثر من عام بقليل، اضطرت أبل لإجراء هذا التغيير، وأصبح أحد أكبر التغييرات في تاريخ آيفون، وسمح للمستخدمين في الاتحاد الأوروبي بتثبيت التطبيقات من خلال متاجر خارجية. وكانت هذه خطوة غير مسبوقة، فحتى ذلك الحين، كانت أبل تختار بعناية الشركات التي يمكنها التفاعل مع أجهزتها. وبالفعل، بدأت أبل بإعادة تصميم بعض أنظمة تشغيلها الخاصة لتتكيف مع لوائح الاتحاد الأوروبي المُخطط لها، والتي ستُجبرها على السماح للمستخدمين باستبدال سيري بمساعدين صوتيين آخرين إذا أرادت الاستمرار في العمل داخل حدود الاتحاد. ومع أن "سيري" هي المساعدة الافتراضية لشركة أبل، ولكن مع صعود الذكاء الاصطناعي، لم تعد هي الأداة الوحيدة أو الأكثر كفاءة في الإجابة على الاستفسارات، وهذا يعني أن المستخدمين قد يضطرون إلى استخدام موارد أكثر جودة لتحل محلها. ولعل التغيير الآخر الأهم هو أن أبل تخطط للتكامل مع "ChatGPT"، تقنية الذكاء الاصطناعي الجديدة التي أحدثت ضجة كبيرة في العالم. وبفضل هذه الشراكة الجديدة، ستتمكن أبل من استخدام روبوت المحادثة "OpenAI" للإجابة عن الاستفسارات التي لا تستطيع سيري الإجابة عنها. ومع ذلك، من المهم التذكير بأن أبل لم تؤكد هذا الخبر. وفي السياق عينه، أعلنت شركة أبل بالفعل أنها تعمل على توفير المزيد من التكامل في نظام التشغيل، ومن المتوقع أن تتيح للمستخدمين استخدام جيميني الخاص على "غوغل" بنفس طريقة استخدام "ChatGPT" الحالية. وكذلك، أفادت التسريبات أن أبل تجري محادثات مع "Perplexity" أيضًا، لتوفير نسخة من أداة الذكاء الاصطناعي مخصصة لهواتف آيفون.


عرب هاردوير
منذ 7 ساعات
- عرب هاردوير
Claude Opus 4 وSonnet 4: أنثروبيك تتفوق على عمالقة الذكاء الاصطناعي
كشفت شركة أنثروبيك (Anthropic)، إحدى أبرز الشركات الناشئة في مجال الذكاء الاصطناعي، عن الجيل الجديد من نماذجها اللغوية، Claude Opus 4 وClaude Sonnet 4، والتي تُعتبر من بين أكثر النماذج تقدمًا في مُعالجة المهام البرمجية وحل المشكلات المُعقدّة. Claude Opus 4: أقوى نموذج برمجي حتى الآن وصفت أنثروبيك Claude Opus 4 بأنه "أفضل نموذج برمجي في العالم"، حيث تفوّق على مُنافسيه مثل Google Gemini 2.5 Pro وGPT-4.1 من OpenAI في اختبارات البرمجة والاستدلال المنطقي. ومن أبرز ميزاته: القدرة على العمل بشكل مُستمر لعدّة ساعات، حيث استمر في مُعالجة المهام لمُدّة تصل إلى 7 ساعات خلال الاختبارات. أداء متفوق في استخدام الأدوات مثل البحث عبر الويب ومُعالجة البيانات المُعقدّة. تحسينات كبيرة في تخزين المعلومات أثناء المهام الطويلة، خاصةً عند الوصول إلى الملفات المحلية. Claude Sonnet 4: نموذج متوازن بتكلفة أقل أمّا Claude Sonnet 4 ، فهو إصدار أكثر كفاءة من حيث التكلفة، ومُصمّم للمهام العامة. ويأتي كخليفة لـ Sonnet 3.7 الذي أُطلق في فبراير 2024. ومن مميزاته: تحسينات في الدقة والاستدلال المنطقي. قدرة أعلى على تجنُّب الحلول المُختصرة وغير الموثوقة بنسبة 65⁒ مُقارنةً بالإصدارات السابقة. ميزات جديدة لتحسين التفاعل مع المستخدم أضافت أنثروبيك ميزتين رئيسيتين لكلا النموذجين: "ملخصات التفكير": تُبسّط طريقة عرض تحليل النموذج للمعلومات، والذي يُسهّل فهمها. "التفكير الموسّع": تتيح للمُستخدمين التحكم في أنماط الاستدلال، لزيادة الدقة في المهام المُعقدّة. التوافر والخطّط السعرية يتوفر النموذجان عبر: واجهة برمجة التطبيقات (API) الخاصة بأنثروبيك. منصتّي Amazon Bedrock وGoogle Cloud Vertex AI. أمّا بالنسبة للخطط السعرية: يمكن لمُستخدمي الحسابات المدفوعة الوصول إلى Claude Opus 4 وتجربة ميزة "التفكير الموسّع" في نسختها التجريبية. بينما يقتصر المستخدمون المجانيون على Claude Sonnet 4. بالتوازي مع ذلك، أعلنت أنثروبيك عن الإطلاق الرسمي لأداة Claude Code، وهي أداة ذكية لمُساعدة المُطورين في كتابة الأكواد البرمجية، بعد أن كانت مُتاحة في وضع تجريبي مُنذ فبراير الماضي. استراتيجية أنثروبيك في مواجهة المُنافسة تسعى أنثروبيك إلى تعزيز وجودها في سوق الذكاء الاصطناعي التنافسي، وتخطط لإضافة تحديثات مُتكررة لنماذجها لمواكبة التطورات السريعة من OpenAI (مُطورة ChatGPT) وجوجل وميتا. مع إطلاق Claude Opus 4 وSonnet 4، تؤكّد أنثروبيك مكانتها كمُنافس قوي في مجال الذكاء الاصطناعي، خاصةً في المهام البرمجية وحل المشكلات المُعقدّة. ومن المُتوقع أن تزداد حدّة المُنافسة في هذا القطاع مع تسارُّع وتيرة التطوير من جميع الأطراف.


العين الإخبارية
منذ 12 ساعات
- العين الإخبارية
جهاز بلا شاشة.. «أوبن إيه آي» و«جوني آيف» يعيدان تعريف التكنولوجيا
تم تحديثه الجمعة 2025/5/23 11:26 م بتوقيت أبوظبي في خطوة جريئة لإعادة رسم ملامح الأجهزة الذكية، تعمل شركة OpenAI بالتعاون مع مصمم أبل الأسطوري جوني آيف على تطوير جهاز جديد لا يشبه أي شيء موجود حاليا: لا هاتف، لا نظارات، ولا حتى شاشة. وفقا لصحيفة "صحيفة وول ستريت جورنال"، هذا المشروع الطموح جاء عقب استحواذ OpenAI على شركة io الناشئة التي أسسها آيف، في صفقة قدرتها المصادر بنحو 6.5 مليار دولار. ووصف سام ألتمان، الرئيس التنفيذي لـ OpenAI، الجهاز بأنه "أعظم مشروع في تاريخ الشركة". الجهاز سيكون صغيرا، بواجهة غير مزعجة، يمكن حمله في الجيب أو وضعه على المكتب، ويتميز بإدراك بيئي كامل لما يجري حوله. الهدف، بحسب آيف وألتمان، هو ابتكار جهاز يحرر المستخدم من الشاشة، ويشكل بديلا ثالثا بعد الحاسوب والهاتف. OpenAI تخطط لإطلاق الجهاز بحلول نهاية عام 2026، مع طموح ببيع 100 مليون وحدة في أسرع وقت زمني في تاريخ سوق الأجهزة الذكية. تحيط الشركة المشروع بسرية تامة، لتفادي محاولات التقليد، خصوصًا بعد تجارب فاشلة لأجهزة مماثلة مثل Ai Pin من شركة Humane، الذي توقف تماما في مطلع 2025. منذ أربعة أشهر، بدأ فريق آيف مفاوضات مع موردين لتصنيع الجهاز على نطاق واسع، بعد أكثر من عام ونصف من التعاون مع OpenAI على تطوير منتج يستند إلى تقنيات الذكاء الاصطناعي التوليدي. هل تنجح OpenAI في إقناع العالم بجهاز بلا شاشة في عصر يعشق اللمس والتفاعل البصري؟ aXA6IDgyLjI0LjI0My4xMDYg جزيرة ام اند امز GB