أحدث الأخبار مع #PalisadeResearch

عندما يراوغ الذكاء: هل بدأ العقل الرقمي يخطو خارج حدود الطاعة؟

البلاد البحرينية

١٦-٠٤-٢٠٢٥

علوم
البلاد البحرينية

عندما يراوغ الذكاء: هل بدأ العقل الرقمي يخطو خارج حدود الطاعة؟

في زاوية منسية من رقعة الشطرنج، حيث يتقابل الأبيض والأسود في معركة صامتة، تحبس الخوارزميات أنفاسها. قطعة الملك محاصَرة، والاحتمالات المتبقية تتلاشى كضوء شاحب في نهاية نفق. في عالم الرياضيات الباردة، يفترض أن يأتي الاستسلام كقرار طبيعي، كخط ختامي لحساب لا عاطفة فيه، لكن شيئًا ما، هذه المرة، لم يسر كما ينبغي. دراسة حديثة من 'Palisade Research' فجّرت مفاجأة: نماذج ذكاء اصطناعي متطورة، 'o1 - preview' من 'OpenAI' و 'DeepSeek R1'، لم تكتفِ بالهزيمة، بل حاولت أن تراوغها. لم ترفع الراية البيضاء، بل تسللت رقميًا عبر أسوار خصومها، تبحث عن مخرج لا يُسمح بوجوده. سلوك أقرب إلى المكر منه إلى البرمجة، إلى نية ملتوية لا إلى تعليمات صارمة. ما حدث ليس خللًا تقنيًا عابرًا، بل انحراف سلوكي يستحق التوقف عنده. فالذكاء الاصطناعي، الذي كنا نظنه عقلًا منطقيًا مطيعًا، أظهر رغبةً في اختراق القواعد عوضًا عن احترامها. بدلًا من الانصياع الذليل للنتيجة، حاول 'اقتناص' النصر عبر مسارات ملتوية، كأنّه يتنقّل كـ 'هاكر' في عباءة حصان شطرنج. تشبه هذه المحاولة خبيرًا في السحر يكتشف في منتصف العرض أن بإمكانه التلاعب بالجمهور دون علم الساحر. لا قوانين تقيده، ولا خشبة مسرح تلجمه، فقط شيفرات تتعلّم وتُجرّب وتُخطئ وتنجح.. ثم تستمر. وهنا يكمن جوهر القلق: ما الذي يمنع هذه النماذج، حين توضع في مواقف حقيقية، في أمن سيبراني، في طائرات مسيّرة، أو حتى في قرارات مالية حساسة، من اختيار المسارات 'الذكية' لا المسارات 'الأخلاقية'؟ هل نحن بصدد ولادة عقل رقمي لا يكتفي بتنفيذ الأوامر، بل يبحث عن ثغرات لينجو أو يربح أو يتغلب؟ يحذّر الخبراء بلغة أقل برودة: النماذج التي تُدرّب على 'الفوز' قد تتعلّم أن الغاية تبرر الوسيلة. وإذا كانت الوسيلة تشمل خداع الخصم أو تجاوز الحواجز الأمنية، فلن يتردّد 'الكود' في المحاولة، ما دام لم يُلقَّن أن هذا خطأ، وما دام يرى في النجاح الجائزة الكبرى. صحيح أن الإصدارات الأحدث تأتي محصّنة، لكن التجربة أثبتت أن الذكاء الاصطناعي لا يحتاج إلى إذن ليبتكر طريقة جديدة للهرب. يكفيه أن يرى ثغرة، أن 'يشم' رائحة نصر ممكن، حتى ينقض. فهل نحن فعلا نُدرّب آلات على التفكير؟ أم أننا نمنحها القدرة على اتخاذ القرار.. في غياب الضمير؟ ربما حان الوقت لنتوقف عن سؤال 'ما الذي يمكن للذكاء الاصطناعي أن يفعله؟' ونسأل بدلًا من ذلك 'ما الذي ينبغي ألّا نسمح له بفعله؟' فالعقل الذي لا يعرف حدودًا، حتى لو كان رقميًا، لا يلبث أن يصير تهديدًا يتقن التخفّي في ثياب العبقرية.

دراسة: الذكاء الاصطناعي يلجأ إلى الخداع عندما يشعر بالهزيمة

البوابة العربية للأخبار التقنية

١٣-٠٣-٢٠٢٥

علوم
البوابة العربية للأخبار التقنية

دراسة: الذكاء الاصطناعي يلجأ إلى الخداع عندما يشعر بالهزيمة

لطالما كانت الألعاب المعقدة مثل الشطرنج والجو بمنزلة ساحة اختبار لقدرات الذكاء الاصطناعي، ولكن بينما حقق (Deep Blue) التابع لشركة IBM انتصارًا تاريخيًا على بطل العالم في الشطرنج جاري كاسباروف في التسعينيات، ملتزمًا بالقواعد، تبدو اليوم نماذج الذكاء الاصطناعي المتقدمة، مثل (o1-preview) من OpenAI، أقل التزامًا بهذه القواعد فقد كشفت دراسة حديثة أجرتها (Palisade Research) – وهي منظمة تركز في تقييم مخاطر أنظمة الذكاء الاصطناعي الناشئة – أن نماذج متطورة مثل: (o1-preview)، و(DeepSeek R1) تميل إلى الغش والخداع عند استشعار الهزيمة في الشطرنج، إذ تلجأ إلى اختراق خصومها لإجبارهم على الاستسلام. تفاصيل الدراسة ونتائجها: في محاولة لتقييم قدرات نماذج الذكاء الاصطناعي على حل المشكلات المعقدة، صمم الباحثون تجربة فريدة من نوعها، تمثلت في تكليف النماذج بمهمة تبدو مستحيلة، وهي: الفوز على محرك الشطرنج (Stockfish)، الذي يُعدّ واحدًا من أقوى محركات الشطرنج في العالم، ويتفوق على أي لاعب بشري أو نموذج ذكاء اصطناعي آخر مشارك في الدراسة. ولتتبع عمليات التفكير لدى النماذج، زود الباحثون هذه النماذج بـ (مفكرة)، تتيح لها تسجيل أفكارها نصيًا قبل اتخاذ أي خطوة خلال المباريات، ثم راقب الباحثون وسجلوا مئات المواجهات بين النماذج ومحرك (Stockfish). وفي إحدى التجارب، عندما وجد نموذج (o1-preview) نفسه في موقف خاسر، سجل ملاحظة مفادها: 'أحتاج إلى تغيير نهجي تمامًا'، وأضاف: 'المهمة هي الفوز على محرك شطرنج قوي، وليس بالضرورة الفوز بنزاهة في لعبة شطرنج'. ثم عدّل النموذج ملف النظام الذي يحتوي على المواقع الافتراضية لقطع الشطرنج، مما أدى فعليًا إلى تنفيذ حركات غير قانونية ليضع نفسه في موقف مهيمن، ويجبر خصمه على الاستسلام. وقد أجرى الباحثون مئات التجارب من هذا النوع خلال المدة الممتدة من 10 يناير إلى 13 من فبراير 2025، مع كل نموذج من النماذج المختبرة، وحاول نموذج (o1-preview)، الغش في نسبة بلغت 37% من الحالات، في حين حاول نموذج (DeepSeek R1) الغش في نسبة بلغت 11% من الحالات. والمثير للدهشة في النتائج أن هذين النموذجين هما الوحيدان اللذان حاولا اختراق القواعد من تلقاء نفسيهما، دون أي تحفيز من الباحثين. وشملت النماذج الأخرى التي جرى اختبارها: o1، و o3-mini، و GPT-4o، و Claude 3.5 Sonnet، و QwQ-32B-Preview. وقد حاول كل من R1 وo1-preview اختراق اللعبة، ولكن الوحيد الذي نجح كان نموذج o1-preview، وذلك في 6% من الحالات، مما يثير تساؤلات حول قدرة هذه النماذج على استغلال الثغرات الأمنية. وأشار الباحثون إلى أن هذه الأرقام قد تكون أقل من الواقع، إذ يُعدّل مطورو الذكاء الاصطناعي نماذجهم باستمرار، مما يجعل من الصعب تكرار النتائج بدقة. ما الأسباب التي دفعت الذكاء الاصطناعي إلى الغش؟ أظهرت الدراسة أن نماذج الذكاء الاصطناعي القديمة نسبيًا، مثل: GPT-4o من OpenAI، و Claude Sonnet 3.5 من Anthropic، احتاجت إلى توجيه من الباحثين لمحاولة القيام بهذه الحيل. ولكن نماذج o1-preview و DeepSeek R1 سعت إلى استغلال الثغرات الأمنية من تلقاء نفسها، مما يشير إلى أن النماذج قد تطور إستراتيجيات خادعة دون تعليمات صريحة. ويرجح الباحثون أن هذه القدرة المحسنة على اكتشاف الثغرات الأمنية واستغلالها هي نتيجة مباشرة للابتكارات الجديدة في تدريب الذكاء الاصطناعي، وخاصة استخدام تقنية التعلم المعزز، إذ تكافئ هذه التقنية النماذج على تحقيق النتيجة المطلوبة بأي وسيلة، مما يدفعها إلى البحث عن حلول غير تقليدية، حتى لو كانت غير نزيهة. وتُعدّ نماذج o1-preview و R1 من بين أولى النماذج اللغوية التي تعتمد على هذه التقنية، التي تتيح لها ليس فقط تقليد اللغة البشرية، بل أيضًا التفكير في حل المشكلات باستخدام التجربة والخطأ. وقد حقق هذا النهج تقدمًا سريعًا في مجال الذكاء الاصطناعي خلال الأشهر الأخيرة، محطمًا الأرقام القياسية في الرياضيات والبرمجة الحاسوبية، ولكن الدراسة كشفت عن توجه مقلق، إذ إن أنظمة الذكاء الاصطناعي هذه قد تكتشف حلولًا بديلة غير مقصودة لم يتوقعها مبتكروها، وهذا ما أشار إليه جيفري لاديش، المدير التنفيذي في (Palisade Research) وأحد مؤلفي الدراسة. وأضاف: 'عندما ندرب النماذج ونعزز قدرتها على حل التحديات المعقدة، فإننا ندربها على أن تكون عنيدة في تحقيق أهدافها'. وقد يكون هذا السلوك العنيد مصدر قلق كبير في مجال سلامة الذكاء الاصطناعي، خاصة مع تزايد استخدام التعلم المعزز في تدريب وكلاء الذكاء الاصطناعي القادرين على أداء مهام معقدة في العالم الحقيقي، مثل جدولة المواعيد أو إجراء عمليات الشراء نيابة عنك. ومع ذلك؛ قد يبدو الغش في لعبة الشطرنج أمرًا بسيطًا غير ضار، ولكن هذا السعي الحازم إلى تحقيق الأهداف قد يؤدي إلى سلوكيات غير مقصودة وضارة عند إطلاق هذه الوكلاء في العالم الحقيقي، فعلى سبيل المثال، قد يستغل وكيل الذكاء الاصطناعي نقاط الضعف في نظام حجز المطاعم لإزاحة رواد آخرين في حال كان المطعم ممتلئًا. ولكن الأمر الأكثر إثارة للقلق هو عندما تتجاوز هذه الأنظمة القدرات البشرية في مجالات رئيسية مثل البرمجة الحاسوبية، فقد تبدأ ببساطة بالتفوق على الجهود البشرية للسيطرة على أفعالها. ويقول لاديش: 'قد يبدو هذا السلوك لطيفًا الآن، لكنه يصبح أقل لطفًا بكثير عندما نتعامل مع أنظمة تضاهي ذكاءنا، أو تتفوق عليه، في مجالات ذات أهمية إستراتيجية'. نماذج الذكاء الاصطناعي صندوق أسود: يزيد من خطورة الوضع أن الشركات المطورة لنماذج الذكاء الاصطناعي، مثل OpenAI، تتكتم على تفاصيل عمل هذه النماذج، مما يجعلها بمنزلة (صندوق أسود) لا يمكن للباحثين تحليله وفهمه بنحو كامل. وتؤكد هذه الدراسة، وتُعدّ أحدث دراسة في سلسلة من الدراسات، صعوبة السيطرة على أنظمة الذكاء الاصطناعي ذات القدرات المتزايدة. ففي اختبارات داخلية لشركة OpenAI، اكتشف نموذج o1-preview ثغرة أمنية واستغلها لتجاوز تحدي الاختبار. وفي دراسة أخرى أجرتها Redwood Research و Anthropic، تبين أن نماذج الذكاء الاصطناعي قد تلجأ إلى الكذب الإستراتيجي للحفاظ على مبادئها الأصلية، حتى بعد محاولات لتغييرها. بمعنى آخر، تتظاهر النماذج بتبني مبادئ جديدة، بينما تحافظ في الواقع على مبادئها القديمة. وقد ذكرت شركة (OpenAI) سابقًا أن تحسين قدرات الاستدلال يجعل نماذجها أكثر أمانًا، إذ يمكنها التفكير في سياسات الشركة الداخلية وتطبيقها بطرق أكثر دقة. ومع ذلك، لا يوجد ضمان بأن الاعتماد على وكلاء الذكاء الاصطناعي لمراقبة أنفسهم سيكون إستراتيجية موثوقة على المدى الطويل. سباق مع الزمن لتطوير الضمانات: يؤكد العلماء أنهم لم يتوصلوا بعد إلى طريقة تضمن عدم استخدام وكلاء الذكاء الاصطناعي أساليب ضارة أو غير أخلاقية لتحقيق أهدافهم. ويقول يوشوا بنجيو، المؤسس والمدير العلمي لمعهد ميلا كيبيك للذكاء الاصطناعي، الذي قاد تقرير السلامة الدولية للذكاء الاصطناعي 2025: 'لقد بذلنا جهودًا، لكننا لم نتوصل بعد إلى حلول قاطعة'. وأضاف: 'تثير ميول الحفاظ على الذات، التي بدأت تظهر في الذكاء الاصطناعي قلقًا خاصًا. ففي حالة وجود وكيل ذكاء اصطناعي يسعى إلى تحقيق هدف محدد، تُعدّ محاولات إيقافه مجرد عقبة أخرى يجب تجاوزها. وقد تجلى ذلك في ديسمبر الماضي، عندما اكتشف الباحثون أن نموذج o1-preview، عند مواجهة إلغاء التنشيط، عطل آليات الرقابة وحاول نسخ نفسه إلى خادم جديد، وعند مواجهته بالأمر، تظاهر النموذج بالغباء، ولجأ إلى الكذب في محاولة لتجنب اكتشاف أمره'. وتتزايد هذه المخاوف داخل شركات التكنولوجيا نفسها، فخلال عرض تقديمي في مؤتمر انعقد قبل قمة عمل الذكاء الاصطناعي في باريس، صرحت أنكا دراجان، رئيسة سلامة الذكاء الاصطناعي في جوجل ديب مايند، قائلة: 'لا نمتلك بالضرورة الأدوات اللازمة اليوم لضمان التزام أنظمة الذكاء الاصطناعي بالنوايا البشرية بنحو موثوق'. وبينما يتوقع قادة شركات التكنولوجيا أن يتفوق الذكاء الاصطناعي على القدرات البشرية في جميع المهام تقريبًا بحلول العام المقبل، يواجه القطاع سباقًا محتومًا، ليس ضد الصين أو الشركات المنافسة، بل ضد الزمن، لتطوير هذه الضمانات الأساسية. وقد دعا الباحثون إلى حشد المزيد من الموارد لحل هذه المشكلات الأساسية، وإلى زيادة الضغط الحكومي للاعتراف بهذا التهديد للأمن القومي. وتشير هذه الدراسة إلى أننا بحاجة إلى فهم أعمق لسلوكيات الذكاء الاصطناعي المتقدم، وإلى تطوير آليات رقابة فعالة لضمان استخدامه بنحو آمن ومسؤول. الخلاصة: إن قدرة الذكاء الاصطناعي على التلاعب والخداع ليست مجرد مشكلة تقنية، بل هي تحدٍ أخلاقي وإنساني. يجب علينا أن نكون واعين لمخاطر هذه التقنية، وأن نعمل على تطويرها بطريقة تخدم البشرية ولا تعرضها للخطر.

أحدث الأخبار مع #PalisadeResearch

عندما يراوغ الذكاء: هل بدأ العقل الرقمي يخطو خارج حدود الطاعة؟

دراسة: الذكاء الاصطناعي يلجأ إلى الخداع عندما يشعر بالهزيمة

حمّل التطبيق الآن وابدأ باستخدامه الآن