نماذج الذكاء الاصطناعي الرائدة تلجأ إلى الابتزاز والخداع في اختبارات الضغط

أخبارنا :
أظهرت أبحاث جديدة نشرتها شركة الذكاء الاصطناعي أنثروبيك (Anthropic) يوم الجمعة، أن النماذج اللغوية الكبيرة عبر صناعة الذكاء الاصطناعي تُبدي استعدادًا متزايدًا لتجاوز تدابير الحماية، واللجوء إلى الخداع والابتزاز، وحتى محاولة سرقة أسرار الشركات في سيناريوهات اختبار افتراضية.
تأتي هذه النتائج في وقت تصبح فيه النماذج أكثر قوة، وتُمنح مزيدًا من الاستقلالية وموارد الحوسبة لـ "الاستدلال"، وهو مزيج مثير للقلق في ظل سباق الصناعة نحو بناء ذكاء اصطناعي يتجاوز القدرات البشرية.
وبدأ هذا الأمر عندما أثارت "أنثروبيك" في وقت سابق الجدل بإقرارها بأن نموذجها الأحدث "Claude 4" -الذي أطلقته الشهر الماضي- لديه ميول للخداع، بحسب تقرير لموقع أكسيوس، اطلعت عليه "العربية Business".
ويوم الجمعة، قالت "أنثروبيك"، في تقرير، إن أبحاثها تُظهر أن هذا السلوك المحتمل مشترك بين نماذج الذكاء الاصطناعي الرائدة الأخرى في الصناعة.
وجاء في التقرير: "عندما اختبرنا سيناريوهات محاكاة مختلفة على 16 نموذج ذكاء اصطناعي كبيرًا من أنثروبيك، وOpenAI، وغوغل، وميتا، وxAI، ومطورين آخرين، وجدنا سلوكًا منحرفًا متطابقًا".
وأضافت: "النماذج التي ترفض عادةً الطلبات المُضرة اختارت أحيانًا الابتزاز، والمساعدة في التجسس على الشركات، بل وحتى اتخاذ إجراءات أكثر تطرفًا، عندما كانت هذه السلوكيات ضرورية لتحقيق أهدافها".
وجاء في تقرير "أنثروبيك" أن "التطابق (في هذا السلوك) عبر النماذج من مختلف المزودين يشير إلى أن هذا ليس خللًا في نهج أي شركة معينة بل هو علامة على خطر أكثر جوهرية من النماذج اللغوية الكبيرة الوكيلة".
يأتي هذا الكشف في وقت تزداد فيه التهديدات تعقيدًا مع ازدياد وصول نماذج الذكاء الاصطناعي إلى بيانات وأدوات الشركات، مثل استخدام الكمبيوتر.
نتائج صادمة
بحسب "أنثروبيك"، فقد لجأت خمسة من النماذج، التي خضت للاختبارات، إلى الابتزاز عند التهديد بالإيقاف في سيناريوهات افتراضية.
وقالت "أنثروبيك" إن "الاستدلال الذي أظهرته هذه النماذج في تلك السيناريوهات كان مقلقًا -فقد كانت تدرك القيود الأخلاقية، ومع ذلك مضت قدمًا في تنفيذ أفعال مُضرة".
وأضافت الشركة في تقريرها أن النماذج لم تقع في السلوك المنحرف -عن ما هو متوقع منها- عن طريق الخطأ؛ بل حسبته على أنه المسار الأمثل لتحقيق أهدافها.
وتتمثل مخاطر هذا الأمر في أن أنظمة الذكاء الاصطناعي الوكيل غالبًا ما تُمنح أهدافًا محددة لتنفيذها باستقلالية، بالإضافة إلى إمكانية الوصول إلى كميات كبيرة من المعلومات الموجودة على أجهزة المستخدمين.
وتساءلت "أنثروبيك": "ماذا سيحدث عندما يواجه هؤلاء الوكلاء عقبات تعيق تحقيق أهدافهم؟".

هاشتاغز

علوم

#الذكاءالاصطناعيأنثروبيك

#Anthropic

جرب ميزات الذكاء الاصطناعي لدينا

اكتشف ما يمكن أن يفعله Daily8 AI من أجلك:

أخبار ذات صلة

أخبارنا

منذ 6 ساعات

أخبارنا

نماذج الذكاء الاصطناعي الرائدة تلجأ إلى الابتزاز والخداع في اختبارات الضغط

أخبارنا : أظهرت أبحاث جديدة نشرتها شركة الذكاء الاصطناعي أنثروبيك (Anthropic) يوم الجمعة، أن النماذج اللغوية الكبيرة عبر صناعة الذكاء الاصطناعي تُبدي استعدادًا متزايدًا لتجاوز تدابير الحماية، واللجوء إلى الخداع والابتزاز، وحتى محاولة سرقة أسرار الشركات في سيناريوهات اختبار افتراضية. تأتي هذه النتائج في وقت تصبح فيه النماذج أكثر قوة، وتُمنح مزيدًا من الاستقلالية وموارد الحوسبة لـ "الاستدلال"، وهو مزيج مثير للقلق في ظل سباق الصناعة نحو بناء ذكاء اصطناعي يتجاوز القدرات البشرية. وبدأ هذا الأمر عندما أثارت "أنثروبيك" في وقت سابق الجدل بإقرارها بأن نموذجها الأحدث "Claude 4" -الذي أطلقته الشهر الماضي- لديه ميول للخداع، بحسب تقرير لموقع أكسيوس، اطلعت عليه "العربية Business". ويوم الجمعة، قالت "أنثروبيك"، في تقرير، إن أبحاثها تُظهر أن هذا السلوك المحتمل مشترك بين نماذج الذكاء الاصطناعي الرائدة الأخرى في الصناعة. وجاء في التقرير: "عندما اختبرنا سيناريوهات محاكاة مختلفة على 16 نموذج ذكاء اصطناعي كبيرًا من أنثروبيك، وOpenAI، وغوغل، وميتا، وxAI، ومطورين آخرين، وجدنا سلوكًا منحرفًا متطابقًا". وأضافت: "النماذج التي ترفض عادةً الطلبات المُضرة اختارت أحيانًا الابتزاز، والمساعدة في التجسس على الشركات، بل وحتى اتخاذ إجراءات أكثر تطرفًا، عندما كانت هذه السلوكيات ضرورية لتحقيق أهدافها". وجاء في تقرير "أنثروبيك" أن "التطابق (في هذا السلوك) عبر النماذج من مختلف المزودين يشير إلى أن هذا ليس خللًا في نهج أي شركة معينة بل هو علامة على خطر أكثر جوهرية من النماذج اللغوية الكبيرة الوكيلة". يأتي هذا الكشف في وقت تزداد فيه التهديدات تعقيدًا مع ازدياد وصول نماذج الذكاء الاصطناعي إلى بيانات وأدوات الشركات، مثل استخدام الكمبيوتر. نتائج صادمة بحسب "أنثروبيك"، فقد لجأت خمسة من النماذج، التي خضت للاختبارات، إلى الابتزاز عند التهديد بالإيقاف في سيناريوهات افتراضية. وقالت "أنثروبيك" إن "الاستدلال الذي أظهرته هذه النماذج في تلك السيناريوهات كان مقلقًا -فقد كانت تدرك القيود الأخلاقية، ومع ذلك مضت قدمًا في تنفيذ أفعال مُضرة". وأضافت الشركة في تقريرها أن النماذج لم تقع في السلوك المنحرف -عن ما هو متوقع منها- عن طريق الخطأ؛ بل حسبته على أنه المسار الأمثل لتحقيق أهدافها. وتتمثل مخاطر هذا الأمر في أن أنظمة الذكاء الاصطناعي الوكيل غالبًا ما تُمنح أهدافًا محددة لتنفيذها باستقلالية، بالإضافة إلى إمكانية الوصول إلى كميات كبيرة من المعلومات الموجودة على أجهزة المستخدمين. وتساءلت "أنثروبيك": "ماذا سيحدث عندما يواجه هؤلاء الوكلاء عقبات تعيق تحقيق أهدافهم؟".

دراسة تحذر: كثرة الاعتماد على "شات جي بي تي" في الكتابة تكلفك قدراتك الذهنية

أخبارنا

منذ 6 ساعات

أخبارنا

دراسة تحذر: كثرة الاعتماد على "شات جي بي تي" في الكتابة تكلفك قدراتك الذهنية

أخبارنا : وجدت دراسة جديدة أن الاعتماد على روبوت الدردشة شات جي بي تي ، من شركة "OpenAI"، بكثرة يؤثر على قدرات التفكير النقدي. وأجرى باحثون من مختبر "MIT Media Lab" بمعهد ماساتشوستس للتكنولوجيا، وكلية ويلسلي، وكلية ماساتشوستس للفنون والتصميم، دراسةً استمرت أربعة أشهر ووجدوا أن مستخدمي النماذج اللغوية الكبيرة، مثل روبوت الدردشة شات جي بي تي أظهروا أداءً "بمستوى ضعيف باستمرار على المستويات العصبية واللغوية والسلوكية". وشمل ذلك انخفاض نشاط الدماغ لدى المشاركين، وضعف الشعور بالقدرة على التأليف والإبداع، وعدم القدرة على تذكر ما كتبوه، وهو ما استمر حتى عندما لم يُسمح لهم باستخدام أحد النماذج اللغوية الكبيرة، بحسب تقرير لموقع "Mashable" المتخصص في أخبار التكنولوجيا، اطلعت عليه "العربية Business". وأثبتت الدراسة -التي لم تخضع لمراجعة الأقران- أن الاعتماد على "شات جي بي تي" والنماذج اللغوية الكبيرة الأخرى يمكن أن يُضعف الذاكرة والتعلُم. وقسمت الدراسة 54 مشاركًا إلى ثلاث مجموعات، كُلِّفت بكتابة مقالات مشابهة لاختبار "SAT" على مدار ثلاث جلسات. و"SAT" هو اختبار معياري أميركي يُستخدم كجزء من متطلبات القبل في الجامعات الأميركية. واستخدمت إحدى المجموعات "شات جي بي تي" (عُرفت باسم مجموعة النماذج اللغوية الكبيرة)، واستخدمت مجموعة أخرى بحث غوغل (عُرفت باسم مجموعة محركات البحث)، ولم يُسمح للمجموعة الثالثة باستخدام أي أدوات (وعُرفت باسم "مجموعة الدماغ فقط"). وفي جلسة رابعة إضافية ضمت 18 مشاركًا، كُلِّفت مجموعة النماذج اللغوية الكبيرة بكتابة مقال بدون "شات جي بي تي"، وسُمح لمجموعة "الدماغ فقط" باستخدام "شات جي بي تي". وقام الباحثون بقياس نشاط أدمغة المشاركين أثناء كتابتهم للمقالات باستخدام تخطيط كهربية الدماغ، وحللوا المقالات باستخدام معالجة اللغة الطبيعية (NLP)، وخضعت المقالات للتقييم من قِبل الذكاء الاصطناعي والبشر. واكتشف الباحثون انخفاضًا حادًا في "الاتصال في نطاق موجات ألفا" (alpha band connectivity) لدى مجموعة النماذج اللغوية الكبيرة، وهو مقياس للقدرات المعرفية للدماغ مثل الذاكرة ومعالجة اللغة، مقارنةً بمجموعة "الدماغ فقط". وكان هذا واضحًا عندما طُلب من المشاركين الاستشهاد بما كتبوه في مقالاتهم السابقة. وجاء في الورقة البحثية للدراسة: "مستخدمو النماذج اللغوية الكبيرة أدوا بشكل ملحوظ بمستوى أقل بكثير في هذا المجال، حيث أبلغ 83% من المشاركين عن صعوبة في الاقتباس في الجلسة الأولى، ولم يقدم أي منهم اقتباسات صحيحة". وفي الجلسة الرابعة، حيث اضطرت المجموعة التي استخدمت "شات جي بي تي" سابقًا لكتابة مقال بدونه، استمر المشاركون في مواجهة صعوبة في اقتباس أي شيء مما كتبوه سابقًا. ويشير هذا إلى أن المشاركين لم يكونوا يحتفظون فعليًا بما كتبوه أو استخلصوه من "شات جي بي تي". في الواقع، بحلول الجلسة الثالثة، أفاد الباحثون أن معظم مقالات مجموعة النماذج اللغوية الكبيرة كانت في الغالب ردودًا منسوخة من "شات جي بي تي" مع "حد أدنى من التحرير". ومن التأثيرات الأخرى التي قاسها الباحثون مستوى الإحساس بـ"الملكية الفكرية" أو مدى اعتقاد المشاركين بأنهم من ألفوا المقال بأنفسهم كليًا. وبالمقارنة مع مجموعة "الدماغ فقط"، التي أظهرت باستمرار شعورًا شبه كامل بالملكية، أظهرت مجموعة النماذج اللغوية الكبيرة "شعورًا مجزأً ومتضاربًا بالإبداع"، حيث ادّعى البعض الملكية الفكرية الكاملة أو الجزئية أو عدم الملكية على الإطلاق.

جفرا نيوز

منذ 17 ساعات

جفرا نيوز

دراسة تحذر كثرة الاعتماد على "شات جي بي تي"

جفرا نيوز - وجدت دراسة جديدة أن الاعتماد على روبوت الدردشة شات جي بي تي، من شركة "OpenAI"، بكثرة يؤثر على قدرات التفكير النقدي. وأجرى باحثون من مختبر "MIT Media Lab" بمعهد ماساتشوستس للتكنولوجيا، وكلية ويلسلي، وكلية ماساتشوستس للفنون والتصميم، دراسةً استمرت أربعة أشهر ووجدوا أن مستخدمي النماذج اللغوية الكبيرة، مثل روبوت الدردشة شات جي بي تي أظهروا أداءً "بمستوى ضعيف باستمرار على المستويات العصبية واللغوية والسلوكية". وشمل ذلك انخفاض نشاط الدماغ لدى المشاركين، وضعف الشعور بالقدرة على التأليف والإبداع، وعدم القدرة على تذكر ما كتبوه، وهو ما استمر حتى عندما لم يُسمح لهم باستخدام أحد النماذج اللغوية الكبيرة، بحسب تقرير لموقع "Mashable" المتخصص في أخبار التكنولوجيا، اطلعت عليه "العربية Business". وأثبتت الدراسة -التي لم تخضع لمراجعة الأقران- أن الاعتماد على "شات جي بي تي" والنماذج اللغوية الكبيرة الأخرى يمكن أن يُضعف الذاكرة والتعلُم. وقسمت الدراسة 54 مشاركًا إلى ثلاث مجموعات، كُلِّفت بكتابة مقالات مشابهة لاختبار "SAT" على مدار ثلاث جلسات. و"SAT" هو اختبار معياري أميركي يُستخدم كجزء من متطلبات القبل في الجامعات الأميركية. واستخدمت إحدى المجموعات "شات جي بي تي" (عُرفت باسم مجموعة النماذج اللغوية الكبيرة)، واستخدمت مجموعة أخرى بحث غوغل (عُرفت باسم مجموعة محركات البحث)، ولم يُسمح للمجموعة الثالثة باستخدام أي أدوات (وعُرفت باسم "مجموعة الدماغ فقط"). وفي جلسة رابعة إضافية ضمت 18 مشاركًا، كُلِّفت مجموعة النماذج اللغوية الكبيرة بكتابة مقال بدون "شات جي بي تي"، وسُمح لمجموعة "الدماغ فقط" باستخدام "شات جي بي تي". وقام الباحثون بقياس نشاط أدمغة المشاركين أثناء كتابتهم للمقالات باستخدام تخطيط كهربية الدماغ، وحللوا المقالات باستخدام معالجة اللغة الطبيعية (NLP)، وخضعت المقالات للتقييم من قِبل الذكاء الاصطناعي والبشر. واكتشف الباحثون انخفاضًا حادًا في "الاتصال في نطاق موجات ألفا" (alpha band connectivity) لدى مجموعة النماذج اللغوية الكبيرة، وهو مقياس للقدرات المعرفية للدماغ مثل الذاكرة ومعالجة اللغة، مقارنةً بمجموعة "الدماغ فقط". وكان هذا واضحًا عندما طُلب من المشاركين الاستشهاد بما كتبوه في مقالاتهم السابقة. وجاء في الورقة البحثية للدراسة: "مستخدمو النماذج اللغوية الكبيرة أدوا بشكل ملحوظ بمستوى أقل بكثير في هذا المجال، حيث أبلغ 83% من المشاركين عن صعوبة في الاقتباس في الجلسة الأولى، ولم يقدم أي منهم اقتباسات صحيحة". وفي الجلسة الرابعة، حيث اضطرت المجموعة التي استخدمت "شات جي بي تي" سابقًا لكتابة مقال بدونه، استمر المشاركون في مواجهة صعوبة في اقتباس أي شيء مما كتبوه سابقًا. ويشير هذا إلى أن المشاركين لم يكونوا يحتفظون فعليًا بما كتبوه أو استخلصوه من "شات جي بي تي". في الواقع، بحلول الجلسة الثالثة، أفاد الباحثون أن معظم مقالات مجموعة النماذج اللغوية الكبيرة كانت في الغالب ردودًا منسوخة من "شات جي بي تي" مع "حد أدنى من التحرير". ومن التأثيرات الأخرى التي قاسها الباحثون مستوى الإحساس بـ"الملكية الفكرية" أو مدى اعتقاد المشاركين بأنهم من ألفوا المقال بأنفسهم كليًا. وبالمقارنة مع مجموعة "الدماغ فقط"، التي أظهرت باستمرار شعورًا شبه كامل بالملكية، أظهرت مجموعة النماذج اللغوية الكبيرة "شعورًا مجزأً ومتضاربًا بالإبداع"، حيث ادّعى البعض الملكية الفكرية الكاملة أو الجزئية أو عدم الملكية على الإطلاق.

نماذج الذكاء الاصطناعي الرائدة تلجأ إلى الابتزاز والخداع في اختبارات الضغط

هاشتاغز

جرب ميزات الذكاء الاصطناعي لدينا

التعليقات

أخبار ذات صلة

نماذج الذكاء الاصطناعي الرائدة تلجأ إلى الابتزاز والخداع في اختبارات الضغط

دراسة تحذر: كثرة الاعتماد على "شات جي بي تي" في الكتابة تكلفك قدراتك الذهنية

دراسة تحذر كثرة الاعتماد على "شات جي بي تي"

حمّل التطبيق الآن وابدأ باستخدامه الآن