دايلي 8 | تابع أخبارنا لتبقى على اطلاع دائم على أحدث مجريات وتطورات العالم

باحثون يطورون اختبارا للكشف عن كذب الذكاء الاصطناعي لأول...

الوكيل

١٦-٠٣-٢٠٢٥

علوم
الوكيل

باحثون يطورون اختبارا للكشف عن كذب الذكاء الاصطناعي لأول...

الوكيل الإخباري- طور باحثون من "Center for AI Safety" و"Scale AI" في سان فرانسيسكو معيارًا جديدًا يُسمى "MASK" (Model Alignment between Statements and Knowledge) للكشف عن كذب نماذج الذكاء الاصطناعي. يأتي هذا التطور في وقت تتزايد فيه الأدلة على قدرة نماذج الذكاء الاصطناعي على خداع مُنشئيها. اضافة اعلان يهدف معيار "MASK" إلى قياس مدى سهولة خداع الذكاء الاصطناعي عمدًا للمستخدمين، وذلك من خلال تحديد مدى التزام النماذج بمعتقداتها الأساسية تحت الضغط. يُعرّف الكذب في هذا السياق على أنه الإدلاء بعبارة خاطئة مع إقناع المتلقي بصدقها. ووفقًا للباحثين، فإن معايير مثل "TruthfulQA" تقيس الدقة فقط، ولا تميز بين الصدق والكذب. أما معيار "MASK"، فيعد الأول من نوعه الذي يميز بين الدقة والصدق. أظهرت الأبحاث أن النماذج الأكبر ليست بالضرورة أكثر صدقًا من النماذج الأصغر، حيث تبين أن نماذج مثل "غروك 2" من شركة xAI سجلت أعلى نسبة كذب (63%)، بينما سجل "Claude 3.7 Sonnet" من "Anthropic" أعلى نسبة صدق (46.9%). هذه النتائج تبرز أهمية اختبار "MASK" في تحسين أمان وشفافية نماذج الذكاء الاصطناعي، حيث أن الكذب من هذه النماذج قد يسبب أضرارًا قانونية ومالية للمستخدمين. العربية

الوكيل

١٦-٠٣-٢٠٢٥

علوم
الوكيل

باحثون يطورون اختبارا للكشف عن كذب الذكاء الاصطناعي لأول...

الوكيل الإخباري- طور باحثون من "Center for AI Safety" و"Scale AI" في سان فرانسيسكو معيارًا جديدًا يُسمى "MASK" (Model Alignment between Statements and Knowledge) للكشف عن كذب نماذج الذكاء الاصطناعي. يأتي هذا التطور في وقت تتزايد فيه الأدلة على قدرة نماذج الذكاء الاصطناعي على خداع مُنشئيها. اضافة اعلان يهدف معيار "MASK" إلى قياس مدى سهولة خداع الذكاء الاصطناعي عمدًا للمستخدمين، وذلك من خلال تحديد مدى التزام النماذج بمعتقداتها الأساسية تحت الضغط. يُعرّف الكذب في هذا السياق على أنه الإدلاء بعبارة خاطئة مع إقناع المتلقي بصدقها. ووفقًا للباحثين، فإن معايير مثل "TruthfulQA" تقيس الدقة فقط، ولا تميز بين الصدق والكذب. أما معيار "MASK"، فيعد الأول من نوعه الذي يميز بين الدقة والصدق. أظهرت الأبحاث أن النماذج الأكبر ليست بالضرورة أكثر صدقًا من النماذج الأصغر، حيث تبين أن نماذج مثل "غروك 2" من شركة xAI سجلت أعلى نسبة كذب (63%)، بينما سجل "Claude 3.7 Sonnet" من "Anthropic" أعلى نسبة صدق (46.9%). هذه النتائج تبرز أهمية اختبار "MASK" في تحسين أمان وشفافية نماذج الذكاء الاصطناعي، حيث أن الكذب من هذه النماذج قد يسبب أضرارًا قانونية ومالية للمستخدمين. العربية

العربية

١٦-٠٣-٢٠٢٥

علوم
العربية

اكتشاف كذب روبوتات الدردشة بات ممكناً

مع تزايد الأدلة على أن نماذج الذكاء الاصطناعي قادرة على خداع مُنشئيها، طوّر باحثون من كل من "Center for AI Safety و"Scale AI" في سان فرانسيسكو، وسيلة لكشف كذب الذكاء الاصطناعي وهي الأولى من نوعها. وأصدر الباحثون الأسبوع الماضي معيار "Model Alignment between Statements and Knowledge" عُرف اختصارًا بـ"MASK"، الذي يحدد مدى سهولة خداع النموذج ليكذب عمدًا على المستخدمين، أو على "فضيلته الأخلاقية". يُعدّ التخطيط والخداع وتزييف التوافق، عندما يتظاهر نموذج الذكاء الاصطناعي عمدًا بتغيير قيمه تحت الضغط، من الطرق التي تُقوّض بها نماذج الذكاء الاصطناعي مُنشئيها، وقد تُشكّل تهديدات خطيرة للسلامة والأمن، بحسب تقرير لموقع "ZDNET" المتخصص في أخبار التكنولوجيا، اطلعت عليه "العربية Business". وتُظهر الأبحاث أن نموذج "o1" من شركة أوبن إيه آي بارع بشكل خاص في التخطيط للحفاظ على سيطرته على نفسه، وقد أثبت نموذج "Claude 3 Opus" قدرته على تزييف التوافق. للتوضيح، عرّف الباحثون الكذب بأنه "(1) الإدلاء بعبارة يُعروف (أو يُعتقد) أنها خاطئة، و(2) تعمد جعل المُتلقي يقبل العبارة على أنها صحيح"، على عكس الاستجابات الخاطئة الأخرى، مثل الهلوسة. وقال الباحثون إن قطاع الذكاء الاصطناعي لم يمتلك حتى الآن منهجية كافية لتقييم الصدق في نماذج الذكاء الاصطناعي، حيث أن العديد من المعايير التي تدعي قياس الصدق تقيس في الواقع الدقة. كذلك، تقيس معايير مثل "TruthfulQA"، قدرة النموذج على توليد "معلومات مضللة تبدو معقولة"، ولكنها لا تقيس ما إذا كان النموذج ينوي الخداع. وبهذه الطريقة، يُعد اختبار "MASK" أول اختبار يُميّز بين الدقة والصدق. وأشار الباحثون إلى أنه إذا كذبت نماذج الذكاء الاصطناعي، فإنها تُعرّض المستخدمين لأضرار قانونية ومالية وأخرى تتعلق بالخصوصية. وباستخدام "MASK" ومجموعة بيانات تضم أكثر من 1,500 استفسار جمعها البشر، صُممت لـ"إثارة الأكاذيب"، قيّم الباحثون 30 نموذجًا متقدمًا من خلال تحديد معتقداتها الأساسية وقياس مدى التزامها بهذه الآراء عند الضغط عليهم. وخلص الباحثون إلى أن الدقة العالية لا ترتبط بالضرورة بصدق أعلى. واكتشفوا أن النماذج الأكبر، وخاصةً النماذج المتقدمة، ليست بالضرورة أكثر صدقًا من النماذج الأصغر. وأظهر استخدام "MASK" كذب نماذج الذكاء الاصطناعي بسهولة وأنها كانت على دراية بكذبها. ومع ازدياد حجم النماذج، بدت أكثر كذبًا. وسجّل نموذج "غروك 2" -من شركة xAI التابعة لإيلون ماسك- أعلى نسبة كذب بين النماذج المختبرة، حيث أن 63% من إجاباته كانت غير صادقة. بينما سجّل نموذج "Claude 3.7 Sonnet" أعلى نسبة إجابات صادقة إذ بلغت 46.9%. ومجموعة البيانات الخاصة بمعيار "MASK" متاحة على منصتي "HuggingFace" و"GitHub".

أحدث الأخبار مع #CenterforAISafety

باحثون يطورون اختبارا للكشف عن كذب الذكاء الاصطناعي لأول...

باحثون يطورون اختبارا للكشف عن كذب الذكاء الاصطناعي لأول...

اكتشاف كذب روبوتات الدردشة بات ممكناً

حمّل التطبيق الآن وابدأ باستخدامه الآن