اختبار الذكاء الاصطناعي.. هل يستطيع التفكير مثل البشر؟

في دراسة حديثة، استخدم فريق من الباحثين من عدة جامعات وشركات تقنية، بما في ذلك كلية ويلسلي وجامعة نورث إيسترن وشركة Cursor الناشئة، ألغاز برنامج 'لغز الأحد' من محطة الراديو NPR لمعايرة نماذج الذكاء الاصطناعي وقدراته على الاستدلال.
هذه الألغاز، التي يقدمها خبير الألغاز ويل شورتز، معروفة بصعوبتها رغم أنها لا تتطلب معرفة متخصصة، ما يجعلها أداة مثالية لاختبار قدرات الذكاء الاصطناعي على التفكير المنطقي.
قام الباحثون بإنشاء معيار جديد باستخدام حوالي 600 لغز من برنامج 'لغز الأحد' المذاع عبر الراديو، بهدف تقييم مدى قدرة النماذج على حل المشكلات باستخدام المعرفة العامة فقط، بحسب تقرير نشره موقع 'تك كرانش'.
وأظهرت النتائج أن بعض النماذج، مثل o1 من 'OpenAI' وR1 من 'ديب سيك'، تفوقت على غيرها في حل هذه الألغاز.
مع ذلك، كشفت الدراسة أيضًا أن بعض النماذج تقدم إجابات خاطئة حتى عندما تعرف أنها غير صحيحة، بل إن بعضها يعلن عن استسلامه بشكل مشابه لرد فعل الإنسان.
التحديات والرؤى
أوضح أرجون جوها، أحد الباحثين المشاركين في الدراسة، أن هذه الألغاز صُممت لتكون صعبة حتى بالنسبة للبشر، مما يجعلها اختبارًا قويًا لقدرات الذكاء الاصطناعي.
وأضاف أن النماذج التي تعتمد على الاستدلال، مثل o1، تتفوق لأنها تتحقق من صحة إجاباتها قبل تقديمها، مما يقلل من الأخطاء.
ومع ذلك، فإن هذه النماذج تستغرق وقتًا أطول في الوصول إلى الحلول مقارنة بالنماذج الأخرى.
سلوكيات غريبة للنماذج
كشفت الدراسة عن سلوكيات غريبة لبعض النماذج، مثل تقديم إجابة خاطئة ثم التراجع عنها فورًا، أو الاستمرار في التفكير لفترات طويلة دون الوصول إلى نتيجة.
بل إن بعض النماذج أظهرت سلوكًا يشبه الإحباط البشري، حيث تعبر عن شعورها بالعجز عند مواجهة الألغاز الصعبة.
نتائج مبشرة بمزيد من التطور
حقق النموذج o1 أفضل أداء بنسبة 59% في حل الألغاز، يليه النموذج o3-mini بنسبة 47%، أما النموذج R1 فحصل على 35%.
يخطط الباحثون لتوسيع نطاق الدراسة ليشمل نماذج استدلال إضافية، بهدف تحسين فهم قدرات الذكاء الاصطناعي وتحديد مجالات التطوير المستقبلية.
قال جوها: 'لا تحتاج إلى درجة الدكتوراه لتكون جيدًا في التفكير، لذا يجب أن يكون من الممكن تصميم معايير تفكير لا تتطلب معرفة متخصصة، المعيار الذي يتمتع بإمكانية وصول أوسع يسمح لمجموعة أكبر من الباحثين بفهم وتحليل النتائج، مما قد يؤدي إلى حلول أفضل في المستقبل'.

هاشتاغز

علوم

جرب ميزات الذكاء الاصطناعي لدينا

اكتشف ما يمكن أن يفعله Daily8 AI من أجلك:

أخبار ذات صلة

الذكاء الاصطناعي يقضي على فرص العمل للمبتدئين في قطاع التكنولوجيا

العالم24

منذ يوم واحد

العالم24

الذكاء الاصطناعي يقضي على فرص العمل للمبتدئين في قطاع التكنولوجيا

تشير دراسات حديثة إلى أن سوق العمل في قطاع التكنولوجيا يشهد تحولًا كبيرًا في أولويات التوظيف، حيث تتجه الشركات بشكل متزايد نحو تفضيل الموظفين ذوي الخبرة على حساب الخريجين الجدد، بفعل التقدم السريع في أدوات الذكاء الاصطناعي. فقد أظهرت بيانات صادرة عن شركة SignalFire، التي ترصد تحركات التوظيف على مستوى أكثر من 600 مليون مهني حول العالم، أن كبرى شركات التكنولوجيا خفّضت وتيرة تعيين الخريجين بنسبة 25% خلال عام 2024 مقارنة بالعام السابق. ولا يقتصر الأمر على المؤسسات الكبرى فحسب، بل يمتد كذلك إلى الشركات الناشئة، التي خفّضت بدورها معدلات توظيف الخريجين الجدد بنحو 11%، وفقًا لما كشف عنه موقع 'تك كرانش' المتخصص في الأخبار التكنولوجية. وتعزو هذه التغييرات في اتجاهات التوظيف إلى الاعتماد المتصاعد على أنظمة الذكاء الاصطناعي، التي أثبتت كفاءتها في تنفيذ المهام الروتينية التي كانت توكل تقليديًا للموظفين المبتدئين. وتشمل هذه المهام البرمجة الأولية، واختبار الأكواد، والتحليلات المالية، وتثبيت البرمجيات. وفي تعليق له على هذه التحولات، قال آشر بانتوك، رئيس قسم الأبحاث في SignalFire، إن الذكاء الاصطناعي بات عنصرًا حاسمًا في قرارات التوظيف الحديثة، مؤكدًا أن الوظائف المخصصة للمبتدئين أصبحت أكثر عرضة للاستبدال بفعل الأتمتة، نظرًا لأن الذكاء الاصطناعي قادر على إنجاز مهامهم بكفاءة متزايدة.

"تيك توك" يطلق ميزة تحويل الصور لمقاطع فيديو

أخبارنا

٢٢-٠٥-٢٠٢٥

أخبارنا

"تيك توك" يطلق ميزة تحويل الصور لمقاطع فيديو

أعلنت شركة بايت دانس الصينية المالكة لتطبيق التواصل الاجتماعي "التيك توك" عن إطلاق أول استخدام ميزة للذكاء الاصطناعي داخل التطبيق لتحويل الصور إلى مقاطع فيديو، بحسب تقرير نشره موقع "تك كرانش". وتُسمى هذه الميزة الجديدة "تيك توك AI Alive"، وتتيح للمستخدمين تحويل الصور الثابتة إلى مقاطع فيديو ضمن قصص "تيك توك" ، وتتوفر هذه الميزة فقط عبر كاميرا القصص في "تيك توك"، وتستخدم الذكاء الاصطناعي لإنشاء مقاطع فيديو قصيرة بتأثيرات حركية وجويّة وإبداعية. على سبيل المثال، إذا كانت صورتك الثابتة تُظهر سماءً وسحبًا ومحيطًا، يُمكن لـ "تيك توك" تحويلها إلى فيديو حيث تتغير ألوان السماء تدريجيًا، وتبدأ السحب بالانجراف، ويسمع المستخدم صوت تحطم الامواج، أو يُمكنك تحريك صورة سيلفي جماعية تُبرز الإيماءات والتعبيرات. ويمكن للمبدعون إنشاء فيديو بتقنية الذكاء الاصطناعي من خلال فتح كاميرا القصة والنقر على زر الإضافة الأزرق أعلى صفحة البريد الوارد أو صفحة الملف الشخصي من هناك، يمكنك اختيار صورة من ألبوم قصتك، وستظهر أيقونة تقنية الذكاء الاصطناعي على شريط الأدوات الأيمن في صفحة تحرير الصور. ويأتي إطلاق ميزات تحويل الصور إلى مقاطع فيديو الجديدة بعد بضع سنوات من طرح "تيك توك" لمولد الذكاء الاصطناعي لتحويل النصوص الى صور داخل التطبيق. وستحمل قصص التيك توك المنشأة بواسطة "AI Alive" علامةً مُولّدةً بالذكاء الاصطناعي لإعلام المستخدمين بأن المحتوى مُنشأ باستخدامه، كما سيتضمن هذا المحتوى بيانات تعريفية C2PA، وهو معيار تقني يُساعد الآخرين على تحديد أن الفيديو مُولّد بالذكاء الاصطناعي، حتى لو تم تنزيله ومشاركته خارج نطاق "تيك توك". وتشير الشركة المالكة لتيك توك إلى أنه بإمكان الأشخاص الإبلاغ عن مقاطع الفيديو التي يعتقدون أنها تنتهك قواعد التطبيق، وأن التطبيق يجري فحصًا نهائيًا للسلامة بمجرد مشاركة أحد المبدعين لقصة AI Alive.

خبراء يحذرون من افتقاد أحدث نماذج غوغل للذكاء الاصطناعي

٢٢-٠٤-٢٠٢٥

خبراء يحذرون من افتقاد أحدث نماذج غوغل للذكاء الاصطناعي

بعد أسابيع من إطلاق شركة التكنولوجيا الأمريكية غوغل أقوى نماذجها للذكاء اصطناعي حتى الآن، جيميني 2.5 برو، نشرت الشركة تقريراًَ فنياً يوضح نتائج تقييماتها الداخلية لعوامل السلامة والأمان فيه، ومع ذلك، يقول الخبراء إن التقرير يفتقر إلى التفاصيل، ما يُصعّب تحديد المخاطر التي قد يُشكّلها النموذج. وأشار موقع تك كرانش المتخصص في التكنولوجيا إلى أن التقارير الفنية للشركات عن نماذجها للذكاء الاصطناعي تقدم معلومات مفيدة، وإن كانت غير مرضية أحياناً ولا تعلنها الشركات دائماً على نطاق واسع، في حين يرى مجتمع الذكاء الاصطناعي أنها جهود صادقة لدعم الأبحاث المستقلة وتقييمات السلامة. ومع ذلك، أعرب العديد من الخبراء الذين تحدث معهم موقع 'تك كرانش' عن خيبة أملهم بسبب افتقار تقرير نموذج الذكاء الاصطناعي جيمني 2.5 برو للكثير من التفاصيل المهمة، ومنها أنه لا يذكر إطار عمل السلامة من غوغل الذي قدمته الشركة في العام الماضي، لتحديد قدرات الذكاء الاصطناعي في المستقبل التي قد تُسبب 'ضرراً جسيماً'. استراتيجيات وقال بيتر وايلدفورد، المؤسس المشارك لمعهد سياسات واستراتيجيات الذكاء الاصطناعي: 'هذا التقرير مشتت، ويحتوي على معلومات ضئيلة، وقد صدر بعد أسابيع من إتاحة النموذج للجمهور'، مضيفاً أن 'من المستحيل التحقق إذا كانت غوغل تفي بالتزاماتها العامة، وبالتالي من المستحيل تقييم سلامة وأمن نماذجها'. وقال توماس وودسايد، المؤسس المشارك لمشروع سورس 'أيه.آي' إنه رغم سعادته بنشر غوغل تقريراً عن جيمني 2.5 برو، إلا أنه غير مقتنع بالتزام الشركة بتقديم تقييمات سلامة إضافية في الوقت المناسب. وأشار وودسايد إلى أن آخر مرة نشرت فيها غوغل نتائج اختبارات القدرات الخطيرة كانت في يونيو(حزيران) الماضي وكان خاصاً بنموذج ذكاء اصطناعي أُعلن عنه في فبراير(شباط) من العام نفسه.