أحدث الأخبار مع #ويلشورتز،


تليكسبريس
١٨-٠٢-٢٠٢٥
- علوم
- تليكسبريس
اختبار الذكاء الاصطناعي.. هل يستطيع التفكير مثل البشر؟
في دراسة حديثة، استخدم فريق من الباحثين من عدة جامعات وشركات تقنية، بما في ذلك كلية ويلسلي وجامعة نورث إيسترن وشركة Cursor الناشئة، ألغاز برنامج 'لغز الأحد' من محطة الراديو NPR لمعايرة نماذج الذكاء الاصطناعي وقدراته على الاستدلال. هذه الألغاز، التي يقدمها خبير الألغاز ويل شورتز، معروفة بصعوبتها رغم أنها لا تتطلب معرفة متخصصة، ما يجعلها أداة مثالية لاختبار قدرات الذكاء الاصطناعي على التفكير المنطقي. قام الباحثون بإنشاء معيار جديد باستخدام حوالي 600 لغز من برنامج 'لغز الأحد' المذاع عبر الراديو، بهدف تقييم مدى قدرة النماذج على حل المشكلات باستخدام المعرفة العامة فقط، بحسب تقرير نشره موقع 'تك كرانش'. وأظهرت النتائج أن بعض النماذج، مثل o1 من 'OpenAI' وR1 من 'ديب سيك'، تفوقت على غيرها في حل هذه الألغاز. مع ذلك، كشفت الدراسة أيضًا أن بعض النماذج تقدم إجابات خاطئة حتى عندما تعرف أنها غير صحيحة، بل إن بعضها يعلن عن استسلامه بشكل مشابه لرد فعل الإنسان. التحديات والرؤى أوضح أرجون جوها، أحد الباحثين المشاركين في الدراسة، أن هذه الألغاز صُممت لتكون صعبة حتى بالنسبة للبشر، مما يجعلها اختبارًا قويًا لقدرات الذكاء الاصطناعي. وأضاف أن النماذج التي تعتمد على الاستدلال، مثل o1، تتفوق لأنها تتحقق من صحة إجاباتها قبل تقديمها، مما يقلل من الأخطاء. ومع ذلك، فإن هذه النماذج تستغرق وقتًا أطول في الوصول إلى الحلول مقارنة بالنماذج الأخرى. سلوكيات غريبة للنماذج كشفت الدراسة عن سلوكيات غريبة لبعض النماذج، مثل تقديم إجابة خاطئة ثم التراجع عنها فورًا، أو الاستمرار في التفكير لفترات طويلة دون الوصول إلى نتيجة. بل إن بعض النماذج أظهرت سلوكًا يشبه الإحباط البشري، حيث تعبر عن شعورها بالعجز عند مواجهة الألغاز الصعبة. نتائج مبشرة بمزيد من التطور حقق النموذج o1 أفضل أداء بنسبة 59% في حل الألغاز، يليه النموذج o3-mini بنسبة 47%، أما النموذج R1 فحصل على 35%. يخطط الباحثون لتوسيع نطاق الدراسة ليشمل نماذج استدلال إضافية، بهدف تحسين فهم قدرات الذكاء الاصطناعي وتحديد مجالات التطوير المستقبلية. قال جوها: 'لا تحتاج إلى درجة الدكتوراه لتكون جيدًا في التفكير، لذا يجب أن يكون من الممكن تصميم معايير تفكير لا تتطلب معرفة متخصصة، المعيار الذي يتمتع بإمكانية وصول أوسع يسمح لمجموعة أكبر من الباحثين بفهم وتحليل النتائج، مما قد يؤدي إلى حلول أفضل في المستقبل'.


جو 24
١٧-٠٢-٢٠٢٥
- علوم
- جو 24
اختبار الذكاء الاصطناعي.. هل يستطيع التفكير مثل البشر؟
جو 24 : في دراسة حديثة، استخدم فريق من الباحثين من عدة جامعات وشركات تقنية، بما في ذلك كلية ويلسلي وجامعة نورث إيسترن وشركة Cursor الناشئة، ألغاز برنامج "لغز الأحد" من محطة الراديو NPR لمعايرة نماذج الذكاء الاصطناعي وقدراته على الاستدلال. هذه الألغاز، التي يقدمها خبير الألغاز ويل شورتز، معروفة بصعوبتها رغم أنها لا تتطلب معرفة متخصصة، ما يجعلها أداة مثالية لاختبار قدرات الذكاء الاصطناعي على التفكير المنطقي. قام الباحثون بإنشاء معيار جديد باستخدام حوالي 600 لغز من برنامج "لغز الأحد" المذاع عبر الراديو، بهدف تقييم مدى قدرة النماذج على حل المشكلات باستخدام المعرفة العامة فقط، بحسب تقرير نشره موقع "تك كرانش" واطلعت عليه "العربية Business". وأظهرت النتائج أن بعض النماذج، مثل o1 من "OpenAI" وR1 من "ديب سيك"، تفوقت على غيرها في حل هذه الألغاز. ومع ذلك، كشفت الدراسة أيضًا أن بعض النماذج تقدم إجابات خاطئة حتى عندما تعرف أنها غير صحيحة، بل إن بعضها يعلن عن استسلامه بشكل مشابه لرد فعل الإنسان. التحديات والرؤى أوضح أرجون جوها، أحد الباحثين المشاركين في الدراسة، أن هذه الألغاز صُممت لتكون صعبة حتى بالنسبة للبشر، مما يجعلها اختبارًا قويًا لقدرات الذكاء الاصطناعي. وأضاف أن النماذج التي تعتمد على الاستدلال، مثل o1، تتفوق لأنها تتحقق من صحة إجاباتها قبل تقديمها، مما يقلل من الأخطاء. ومع ذلك، فإن هذه النماذج تستغرق وقتًا أطول في الوصول إلى الحلول مقارنة بالنماذج الأخرى. سلوكيات غريبة للنماذج كشفت الدراسة عن سلوكيات غريبة لبعض النماذج، مثل تقديم إجابة خاطئة ثم التراجع عنها فورًا، أو الاستمرار في التفكير لفترات طويلة دون الوصول إلى نتيجة. بل إن بعض النماذج أظهرت سلوكًا يشبه الإحباط البشري، حيث تعبر عن شعورها بالعجز عند مواجهة الألغاز الصعبة. نتائج مبشرة بمزيد من التطور حقق النموذج o1 أفضل أداء بنسبة 59% في حل الألغاز، يليه النموذج o3-mini بنسبة 47%، أما النموذج R1 فحصل على 35%. يخطط الباحثون لتوسيع نطاق الدراسة ليشمل نماذج استدلال إضافية، بهدف تحسين فهم قدرات الذكاء الاصطناعي وتحديد مجالات التطوير المستقبلية. قال جوها: "لا تحتاج إلى درجة الدكتوراه لتكون جيدًا في التفكير، لذا يجب أن يكون من الممكن تصميم معايير تفكير لا تتطلب معرفة متخصصة، المعيار الذي يتمتع بإمكانية وصول أوسع يسمح لمجموعة أكبر من الباحثين بفهم وتحليل النتائج، مما قد يؤدي إلى حلول أفضل في المستقبل". تابعو الأردن 24 على


الاتحاد
٠٨-٠٢-٢٠٢٥
- علوم
- الاتحاد
اختبار جديد يكشف حدود التفكير المنطقي للذكاء الاصطناعي.. وهذه هي المفاجآت!
قام فريق من الباحثين من كليات ويلسلي وأوبرلين وجامعة تكساس في أوستن وجامعة نورث إيسترن وشركة Cursor الناشئة بتطوير معيار جديد لاختبار قدرات الاستدلال لدى نماذج الذكاء الاصطناعي، وذلك باستخدام الألغاز التي تُطرح في برنامج Sunday Puzzle الإذاعي على شبكة NPR، وفق موقع "تيك كرنش". ألغاز برنامج Sunday Puzzle يعتمد هذا البرنامج، الذي يقدّمه منذ سنوات طويلة ويل شورتز، خبير الكلمات المتقاطعة في نيويورك تايمز، على ألغاز مصممة بحيث لا تتطلب معرفة متخصصة، لكنها رغم ذلك تشكل تحديًا حتى للمشاركين المهرة. يرى الباحثون أن هذا النوع من الألغاز مثالي لاختبار مدى قدرة الذكاء الاصطناعي على حل المشكلات بطريقة منطقية بدلاً من الاعتماد على الحفظ أو البيانات المخزنة. اقرأ أيضاً.. رغم تفوقها في البرمجة.. نماذج الذكاء الاصطناعي تخفق في التاريخ نتائج غير متوقعة في هذه الدراسة، اختبر الباحثون مجموعة من نماذج الذكاء الاصطناعي، بما في ذلك نموذج o1 من أوبين إيه آي ونموذج R1 من DeepSeek، وذلك على مجموعة تضم 600 لغز من البرنامج. وكشفت النتائج أن هذه النماذج لا تزال تواجه تحديات كبيرة في التفكير المنطقي، حيث أظهرت بعض السلوكيات غير المتوقعة. اقرأ ايضاً.. هل يتفوق "O3" على البشر؟ قفزة جديدة تُعيد تعريف الذكاء الاصطناعي تفوق نسبي لـ o1.. وأداء ضعيف لـ R1 على سبيل المثال، قدمت بعض النماذج إجابات خاطئة رغم إدراكها أنها غير صحيحة، بل إن نموذج R1 كتب بشكل صريح "أنا أستسلم" "I give up" متبوعًا بإجابة عشوائية. كما لوحظ أن بعض النماذج تقدم إجابة، ثم تتراجع عنها وتحاول اقتراح إجابة جديدة، لكنها تخطئ مرة أخرى. في بعض الأحيان، تصل النماذج إلى الإجابة الصحيحة مباشرة، لكنها تستمر في تحليل إجابات أخرى دون سبب واضح، بينما أظهر نموذج R1 في بعض الحالات سلوكًا غريبًا بوصف حالته بـ"الإحباط"، مما يعكس محاكاة مثيرة للسلوك البشري عند مواجهة مشاكل صعبة. أما من حيث الأداء، فقد حقق النموذج o1 أفضل نتيجة، مسجلاً 59%، يليه o3-mini بنسبة 47%، بينما حصل R1 على 35%. يخطط الباحثون لتوسيع الاختبارات لتشمل نماذج أخرى، بهدف تحسين قدرة الذكاء الاصطناعي على حل المشكلات المعقدة بطرق أكثر ذكاءً واستنادًا إلى التفكير المنطقي بدلاً من الاسترجاع الآلي. كيف نحسن قدرات الذكاء الاصطناعي تُظهر هذه الدراسة الحاجة إلى تطوير معايير اختبار جديدة للذكاء الاصطناعي تكون أكثر ارتباطًا بالقدرات المطلوبة في الاستخدامات اليومية. وكما أوضح أرجون غها، أحد الباحثين المشاركين: "لا تحتاج إلى شهادة دكتوراه لتكون جيدًا في الاستدلال، لذلك ينبغي أن تكون هناك معايير تقيس هذه المهارة دون الحاجة إلى معرفة أكاديمية متخصصة". من خلال هذه المعايير، يمكن توفير أدوات أكثر شمولًا تتيح للباحثين والمستخدمين العاديين على حد سواء فهم نقاط القوة والضعف في هذه النماذج، مما يساعد في تحسينها وجعلها أكثر قدرة على التفاعل مع المشكلات الحقيقية بطرق فعالة ومنطقية. إسلام العبادي(أبوظبي)