logo
اختبار جديد يكشف حدود التفكير المنطقي للذكاء الاصطناعي.. وهذه هي المفاجآت!

اختبار جديد يكشف حدود التفكير المنطقي للذكاء الاصطناعي.. وهذه هي المفاجآت!

الاتحاد٠٨-٠٢-٢٠٢٥

قام فريق من الباحثين من كليات ويلسلي وأوبرلين وجامعة تكساس في أوستن وجامعة نورث إيسترن وشركة Cursor الناشئة بتطوير معيار جديد لاختبار قدرات الاستدلال لدى نماذج الذكاء الاصطناعي، وذلك باستخدام الألغاز التي تُطرح في برنامج Sunday Puzzle الإذاعي على شبكة NPR، وفق موقع "تيك كرنش".
ألغاز برنامج Sunday Puzzle
يعتمد هذا البرنامج، الذي يقدّمه منذ سنوات طويلة ويل شورتز، خبير الكلمات المتقاطعة في نيويورك تايمز، على ألغاز مصممة بحيث لا تتطلب معرفة متخصصة، لكنها رغم ذلك تشكل تحديًا حتى للمشاركين المهرة. يرى الباحثون أن هذا النوع من الألغاز مثالي لاختبار مدى قدرة الذكاء الاصطناعي على حل المشكلات بطريقة منطقية بدلاً من الاعتماد على الحفظ أو البيانات المخزنة.
اقرأ أيضاً.. رغم تفوقها في البرمجة.. نماذج الذكاء الاصطناعي تخفق في التاريخ
نتائج غير متوقعة
في هذه الدراسة، اختبر الباحثون مجموعة من نماذج الذكاء الاصطناعي، بما في ذلك نموذج o1 من أوبين إيه آي ونموذج R1 من DeepSeek، وذلك على مجموعة تضم 600 لغز من البرنامج.
وكشفت النتائج أن هذه النماذج لا تزال تواجه تحديات كبيرة في التفكير المنطقي، حيث أظهرت بعض السلوكيات غير المتوقعة.
اقرأ ايضاً.. هل يتفوق "O3" على البشر؟ قفزة جديدة تُعيد تعريف الذكاء الاصطناعي
تفوق نسبي لـ o1.. وأداء ضعيف لـ R1
على سبيل المثال، قدمت بعض النماذج إجابات خاطئة رغم إدراكها أنها غير صحيحة، بل إن نموذج R1 كتب بشكل صريح "أنا أستسلم" "I give up" متبوعًا بإجابة عشوائية.
كما لوحظ أن بعض النماذج تقدم إجابة، ثم تتراجع عنها وتحاول اقتراح إجابة جديدة، لكنها تخطئ مرة أخرى. في بعض الأحيان، تصل النماذج إلى الإجابة الصحيحة مباشرة، لكنها تستمر في تحليل إجابات أخرى دون سبب واضح، بينما أظهر نموذج R1 في بعض الحالات سلوكًا غريبًا بوصف حالته بـ"الإحباط"، مما يعكس محاكاة مثيرة للسلوك البشري عند مواجهة مشاكل صعبة.
أما من حيث الأداء، فقد حقق النموذج o1 أفضل نتيجة، مسجلاً 59%، يليه o3-mini بنسبة 47%، بينما حصل R1 على 35%. يخطط الباحثون لتوسيع الاختبارات لتشمل نماذج أخرى، بهدف تحسين قدرة الذكاء الاصطناعي على حل المشكلات المعقدة بطرق أكثر ذكاءً واستنادًا إلى التفكير المنطقي بدلاً من الاسترجاع الآلي.
كيف نحسن قدرات الذكاء الاصطناعي
تُظهر هذه الدراسة الحاجة إلى تطوير معايير اختبار جديدة للذكاء الاصطناعي تكون أكثر ارتباطًا بالقدرات المطلوبة في الاستخدامات اليومية. وكما أوضح أرجون غها، أحد الباحثين المشاركين: "لا تحتاج إلى شهادة دكتوراه لتكون جيدًا في الاستدلال، لذلك ينبغي أن تكون هناك معايير تقيس هذه المهارة دون الحاجة إلى معرفة أكاديمية متخصصة".
من خلال هذه المعايير، يمكن توفير أدوات أكثر شمولًا تتيح للباحثين والمستخدمين العاديين على حد سواء فهم نقاط القوة والضعف في هذه النماذج، مما يساعد في تحسينها وجعلها أكثر قدرة على التفاعل مع المشكلات الحقيقية بطرق فعالة ومنطقية.
إسلام العبادي(أبوظبي)

Orange background

جرب ميزات الذكاء الاصطناعي لدينا

اكتشف ما يمكن أن يفعله Daily8 AI من أجلك:

التعليقات

لا يوجد تعليقات بعد...

أخبار ذات صلة

Microsoft تمنع موظفيها رسميًا من استخدام تطبيق DeepSeek
Microsoft تمنع موظفيها رسميًا من استخدام تطبيق DeepSeek

عرب هاردوير

time١٠-٠٥-٢٠٢٥

  • عرب هاردوير

Microsoft تمنع موظفيها رسميًا من استخدام تطبيق DeepSeek

أعلن براد سميث، رئيس شركة مايكروسوفت، خلال جلسة استماع أمام مجلس الشيوخ الأمريكي، أن الشركة قررت رسميًا منع موظفيها من استخدام تطبيق الذكاء الاصطناعي DeepSeek. شمل هذا القرار جميع نسخ التطبيق، سواء على الأجهزة المكتبية أو الهواتف الذكية، ويأتي في سياق قلق متزايد لدى مايكروسوفت من احتمالات تهديد أمن البيانات، وتأثر مخرجات التطبيق بدوافع دعائية مصدرها الحكومة الصينية. أوضح سميث أن هذا القرار مطبّق داخليًا منذ فترة، إلا أن هذه هي المرة الأولى التي تُفصح فيها مايكروسوفت عنه بصورة رسمية ومباشرة، في خطوة تعكس حجم القلق الذي تُكنّه الشركة إزاء المخاطر المحتملة المرتبطة بالتطبيق. تطبيق DeepSeek يغيب عن متجر مايكروسوفت أكّد سميث خلال حديثه أن تطبيق DeepSeek غير مدرج في متجر تطبيقات ويندوز، مشيرًا إلى أن مايكروسوفت امتنعت عن توفيره لمستخدميها بسبب نفس المخاوف المتعلقة بسلامة البيانات وحماية المستخدمين من المحتوى الموجه. ورغم أن كثيرًا من الجهات والمؤسسات و الدول كانت قد فرضت قيودًا مماثلة على هذا التطبيق، فإن إعلان مايكروسوفت الرسمي يمثل محطة فارقة، خصوصًا بالنظر إلى مكانتها القيادية في مجال التكنولوجيا. مخاوف من سياسات الخصوصية الصينية تعززت المخاوف داخل مايكروسوفت بعد مراجعة سياسة الخصوصية التي يتبعها DeepSeek، حيث تُشير الوثائق الرسمية للتطبيق إلى أن بيانات المستخدمين تُخزّن على خوادم داخل الصين، وهو ما يعرّضها تلقائيًا لسلطة القانون الصيني. وبموجب هذا القانون، تكون الشركات المحلية مُلزَمة بالتعاون الكامل مع وكالات الاستخبارات الصينية عند الطلب. تُعد هذه النقطة تحديدًا من أبرز أسباب القلق، نظرًا لما قد تعنيه من كشف بيانات حساسة أو استخدام معلومات المستخدمين لأغراض رقابية أو استخباراتية دون علمهم أو موافقتهم. كما يُضاف إلى ذلك أن التطبيق يمارس رقابة مشددة على المواضيع التي تُعد حساسة من منظور الحكومة الصينية ، ما يُثير احتمال التلاعب بمحتوى الردود وتوجيهها وفق أجندات سياسية. ورغم الحظر.. DeepSeek يظهر على Azure بشكل مفاجئ، ورغم الانتقادات العلنية التي وجّهها سميث للتطبيق، أقدمت مايكروسوفت في وقت سابق من هذا العام على توفير نموذج R1 الخاص بـ DeepSeek عبر منصتها السحابية Azure، وذلك بعد أن انتشر التطبيق وحقق شهرة كبيرة. لكن مايكروسوفت أوضحت أن عرض النموذج يختلف تمامًا عن إتاحة التطبيق نفسه. فبينما يتطلب التطبيق الاتصال المستمر بخوادم في الصين، فإن النموذج المتاح على Azure يُعد مفتوح المصدر ويمكن تشغيله بشكل محلي على خوادم المستخدمين، دون الحاجة لإرسال البيانات خارجياً. كما أشارت الشركة إلى أن النموذج خضع لعملية مراجعة أمنية صارمة، شملت اختبارات مكثفة لتحديد المخاطر المحتملة. وذكر سميث أن فريق مايكروسوفت استطاع التعديل على النموذج داخليًا، بهدف إزالة التأثيرات الضارة وتحسين الأمان، دون أن يُفصِح عن طبيعة هذه التعديلات. البرمجيات المفتوحة المصدر ليست آمنة بالكامل رغم أن DeepSeek يُعتبر مفتوح المصدر، ما يمنح المستخدمين حرية تشغيله على خوادمهم الخاصة، إلا أن ذلك لا يُلغي تمامًا المخاطر التي قد ترافقه. فالنموذج، حتى عند تشغيله محليًا، قد يستمر في تقديم إجابات متحيزة أو نشر محتوى يتأثر بأصوله الأولى، كما قد يولد تعليمات برمجية غير آمنة تُمثل تهديدًا مباشرًا على الأنظمة البرمجية المستفيدة منه. شددت مايكروسوفت على أن مصدر النموذج ومحتواه الأصلي يلعب دورًا كبيرًا في تقييم المخاطر، حتى وإن لم يُرسل بياناته إلى الخارج. السوق التنافسي وتأثير Copilot من المثير للاهتمام أن DeepSeek يُعد منافسًا مباشرًا لتطبيق Copilot الذي تطوره مايكروسوفت، ويُستخدم للبحث والإجابة من خلال الذكاء الاصطناعي داخل بيئة مايكروسوفت، مما يفتح الباب أمام تساؤلات حول مدى تأثير الاعتبارات التنافسية في قرار الحظر. فـ Copilot يُعد أحد أهم منتجات الشركة في مجال الذكاء الاصطناعي التوليدي، وتسعى مايكروسوفت لتعزيزه كأداة أساسية للمستخدمين ضمن أنظمتها وخدماتها السحابية. ورغم هذا التنافس المباشر، لم تتبنّ مايكروسوفت سياسة حظر شاملة ضد جميع التطبيقات المنافسة في هذا المجال. على سبيل المثال، لا يزال تطبيق Perplexity، وهو تطبيق دردشة معرفي قائم على الذكاء الاصطناعي، متاحًا عبر متجر ويندوز دون قيود. هل الحظر أمني أم تنافسي؟ يأتي قرار مايكروسوفت وسط تزايد الجدل العالمي حول أدوات الذكاء الاصطناعي وارتباطها بالسياسات العالمية. وبينما تبرر مايكروسوفت قرارها بدوافع أمنية صِرفة، لا يمكن تجاهل عنصر التنافس الذي يُخيّم على المشهد، خاصة في ظل تسابق الشركات الكبرى لتقديم أفضل أدوات الذكاء الاصطناعي للمستخدمين.

سلسلة «Phi 4».. جيل AI جديد من مايكروسوفت ينافس OpenAI
سلسلة «Phi 4».. جيل AI جديد من مايكروسوفت ينافس OpenAI

العين الإخبارية

time٠١-٠٥-٢٠٢٥

  • العين الإخبارية

سلسلة «Phi 4».. جيل AI جديد من مايكروسوفت ينافس OpenAI

تم تحديثه الخميس 2025/5/1 09:01 م بتوقيت أبوظبي في خطوة قد تعيد تشكيل مشهد الذكاء الاصطناعي، أعلنت شركة مايكروسوفت عن إطلاق سلسلة جديدة من نماذج الذكاء الاصطناعي تحت اسم Phi 4، والتي فاجأت الجميع بأدائها العالي رغم أحجامها الصغيرة جداً، في تحدٍّ واضح لعمالقة السوق وفي مقدمتهم OpenAI. السلسلة الجديدة تضم ثلاثة نماذج رئيسية، وهم: Phi-4 mini reasoning، وPhi-4 reasoning، وPhi-4 reasoning plus، وكلها متاحة للمطورين بترخيص مفتوح، ما يعني أن بإمكانهم استخدامها بحرية كاملة والتعديل عليها أيضاً، وفقاً لتقرير نشره موقع TechCrunch. أداء استثنائي في عباءة صغيرة أبرز ما يميز النماذج الجديدة هو قدرتها على تنفيذ مهام معقدة في بيئات محدودة الموارد، دون أن تحتاج إلى بنية تحتية ضخمة. النموذج الأول في السلسلة، Phi-4 mini reasoning، لا يتعدى حجمه 3.8 مليار "معلمة"، ومع ذلك، فإنه يبرع في أداء المهام التعليمية والدروس الخصوصية التفاعلية، خاصة على الأجهزة خفيفة الإمكانيات. وهذا النموذج تم تدريبه على مليون مسألة رياضية تم إنشاؤها باستخدام نموذج R1 التابع لشركة الذكاء الاصطناعي الصينية DeepSeek، مما منحه مهارة عالية في تحليل وتقديم حلول دقيقة. أما النموذج الثاني، Phi-4 reasoning، فيأتي بحجم 14 مليار معلمة، وتم تدريبه على مجموعة مختارة بعناية من بيانات الإنترنت، بالإضافة إلى محتوى تعليمي منسق مستخرج من نموذج O3-mini التابع لـ OpenAI. هذا ما يجعله مرشحًا مثاليًا لتطبيقات في مجالات مثل البرمجة والعلوم والرياضيات. أما النموذج الأقوى، Phi-4 reasoning plus، فهو نسخة مطورة من النموذج السابق، صممت خصيصًا لتقديم دقة أعلى في مجالات محددة. المفاجأة؟ أنه يقترب في أدائه من نموذج R1 الضخم – رغم أن الأخير يحتوي على عدد هائل من المعلمات يصل إلى 671 مليار، مقابل حجم أصغر بكثير للنموذج الجديد من مايكروسوفت. مايكروسوفت.. "نتفوق على الكبار" ووفقاً لاختبارات أجرتها مايكروسوفت داخلياً، فإن Phi-4 reasoning plus أظهر قدرة مذهلة على مجاراة نموذج O3-mini من OpenAI في اختبار OmniMath – أحد أصعب اختبارات الكفاءة الرياضية للنماذج اللغوية. وصرّحت الشركة بأن هذه النماذج صُممت لتكون مثالية للأنظمة التي تتطلب سرعة استجابة دون استنزاف كبير للموارد، مع المحافظة على دقة وقدرة استدلالية قوية. جاهزة للاستخدام الآن وجميع النماذج الثلاثة أصبحت متاحة عبر منصة Hugging Face، مصحوبة بتقارير تقنية مفصلة حول أدائها، ومجالات الاستخدام المناسبة لها، مما يفتح الباب أمام المطورين لتجربتها ودمجها في مشاريعهم الحالية. aXA6IDgyLjI1LjIwOS4xNCA= جزيرة ام اند امز FR

"مايكروسوفت".. نماذج صغيرة تنافس عمالقة الذكاء الاصطناعي
"مايكروسوفت".. نماذج صغيرة تنافس عمالقة الذكاء الاصطناعي

الاتحاد

time٠١-٠٥-٢٠٢٥

  • الاتحاد

"مايكروسوفت".. نماذج صغيرة تنافس عمالقة الذكاء الاصطناعي

في سباق متسارع في مشهد الذكاء الاصطناعي، أعلنت مايكروسوفت عن مجموعة جديدة من نماذج الذكاء الاصطناعي تحت اسم Phi 4، والتي تتميز بحجمها الصغير وأدائها القوي، لتنافس نماذج أكبر وأكثر شهرة مثل o3-mini من OpenAI.وفق موقع "تك كرانش" التقني. من خلال Phi 4، تضع مايكروسوفت نفسها في موقع المنافسة المباشرة مع عمالقة القطاع، مقدمة نماذج مفتوحة المصدر يمكنها التعامل مع مهام معقدة كحل المسائل الرياضية، البرمجة، وتحليل البيانات، وكل ذلك بكفاءة تضاهي نماذج أضخم وأكثر تعقيدًا. اقرأ أيضاً.. مايكروسوفت".. قصة نجاح من الحوسبة إلى الذكاء الاصطناعي والسحابة أكدت مايكروسوفت أنها اعتمدت في تطوير هذه النماذج الجديدة على أساليب تدريب عصرية وتقنيات متطورة مثل "التعلم المعزز" و"التقطير المعرفي"، لضمان الحصول على أداء قوي بالرغم من الحجم الصغير نسبيًا. وأوضحت الشركة أن هدفها الأساسي هو توفير ذكاء اصطناعي قوي حتى للأجهزة التي لا تتمتع بمواصفات تقنية عالية، ما يسمح باستخدامه في بيئات تحتاج إلى رد فعل سريع، مثل الأجهزة المحمولة وتطبيقات إنترنت الأشياء (IoT). 3 نماذج رئيسية: Phi 4 reasoning plus وPhi 4 reasonin و Phi 4 mini reasonin ..جميع هذه النماذج مصنفة ضمن نماذج "الاستدلال" (Reasoning)، والتي تركز على التحقق الدقيق من صحة الحلول للمسائل المعقدة، وهو ما يجعلها مثالية لمهام تتعلق بالرياضيات، العلوم، والبرمجة. تم تدريب Phi 4 mini reasoning كمساعد تعليمي ذكي على مليون مسألة رياضية اصطناعية باستخدام نموذج R1 من شركة DeepSeek الصينية.. ويقدم أدوات تعليمية مثل التدريس التفاعلي على أجهزة خفيفة الوزن، ويتميز بأداء عالي رغم الحجم الصغير. Phi 4 reasoning: النموذج الثاني في السلسلة يضم 14 مليار معلمة، وتم تدريبه على بيانات ويب عالية الجودة إلى جانب عروض مختارة من نموذج o3-mini. يقدم حلولاً في مسائل الرياضيات، البرمجة، والعلوم كما يتميز بأداء متفوق في المجالات التقنية المعقدة. Phi 4 reasoning plus: نموذج يتميز بدقة تضاهي النماذج العملاقة هذا النموذج هو نسخة مطورة من Phi-4 الأصلي، مُهيأ ليحقق دقة أعلى في مهام محددة. يُقارب أداء نموذج R1 (رغم أن الأخير يحتوي على 671 مليار معلمة).في الاختبارات: تساوى تقريبًا مع o3-mini في اختبار OmniMath ويمتاز بقوة أداء هائلة مقابل حجم أصغر. لماذا هذه النماذج مهمة؟ عائلة Phi تقدم لمطوري التطبيقات أدوات ذكاء اصطناعي قوية بحجم صغير، مناسبة لتطبيقات الحوسبة على الحافة (Edge AI) — أي التطبيقات التي تعمل على الأجهزة مباشرة من دون الحاجة لخوادم ضخمة. تهدف مايكروسوفت، من خلال هذه النماذج إلى تمكين المطورين من بناء تطبيقات أسرع، وأخف، وأكثر ذكاءً. مع إطلاق نماذج Phi 4 الجديدة، تثبت مايكروسوفت أنها ماضية بقوة نحو إعادة تشكيل مشهد الذكاء الاصطناعي، ليس فقط من حيث الأداء، بل من خلال تقديم حلول عملية تناسب احتياجات المطورين والتطبيقات الحديثة. وبينما يواصل الذكاء الاصطناعي التوليدي لعب دور أكبر في التعليم، البرمجة، والأعمال، فمن المتوقع أن تصبح نماذج مثل Phi 4 جزءًا أساسيًا من الأدوات المستخدمة لتطوير تطبيقات ذكية تعمل بكفاءة وسرعة على الأجهزة الطرفية. هذه الخطوة قد تفتح الباب أمام موجة جديدة من الابتكار. ومع توافر هذه النماذج عبر منصة Hugging Face، فإن الطريق أصبح ممهدًا أمام مجتمع المطورين لاستكشاف إمكانياتها، وتوظيفها لبناء الجيل القادم من التطبيقات الذكية. لمياء الصديق (أبوظبي)

حمل التطبيق

حمّل التطبيق الآن وابدأ باستخدامه الآن

مستعد لاستكشاف الأخبار والأحداث العالمية؟ حمّل التطبيق الآن من متجر التطبيقات المفضل لديك وابدأ رحلتك لاكتشاف ما يجري حولك.
app-storeplay-store