
يُظهر مهندسو شركة Apple مدى هشاشة 'استدلال' الذكاء الاصطناعي
لبعض الوقت الآن، شركات مثل OpenAI وGoogle
تساعد الهشاشة التي تم إبرازها في هذه النتائج الجديدة في دعم الأبحاث السابقة التي تشير إلى أن استخدام ماجستير إدارة الأعمال لمطابقة الأنماط الاحتمالية يفتقر إلى الفهم الرسمي للمفاهيم الأساسية اللازمة لمهارات التفكير الرياضي الموثوقة حقًا. 'إن طلاب ماجستير القانون الحاليين غير قادرين على التفكير المنطقي الحقيقي'، يفترض الباحثون بناءً على هذه النتائج. 'بدلاً من ذلك، يحاولون تكرار خطوات التفكير التي تمت ملاحظتها في بيانات التدريب الخاصة بهم.'
مزجها
في 'GSM-Symbolic: فهم حدود الاستدلال الرياضي في نماذج اللغات الكبيرة' – متوفر حاليًا
يساعد هذا النهج على تجنب أي 'تلوث بيانات' محتمل يمكن أن ينتج عن إدخال أسئلة GSM8K الثابتة مباشرة في بيانات التدريب الخاصة بنموذج الذكاء الاصطناعي. في الوقت نفسه، لا تغير هذه التغييرات العرضية من الصعوبة الفعلية للاستدلال الرياضي المتأصل، مما يعني أن النماذج يجب أن تؤدي نظريًا أداءً جيدًا على قدم المساواة عند اختبارها على GSM-Symbolic كما هو الحال على GSM8K.
وبدلاً من ذلك، عندما اختبر الباحثون أكثر من 20 ماجستيرًا في إدارة الأعمال (LLM) على نظام GSM-Symbolic، وجدوا انخفاضًا في متوسط الدقة بشكل عام مقارنة بـ GSM8K، مع انخفاض في الأداء يتراوح بين 0.3% و9.2%، اعتمادًا على النموذج. وأظهرت النتائج أيضًا تباينًا كبيرًا عبر 50 تشغيلًا منفصلاً لـ GSM-Symbolic بأسماء وقيم مختلفة. كانت فجوات الدقة التي تصل إلى 15% بين أفضل وأسوأ عمليات التشغيل شائعة في نفس النموذج، ولسبب ما كان تغيير الأرقام يؤدي إلى دقة أسوأ من تغيير الأسماء.
هذا النوع من التباين، سواء ضمن تحليلات GSM-Symbolic المختلفة أو فيما يتعلق بنتائج GSM8K، هو أكثر من مفاجئ لأنه، كما أشار الباحثون، 'خطوات الاستدلال الشاملة اللازمة لحل السؤال تظل كما هي'. حقيقة أن مثل هذه التغييرات الصغيرة تؤدي إلى مثل هذه النتائج المتغيرة تشير إلى الباحثين أن هذه النماذج لا تقوم بالاستدلال 'الرسمي' بل هي 'محاولات'.[ing] لإجراء نوع من مطابقة الأنماط داخل التوزيع، ومواءمة الأسئلة المحددة وخطوات الحل مع تلك المشابهة التي تظهر في بيانات التدريب.
لا تشتت انتباهك
ومع ذلك، فإن التباين الإجمالي المعروض لاختبارات GSM-Symbolic كان في كثير من الأحيان منخفضًا نسبيًا بشكل عام. على سبيل المثال، ارتفعت دقة ChatGPT-4o من OpenAI من 95.2% على GSM8K إلى نسبة مذهلة تبلغ 94.9% على GSM-Symbolic. يعد هذا معدل نجاح مرتفعًا إلى حد ما باستخدام أي من المعيارين، بغض النظر عما إذا كان النموذج نفسه يستخدم أي تفكير 'رسمي' خلف الكواليس (على الرغم من أن الدقة الإجمالية للعديد من النماذج قد انخفضت بشكل كبير عندما أضاف الباحثون خطوة منطقية واحدة أو خطوتين إضافيتين فقط إلى المشكلات ). ).
ومع ذلك، كان أداء امتحانات LLM التي تم اختبارها أسوأ بكثير عندما قام باحثو شركة Apple بتعديل معيار GSM-Symbolic من خلال إضافة 'بيانات تبدو ذات صلة ولكنها في النهاية غير مهمة' إلى الأسئلة. بالنسبة لهذه المجموعة المرجعية 'GSM-NoOp' (اختصار لـ 'no Operation')، يمكن تعديل السؤال حول عدد حبات الكيوي التي يختارها الشخص على مدار عدة أيام ليشمل التفاصيل العرضية التي 'خمسة منها [the kiwis] كانت أصغر قليلا من المتوسط.
وأدت إضافة هذه الخيوط الكاذبة إلى ما أسماه الباحثون 'انخفاضات كارثية في الأداء' في الدقة مقارنة بـ GSM8K، حيث تراوحت من 17.5% إلى 65.7%، اعتمادًا على النموذج الذي تم اختباره. وكتب الباحثون أن هذه الانخفاضات الهائلة في الدقة تسلط الضوء على القيود الكامنة في استخدام 'مطابقة الأنماط' البسيطة 'لتحويل البيانات إلى عمليات دون فهم معناها حقًا'.
'Social media addict. Zombie fanatic. Travel fanatic. Music geek. Bacon expert.'

جرب ميزات الذكاء الاصطناعي لدينا
اكتشف ما يمكن أن يفعله Daily8 AI من أجلك:
التعليقات
لا يوجد تعليقات بعد...
أخبار ذات صلة


شفق نيوز
منذ 5 أيام
- شفق نيوز
غداً الجمعة.. تحذير من انفجارات شمسية تضرب البشر والأقمار والإنترنت
شفق نيوز/ حذر أستاذ الجيولوجيا والموارد المائية بجامعة القاهرة الدكتور عباس شراقي، يوم الخميس، من انفجارات شمسية تصل حرارتها إلى الأرض يوم غد الجمعة وبعد غد السبت، قد تؤثر على الإنسان والأقمار الصناعية والإنترنت وبعض الأجهزة الحيوية الأخرى. وقال شراقي لموقعي "العربية نت"، و"الحدث نت"، إن الانفجارات الشمسية كثرت خلال دورة الشمس الحالية رقم 25 والتي تستغرق 11 عاما وبدأت عام 2019. وأكد الدكتور شراقي، أن ذروة هذه الانفجارات تصل في المنتصف عامي 2024-2025، حيث يتم قياس الانبعاثات بخمس درجات (A,B,C,M,X)، بمقياس لوغاريتمي مثل الزلازل، بحيث تكون B أقوى من A عشر مرات، و C أقوى من A مائة مرة، و X تعادل مليار قنبلة هيدروجينية. وأضاف الخبير المصري، أنه خلال يوم الثلاثاء وفي تمام الساعة 8 مساء بتوقيت القاهرة، تم رصد انفجار شمسي بقوة "X" - الذي يعادل مليار قنبلة هيدروجينية -على سطح الشمس، كما تم رصد 4 انفجارات أخرى غير عادية أمس الأربعاء، من بينها أشد انفجار هذا العام بقوة "X2.7" وثلاثة "M". وأكد الدكتور عباس شراقي، أن هذه الانفجارات تتسبب في انبعاث كتل شمسية مقذوفة (CME) تصل إلى الأرض بسرعة متوسطها 1000 كم/ث، أي تصل إلى سطح الأرض بعد يوم إلى عدة أيام، في رحلة طولها 150 مليون كم، وهي المسافة بين الشمس والأرض، وبالتالي وصولها الجمعة، وانبعاثات أمس القوية تؤدي لارتفاع درجات الحرارة السبت إلى نحو "45 درجة مئوية"، وقد تمتد إلى الأحد بدرجة أقل نسبيا، ويتوقف استمرارها على الانفجارات الشمسية. كما حذر الخبير المصري من تأثيرات التوهج الشمسي الشديدة، مؤكدا أنها قد تؤدي إلى التشويش على الأجهزة الإلكترونية، واحتمالية سقوط بعض الأقمار الصناعية، وتعطل الاتصالات اللاسلكية على الأرض، كما تؤثر على أجهزة الملاحة في الطائرات والسفن، وأجهزة محطات توليد الكهرباء، وأجهزة الكومبيوتر و servers وبالتالي تؤثر على شبكة الإنترنت، وبعض الأجهزة الطبية. أما بالنسبة للإنسان فقد تسبب هذه الظاهرة عددا من الآثار الجانبية السلبية الأخرى المتعلقة بالمزاج والقلق والنشاط الهرموني وغيره. من جدير بالذكر، أنه في كانون الأول/ديسمبر الماضي تأثرت بعض خدمات الاتصالات، وشهد عدد من مستخدمي خدمات بعض تطبيقات التواصل الاجتماعي تعطلاً في الخدمات لعدة ساعات قبل أن تعود لطبيعتها. كما تعطلت خدمات شركة ميتا "فيسبوك وإنستغرام وواتساب"، فضلا عن تطبيق "شات جي بي تي" من شركة OpenAI لفترة وصلت لـ 4 ساعات، قبل أن يتم استعادة الخدمة، فيما أشارت تقارير إلى أن العاصفة الشمسية قد تكون السبب في العطل الذي شعر به بعض مستخدمي خدمات الإنترنت بعدد من بلدان العالم.


وكالة الصحافة المستقلة
منذ 7 أيام
- وكالة الصحافة المستقلة
هواوي تنافس آبل: معالج Kirin X90 قادم للحواسب الذكية
المستقلة/- في خطوة لافتة تعكس طموح شركة هواوي في التوسع نحو سوق الحواسب المحمولة والأجهزة الذكية عالية الأداء، كشفت تسريبات تقنية أن الشركة تعمل على تطوير معالج جديد تحت اسم Kirin X90، سيكون أول معالج مخصص للحواسب من إنتاج قسم HiSilicon التابع لها. وبحسب المعلومات المتداولة على عدة مواقع تقنية، فإن المعالج المرتقب صُمّم ليكون منافسًا قويًا لمعالجات الفئة 'M' التي تطورها شركة آبل، والتي أثبتت تفوقًا كبيرًا في مجال الأداء واستهلاك الطاقة. وسيكون Kirin X90 مخصصًا للعمل على الأجهزة التي تعتمد نظام HarmonyOS، ما يعزز توجه هواوي نحو الاستقلال التقني الكامل. بنية قوية وأداء مرن يتميّز معالج Kirin X90 ببنية هندسية تتكون من 10 أنوية، ما يجعله نسخة مطوّرة عن معالج Kirin 9010 المستخدم حاليًا في هواتف Pura 70. وتوزع هواوي الأنوية في هذا المعالج كما يلي: 4 أنوية أساسية تعتمد على بنية Taishan V121، مخصصة للمهام الثقيلة. 4 أنوية للأداء تعتمد على بنية Taishan V120، متوازنة بين القوة والكفاءة. نواتان موفرتان للطاقة تستندان إلى بنية Cortex-A510، لضمان استهلاك منخفض عند تنفيذ المهام البسيطة. هذا التصميم المتقدم سيمنح المعالج القدرة على توزيع الحمل بذكاء بين الأنوية، اعتمادًا على نوع المهمة المطلوبة، مما يعزز الكفاءة ويطيل عمر البطارية في الأجهزة المحمولة. دعم قوي للذاكرة والتخزين سيتمكن المعالج الجديد من العمل مع ذواكر وصول عشوائي (RAM) من نوع LPDDR5-6400 بسعات تصل إلى 32 غيغابايت، ما يمنحه قدرة كبيرة على معالجة المهام المتعددة. كما سيدعم ذواكر تخزين SSD بسعات تصل إلى 2 تيرابايت، ما يجعله مناسبًا لأجهزة الحواسب عالية الأداء، سواء للمستخدمين العاديين أو المحترفين. ومن حيث الاتصال ونقل البيانات، سيدعم Kirin X90 ما يصل إلى 3 منافذ من نوع USB-4، وهي ميزة مهمة تضعه في مصاف المعالجات المتقدمة عالميًا. خطوة استراتيجية نحو الاستقلال يرى محللون أن تطوير هذا المعالج يشكّل نقلة نوعية لهواوي، التي تسعى منذ سنوات إلى كسر التبعية للمعالجات الغربية بعد العقوبات الأمريكية. كما يعكس تصميم المعالج اعتماد هواوي على بنية مطورة محليًا في معظم الأجزاء، مما يدعم رؤيتها في بناء منظومة تكنولوجية متكاملة مستقلة عن الغرب. وفي حال صدقت هذه التسريبات، فإن هواوي تستعد لمنافسة جدية في سوق المعالجات المخصصة للحواسب المحمولة، وهو سوق تهيمن عليه شركات كبرى مثل Apple وIntel وAMD. ويبقى السؤال: هل يتمكن Kirin X90 من إثبات نفسه فعليًا في اختبارات الأداء على أرض الواقع؟ هذا ما ستكشفه الأيام القادمة مع اقتراب الإعلان الرسمي عن أول حواسب تعمل به.


عصب
٠٧-٠٥-٢٠٢٥
- عصب
واتساب يتوقف عن العمل على 3 أجهزة آيفون شهيرة بدءاً من اليوم
مع قاعدة مستخدمين تتجاوز ملياري شخص حول العالم، يعد واتساب أحد أبرز تطبيقات المراسلة الفورية على الإطلاق، لكن اعتباراً من اليوم، سيتوقف التطبيق المملوك لشركة Meta عن العمل على ثلاثة من أجهزة Apple القديمة، حيث لن يتمكن أصحاب هذه الهواتف من إرسال أو استقبال الرسائل عبر المنصة. الهواتواتستب ف المتأثرة اعتباراً من هذا التغيير، سيقتصر دعم واتساب على الأجهزة التي تعمل بنظام iOS 15.1 أو أحدث، مما يعني أن مستخدمي هواتف iPhone 5s وiPhone 6 وiPhone 6 Plus لن يكون بإمكانهم تشغيل التطبيق بعد الآن. وقد تم تصنيف هذه الطرازات على أنها 'عفا عليها الزمن' من قبل Apple، التي توقفت بدورها عن إصدار التحديثات الأمنية والدعم الفني لها منذ سنوات.