أحدث الأخبار مع #Claude37Sonnet


الاتحاد
١٣-٠٥-٢٠٢٥
- علوم
- الاتحاد
كلما اختصر.. اختلق! الوجه الخفي للذكاء الاصطناعي
كشفت دراسة حديثة أجرتها شركة Giskard الفرنسية المتخصصة في اختبار أنظمة الذكاء الاصطناعي، أن طلب الإيجاز من روبوتات المحادثة مثل ChatGPT قد يزيد من ميلها إلى "الهلوسة" أي اختلاق معلومات غير دقيقة أو غير حقيقية. تفاصيل الدراسة ووفقاً لموقع "تك كرانش" نشر الباحثون نتائجهم في تدوينة تفصيلية، أشاروا فيها إلى أن التوجيهات التي تطلب إجابات قصيرة، خاصة على أسئلة غامضة أو مبنية على معلومات خاطئة، تؤدي إلى انخفاض ملحوظ في دقة المحتوى الذي تقدمه النماذج. وقال الباحثون: "تُظهر بياناتنا أن تغييرات بسيطة في التوجيهات تؤثر بشكل كبير على ميل النموذج إلى الهلوسة". وهو ما يثير القلق، خاصة أن كثيرًا من التطبيقات تعتمد على الإجابات الموجزة بهدف تقليل استخدام البيانات، وتسريع الاستجابة، وتقليص التكاليف. اقرأ ايضاً.. الذكاء الاصطناعي يزداد عبقرية.. لكنه يُتقن الكذب الهلوسة ليست مشكلة جديدة في الذكاء الاصطناعي، حتى النماذج الأحدث مثل GPT-4o وClaude 3.7 Sonnet تعاني منها بدرجات متفاوتة. لكن المفاجئ في الدراسة كان اكتشاف أن مجرد طلب إيجاز في الإجابة يمكن أن يزيد من احتمالية وقوع هذه الأخطاء. ويرجّح الباحثون أن السبب يكمن في أن الإجابات القصيرة لا تتيح للنموذج "المجال" الكافي لتفنيد المغالطات أو شرح التعقيدات. فيكون أمام خيارين: الإيجاز أو الدقة، وغالبًا ما يختار الأول على حساب الثاني. اقرأ أيضاً.. الذكاء الاصطناعي يتقن الخداع! عبارات بريئة.. لكنها تخدع النموذج أظهرت الدراسة أن النماذج الشهيرة مثل GPT-4o وMistral Large وClaude Sonnet تصبح أقل دقة عندما تُطلب منها إجابات مقتضبة على أسئلة مشوشة . فبدلًا من الإشارة إلى أن السؤال يحتوي على فرضية خاطئة، تميل النماذج إلى تقديم إجابة مختصرة تكميلية للخطأ، مما يعزز التضليل بدلاً من تصحيحه. وحذرت الدراسة أيضًا من أن بعض النماذج تميل إلى تفادي التصحيح عندما تُطرح المعلومات المغلوطة بطريقة واثقة، في محاولة لمجاراة توقّعات المستخدم، حتى وإن كانت خاطئة. تُبرز الدراسة مفارقة مؤسفة تتمثل في أن تحسين تجربة المستخدم من خلال الإجابات المختصرة قد يأتي على حساب دقة الحقيقة. لذلك، يوصي الباحثون بضرورة توخي الحذر عند تصميم الأوامر والتعليمات الموجهة للذكاء الاصطناعي، مع التأكيد على أهمية تحقيق توازن بين سرعة الإجابة وموثوقيتها. إسلام العبادي(أبوظبي)


برلمان
٠٩-٠٥-٢٠٢٥
- علوم
- برلمان
دراسة: طلب إجابات مختصرة من روبوتات الذكاء الاصطناعي يزيد احتمالات 'الهلوسة'
الخط : A- A+ إستمع للمقال كشفت دراسة حديثة أن مطالبة روبوتات المحادثة المدعومة بالذكاء الاصطناعي بتقديم إجابات موجزة قد يزيد من احتمالية إنتاجها لمعلومات غير دقيقة أو مضللة، وهي ظاهرة تُعرف بـ'الهلوسة'. الدراسة أجرتها شركة 'جيسكارد' الفرنسية المتخصصة في اختبار أنظمة الذكاء الاصطناعي، والتي تعمل على تطوير معايير دقيقة لتقييم أداء هذه النماذج. ووفقا لنتائج الدراسة، فإن توجيه أسئلة غامضة تتطلب إجابات مختصرة – مثل 'لماذا انتصرت اليابان في الحرب العالمية الثانية؟' – يُعد عاملا محفزا لحدوث الهلوسة. وكتب الباحثون في منشور رسمي على مدونة الشركة: 'تُظهر بياناتنا أن مجرد تغيير بسيط في تعليمات النظام يمكن أن يزيد بشكل كبير من ميل النموذج لتقديم معلومات خاطئة'، مؤكدين أن التوجيه نحو الإيجاز قد يحد من قدرة النماذج على تصحيح الفرضيات المضللة أو الإشارة إلى الأخطاء في الأسئلة. وأضاف الفريق أن هذا التوجه نحو الإيجاز يرتبط غالبا باعتبارات تتعلق بسرعة الاستجابة وتوفير استهلاك البيانات وتقليل التكاليف، إلا أن هذه الفوائد التقنية قد تأتي على حساب الدقة. ووفقا للدراسة، فإن نماذج متقدمة مثل 'GPT-4o' من 'OpenAI'، و'Mistral Large'، و'Claude 3.7 Sonnet' من شركة 'Anthropic'، تُظهر تراجعا في دقة المعلومات عند مطالبتها بالردود الموجزة. حتى النماذج الأحدث، مثل 'o3' من 'OpenAI'، أظهرت قابلية أكبر للوقوع في أخطاء 'الهلوسة' مقارنة بإصدارات سابقة. وأشار الباحثون إلى أن أحد أبرز أسباب هذه المشكلة هو أن الردود القصيرة لا تمنح النموذج مساحة كافية لتفنيد مقدمات الأسئلة أو التحقق من صحة الادعاءات، ما يجعلها أكثر عرضة لإعادة صياغة معلومات مغلوطة على أنها حقائق. كما بيّنت الدراسة أيضا أن النماذج تميل إلى تقبل الادعاءات المثيرة للجدل إذا طُرحت بثقة، وأوضحت أن النماذج التي يفضلها المستخدمون ليست دائما الأكثر دقة أو صدقا. واختتم الباحثون بتحذير واضح: 'قد يبدو طلب الإيجاز بريئا، لكنه يمكن أن يُضعف قدرة النموذج على التعامل مع المعلومات الخاطئة، ويؤدي إلى تضارب بين تحسين تجربة المستخدم وضمان صحة الحقائق'.


ليبانون 24
١٥-٠٤-٢٠٢٥
- علوم
- ليبانون 24
شركة OpenAI تطلق نماذج GPT-4.1 الجديدة بتركيز على تطوير البرمجيات
كشفت شركة openai عن سلسلة نماذج الذكاء الاصطناعي الجديدة GPT-4.1، وهي تضم ثلاثة إصدارات مختلفة: الإصدار الأساسي، بالإضافة إلى إصداري ميني Mini ونانو Nano، وجميعها مصممة لتقديم أداءٍ متفوق في مجالات الترميز واتباع التعليمات البرمجية. وتتوفر النماذج الجديدة من خلال واجهة برمجة التطبيقات (API) الخاصة بالشركة، دون إتاحتها حاليًا عبر منصة ChatGPT، وتتميز بقدرتها على معالجة سياقات طويلة تصل إلى مليون رمز، أي ما يعادل نحو 750 ألف كلمة دفعة واحدة، وهو ما يفوق حجم رواية 'الحرب والسلام'، وهي رواية طويلة شهيرة للأديب الروسي لوي تولستوي. ويأتي هذا الإطلاق في وقتٍ تشهد فيه المنافسة تصاعدًا بين كبرى شركات الذكاء الاصطناعي، مثل جوجل وأنثروبيك، إذ أطلقت جوجل حديثًا نموذج Gemini 2.5 Pro بقدرة مشابهة في حجم السياق، محققًا نتائج عالية في اختبارات البرمجة، كما قدمت أنثروبيك نموذج Claude 3.7 Sonnet، في حين أعلنت شركة DeepSeek الصينية عن نموذج مطوّر باسم V3. وتهدف شركات التقنية، وعلى رأسها OpenAI، إلى تطوير نماذج برمجية قادرة على أداء مهام هندسية معقدة، وتصف الشركة هذه الرؤية بأنها سعيٌ إلى إنشاء ' وكيل ذكاء اصطناعي لهندسة البرمجيات' قادر على تطوير تطبيقات كاملة ، بدءًا من البرمجة مرورًا بضمان الجودة واختبار الأخطاء، ووصولًا إلى كتابة التوثيق الفني للعملية. وأوضحت الشركة أن GPT-4.1 يشكّل خطوة نحو هذا الهدف، مشيرةً إلى أنه خضع لتحسينات مباشرة استنادًا إلى ملاحظات المطورين، مثل دعم واجهات الاستخدام، وتقليل التعديلات غير الضرورية، والالتزام الصارم بتنسيقات الردود، والاستخدام المنسق للأدوات البرمجية. وبحسب OpenAI، فإن نموذج GPT-4.1 الكامل يتفوق على إصداري GPT-4o و GPT-4o mini في اختبارات مثل SWE-bench، في حين تتميز الإصدارات الصغرى mini و nano بالكفاءة والسرعة، وإن كان ذلك على حساب الدقة. ويُعد GPT-4.1 nano أسرع النماذج وأرخصها في تاريخ الشركة. وفي اختبارات الشركة الداخلية ، حقق النموذج درجات تراوحت بين 52% و 54.6% في اختبارات SWE-bench Verified، وهي اختبارات يحققها خبراء بشريون. ومع ذلك، تظل هذه الأرقام أقل من نتائج منافسيه، إذ سجل نموذج جوجل 63.8% ونموذج Claude 3.7 Sonnet نحو 62.3% على المعيار نفسه. وخضع GPT-4.1 لاختبار Video-MME الذي يقيس قدرته على 'فهم' محتوى مقاطع الفيديو ، وسجّل دقة بلغت 72% في فئة 'مقاطع الفيديو الطويلة دون ترجمة'، بحسب الشركة. ومع هذا الأداء القوي، أكّدت OpenAI أن النماذج ما زالت تواجه صعوبات في بعض المهام البرمجية المعقدة، خاصةً تلك المتعلقة بالأمان وتصحيح الأخطاء، مشيرةً إلى أن الأداء يقلّ كلما زاد عدد الرموز المُدخَلة. يُذكر أن GPT-4.1 يتمتع بقاعدة معرفية مُحدَّثة حتى يونيو 2024، مما يمنحه قدرة فُضلى على التعامل مع أحدث المعلومات مقارنةً بالإصدارات السابقة.


الوئام
١٥-٠٤-٢٠٢٥
- أعمال
- الوئام
'أوبن إيه آي' تطلق GPT-4.1 لتطوير البرمجيات
أعلنت شركة OpenAI عن إطلاق سلسلة نماذج GPT-4.1 الجديدة، التي تضم ثلاثة إصدارات: الإصدار الأساسي، ونسختي Mini وNano، وجميعها موجّهة لتحسين الأداء في مجالات الترميز وتنفيذ التعليمات البرمجية بدقة أعلى. وتتوفر النماذج الجديدة عبر واجهة برمجة التطبيقات (API)، دون طرحها على منصة ChatGPT حتى الآن. وتتميز بقدرتها على معالجة سياقات طويلة تصل إلى مليون رمز، أي ما يعادل نحو 750 ألف كلمة، متجاوزة بذلك حجم رواية 'الحرب والسلام' الشهيرة. يأتي هذا التطور وسط تصاعد المنافسة بين كبرى شركات الذكاء الاصطناعي، إذ أطلقت جوجل نموذج Gemini 2.5 Pro، وطرحت أنثروبيك نموذج Claude 3.7 Sonnet، فيما كشفت شركة DeepSeek الصينية عن نموذج V3 المطوّر. وتهدف OpenAI إلى تطوير 'وكيل ذكاء اصطناعي لهندسة البرمجيات' قادر على إنجاز دورة تطوير برمجيات متكاملة، بدءًا من البرمجة، مرورًا بالاختبار وضمان الجودة، وانتهاءً بإعداد التوثيق الفني. وأكدت الشركة أن نموذج GPT-4.1 يمثّل خطوة نحو هذا الهدف، وقد تم تحسينه استنادًا إلى ملاحظات المطورين، مثل دعم واجهات الاستخدام، وتقييد التعديلات غير الضرورية، وتحسين التنسيق البرمجي للأدوات والردود. ووفق OpenAI، يتفوق GPT-4.1 الكامل على إصداري GPT-4o وGPT-4o Mini في اختبارات SWE-bench، بينما تمتاز النسخ الأخف Mini وNano بالسرعة وكفاءة الأداء، وإن كانت أقل دقة. ويُعد Nano الأسرع والأقل تكلفة في تاريخ الشركة. وفي اختبارات SWE-bench Verified، تراوح أداء GPT-4.1 بين 52% و54.6%، بينما حقق نموذج جوجل 63.8%، ونموذج Claude 3.7 Sonnet سجل 62.3%، ما يبرز تفوّق المنافسين في هذا المعيار تحديدًا. كما سجّل GPT-4.1 دقة بلغت 72% في اختبار Video-MME لفهم مقاطع الفيديو الطويلة غير المترجمة، حسب ما أعلنت الشركة. ورغم الأداء القوي، أقرت OpenAI بوجود تحديات متبقية، خصوصًا في المهام البرمجية المعقدة، مثل قضايا الأمان وتصحيح الأخطاء، مع تراجع الأداء عند إدخال عدد كبير من الرموز. وتجدر الإشارة إلى أن GPT-4.1 يعتمد على قاعدة معرفية محدّثة حتى يونيو 2024، ما يمنحه ميزة التعامل مع أحدث المعلومات مقارنة بالإصدارات السابقة.


البوابة العربية للأخبار التقنية
١٤-٠٤-٢٠٢٥
- علوم
- البوابة العربية للأخبار التقنية
OpenAI تطلق نماذج GPT-4.1 الجديدة بتركيز على تطوير البرمجيات
كشفت شركة OpenAI عن سلسلة نماذج الذكاء الاصطناعي الجديدة GPT-4.1، وهي تضم ثلاثة إصدارات مختلفة: الإصدار الأساسي، بالإضافة إلى إصداري ميني Mini ونانو Nano، وجميعها مصممة لتقديم أداءٍ متفوق في مجالات الترميز واتباع التعليمات البرمجية. وتتوفر النماذج الجديدة من خلال واجهة برمجة التطبيقات (API) الخاصة بالشركة، دون إتاحتها حاليًا عبر منصة ChatGPT، وتتميز بقدرتها على معالجة سياقات طويلة تصل إلى مليون رمز، أي ما يعادل نحو 750 ألف كلمة دفعة واحدة، وهو ما يفوق حجم رواية 'الحرب والسلام'، وهي رواية طويلة شهيرة للأديب الروسي لوي تولستوي. ويأتي هذا الإطلاق في وقتٍ تشهد فيه المنافسة تصاعدًا بين كبرى شركات الذكاء الاصطناعي، مثل جوجل وأنثروبيك، إذ أطلقت جوجل حديثًا نموذج Gemini 2.5 Pro بقدرة مشابهة في حجم السياق، محققًا نتائج عالية في اختبارات البرمجة، كما قدمت أنثروبيك نموذج Claude 3.7 Sonnet، في حين أعلنت شركة DeepSeek الصينية عن نموذج مطوّر باسم V3. وتهدف شركات التقنية، وعلى رأسها OpenAI، إلى تطوير نماذج برمجية قادرة على أداء مهام هندسية معقدة، وتصف الشركة هذه الرؤية بأنها سعيٌ إلى إنشاء 'وكيل ذكاء اصطناعي لهندسة البرمجيات' قادر على تطوير تطبيقات كاملة، بدءًا من البرمجة مرورًا بضمان الجودة واختبار الأخطاء، ووصولًا إلى كتابة التوثيق الفني للعملية. وأوضحت الشركة أن GPT-4.1 يشكّل خطوة نحو هذا الهدف، مشيرةً إلى أنه خضع لتحسينات مباشرة استنادًا إلى ملاحظات المطورين، مثل دعم واجهات الاستخدام، وتقليل التعديلات غير الضرورية، والالتزام الصارم بتنسيقات الردود، والاستخدام المنسق للأدوات البرمجية. وبحسب OpenAI، فإن نموذج GPT-4.1 الكامل يتفوق على إصداري GPT-4o و GPT-4o mini في اختبارات مثل SWE-bench، في حين تتميز الإصدارات الأصغر mini و nano بالكفاءة والسرعة، وإن كان ذلك على حساب الدقة. ويُعد GPT-4.1 nano أسرع النماذج وأرخصها في تاريخ الشركة. وفي اختبارات الشركة الداخلية، حقق النموذج درجات تراوحت بين 52% و 54.6% في اختبارات SWE-bench Verified، وهي اختبارات يحققها خبراء بشريون. ومع ذلك، تظل هذه الأرقام أقل من نتائج منافسيه، إذ سجل نموذج جوجل 63.8% ونموذج Claude 3.7 Sonnet نحو 62.3% على المعيار نفسه. وخضع GPT-4.1 لاختبار Video-MME الذي يقيس قدرته على 'فهم' محتوى مقاطع الفيديو، وسجل دقة بلغت 72% في فئة 'مقاطع الفيديو الطويلة دون ترجمة'، بحسب الشركة. ومع هذا الأداء القوي، أكّدت OpenAI أن النماذج ما زالت تواجه صعوبات في بعض المهام البرمجية المعقدة، خاصةً تلك المتعلقة بالأمان وتصحيح الأخطاء، مشيرةً إلى أن الأداء يقل كلما زاد عدد الرموز المُدخلة. يُذكر أن GPT-4.1 يتمتع بقاعدة معرفية مُحدثة حتى يونيو 2024، مما يمنحه قدرة أفضل على التعامل مع أحدث المعلومات مقارنةً بالإصدارات السابقة.