logo
دراسة حديثة تكشف أن نماذج الذكاء الاصطناعي تواجه صعوبة في فهم المستندات الطويلة

دراسة حديثة تكشف أن نماذج الذكاء الاصطناعي تواجه صعوبة في فهم المستندات الطويلة

كشفت دراسة حديثة أجراها باحثون من جامعة لودفيغ ماكسيميليان في ميونخ (LMU Munich)، ومركز ميونخ للتعلم الآلي (Munich Center for Machine Learning)، وأدوبي للأبحاث (Adobe Research)، عن ضعف غير مُتوقع في نماذج الذكاء الاصطناعي اللغوية؛ إذ تواجه هذه النماذج صعوبة في استيعاب المستندات الطويلة بنحو كامل، خاصة عند غياب التطابق الحرفي بين الكلمات.
تفاصيل الدراسة:
عند قراءة ورقة بحثية طويلة، يعتمد الإنسان غالبًا على ربط الأفكار بين الأقسام المختلفة لاستيعاب المحتوى. وأما النماذج اللغوية فلا تعمل بهذه الطريقة، بل تعتمد بنحو أساسي على مطابقة الكلمات حرفيًا.
تعتمد النماذج الحالية على آلية تُعرف باسم ' آلية الانتباه' (Attention Mechanism) لمتابعة وفهم العلاقات بين الكلمات. وتعمل هذه الآلية جيدًا مع النصوص القصيرة، لكنها تفقد كفاءتها عند التعامل مع النصوص الطويلة، خصوصًا عندما لا تجد تطابقًا حرفيًا بين الكلمات.
ولتقييم هذه المشكلة، طوّر الباحثون معيارًا جديدًا أطلقوا عليه اسم NOLIMA (No Literal Matching) لاختبار قدرة النماذج على الفهم دون الاعتماد على التطابق الحرفي للكلمات.
أظهرت النتائج أن الأداء ينخفض كثيرًا مع زيادة طول النصوص، فعندما يتجاوز طول النص 2000 كلمة، تبدأ كفاءة النموذج بالتراجع، وعند الوصول إلى 32,000 كلمة – ما يعادل حجم كتاب قصير – يتراجع الأداء إلى النصف تقريبًا.
شملت الاختبارات نماذج بارزة مثل: GPT-4o و Gemini 1.5 Pro و Llama 3 70B، وتمكن نموذج GPT-4o من الحفاظ على أدائه الجيد حتى 8000 رمز (ما يقارب 6000 كلمة) لكن كفاءته بدأت تقل بعد هذا الحد. وأما نماذج Gemini 1.5 Pro وLlama 3 70B فقد انخفض أداؤها بعد 2000 رمز فقط.
إلى ماذا تشير النتائج؟
أظهر اختبار NOLIMA أن النماذج اللغوية تواجه صعوبة في:
ربط المفاهيم المختلفة عند استخدام مصطلحات متنوعة.
تنفيذ سلاسل التفكير المتعددة الخطوات بنحو صحيح.
تجاهل التشابهات المضللة الناتجة عن كلمات متطابقة لكنها غير مرتبطة بالسياق.
وتشير هذه النتائج إلى أن الإعلانات التسويقية التي تتحدث عن قدرة النماذج في التعامل مع النصوص الطويلة قد تكون مضللة؛ إذ يتراجع الأداء الفعلي للنموذج قبل بلوغ الحدود النظرية التي تعلنها الشركات.
كما تعكس هذه النتائج تحديات عملية خطيرة؛ إذ يمكن أن يؤدي هذا الضعف في فهم المستندات الطويلة إلى مشكلات كبيرة في التطبيقات الحساسة مثل تحليل السجلات الطبية أو مراجعة المستندات القانونية، فقد تفشل نماذج الذكاء الاصطناعي في العثور على سوابق قانونية مهمة إذا كانت مكتوبة بصيغة مختلفة عن الاستعلام، حتى وإن كانت مرتبطة جوهريًا بالقضية.
وللتغلب على هذه المشكلة، ينصح الباحثون المستخدمين باتباع النصائح التالية:
تقسيم المستندات الطويلة إلى أجزاء صغيرة.
كتابة مطالبات واضحة عند الاستفسار عن محتوى معين.
مراجعة المحتوى الذي يقدمه النموذج لضمان الدقة، خاصةً في المهام الحساسة.
الخلاصة
تُسلط الدراسة الضوء على الحاجة إلى إعادة التفكير في آلية تحليل النصوص التي تعتمد عليها نماذج الذكاء الاصطناعي حاليًا، والتي تركز بنحو أساسي على تطابق الكلمات حرفيًا، وكلما زاد طول النص، أصبح من الصعب على النموذج تتبع الأفكار التي يناقشها النص وربطها ببعضها، تمامًا كما يجد الإنسان صعوبة في تذكر النقاط الرئيسية عند إجراء محادثة طويلة.
وتؤكد الدراسة أهمية التعامل بحذر مع هذه النماذج في المهام التي تتطلب تحليلًا عميقًا للمستندات المعقدة، وتدعو إلى استمرار الرقابة البشرية لضمان الدقة والموثوقية.
ومع أن شركات التكنولوجيا تعمل على تحسين آليات الفهم لدى نماذج الذكاء الاصطناعي باستمرار، فإن الإنسان سيظل الأفضل في استيعاب المعاني وربط الأفكار عند التعامل مع النصوص الطويلة.

Orange background

جرب ميزات الذكاء الاصطناعي لدينا

اكتشف ما يمكن أن يفعله Daily8 AI من أجلك:

التعليقات

لا يوجد تعليقات بعد...

أخبار ذات صلة

هدية OpenAI للمبرمجين: إتاحة نماذج GPT-4.1 بـ ChatGPT
هدية OpenAI للمبرمجين: إتاحة نماذج GPT-4.1 بـ ChatGPT

عرب هاردوير

time١٥-٠٥-٢٠٢٥

  • عرب هاردوير

هدية OpenAI للمبرمجين: إتاحة نماذج GPT-4.1 بـ ChatGPT

على حسابها الرسمي بمنصة X ، أعلنت OpenAI عن إتاحة نموذجيّ GPT-4.1 وGPT-4.1 mini داخل تطبيق ChatGPT. نموذج المبرمجين النموذج الجديد GPT-4.1 موجَّه بشكل خاص للمبرمجين، حيث يُفترض أن يُحدث فارقًا واضحًا في كتابة الكود وتصحيحه، بحسب ما أوضحه المتحدث باسم الشركة شاوكيي أمدو في تصريح لموقع TechCrunch. ووفقًا لـ OpenAI، يتميز GPT-4.1 بقدرات أفضل على مستوى البرمجة واتباع التعليمات مقارنةً بـ GPT-4o، مع سرعة أعلى من نماذج السلسلة "o" الخاصة بالاستدلال. نموذج مدفوع وآخر مجاني حالياً، بدأت OpenAI في طرح النموذج لمشتركي الخطط المدفوعة، بينما سيكون الإصدار المُصغر GPT-4.1 mini متاحًا مجانًا لجميع الخطط بما في ذلك المجانية. ومن نتائج هذا التحديث، قررت الشركة إزالة نموذج GPT-4.o mini من التطبيق لجميع المستخدمين، كما ورد في بيان الإصدار الرسمي. اللافت أن النموذجين قد تم طرحهما منذ أبريل الماضي عبر واجهة برمجة التطبيقات الخاصة بالمطورين API، لكن دون توفرهما في التطبيق المباشر حينها. جرت تلك الخطوة وسط انتقادات من بعض الباحثين في مجال الذكاء الاصطناعي، الذين اعتبروا أن OpenAI بدأت تتهاون في معايير الشفافية الخاصة بالأمان. لكن OpenAI كان لها رأي آخر. إذ شدّدت على أن GPT-4.1، رغم تفوقه في الأداء والسرعة مقارنة بـ GPT-4o ، لا يُعتبر من النماذج القوية جدًا (نماذج الصف الأول Frontier Models على حد وصفها)، وبالتالي لا يخضع لنفس المتطلبات الصارمة. رئيس أنظمة الأمان في OpenAI، يوهانس هايديكي، أوضح عبر منشور على X أن النموذج لا يُقدم طرق تفاعل جديدة أو قدرات تفوق نموذج o3 من حيث الذكاء، ما يجعل اعتبارات الأمان المرتبطة به أقل حدة. وفي محاولة لامتصاص موجة القلق، أعلنت OpenAI كذلك عن تدشين "مركز تقييمات الأمان Safety Evaluations Hub" الجديد، وهو منصة ستعرض من خلالها نتائج اختبارات الأمان الداخلية لجميع نماذجها، كجزء من التزامها المتزايد بالشفافية. الجدير بالذكر أن سوق أدوات البرمجة المعتمدة على الذكاء الاصطناعي يشهد اشتدادًا في المنافسة، خاصة وأن OpenAI باتت قريبة من الاستحواذ على Windsurf -أحد أبرز أدوات البرمجة بالذكاء الاصطناعي- مقابل 3 مليارات دولار، وذلك في نفس الوقت الذي قامت فيه Google بجعل Gemini أكثر تكاملًا مع مشاريع GitHub. برأيك؛ هل تؤثر مثل هذه الخطوات على وظائف المبرمجين أم العكس؟ شاركنا رأيك.

كلما اختصر.. اختلق! الوجه الخفي للذكاء الاصطناعي
كلما اختصر.. اختلق! الوجه الخفي للذكاء الاصطناعي

الاتحاد

time١٣-٠٥-٢٠٢٥

  • الاتحاد

كلما اختصر.. اختلق! الوجه الخفي للذكاء الاصطناعي

كشفت دراسة حديثة أجرتها شركة Giskard الفرنسية المتخصصة في اختبار أنظمة الذكاء الاصطناعي، أن طلب الإيجاز من روبوتات المحادثة مثل ChatGPT قد يزيد من ميلها إلى "الهلوسة" أي اختلاق معلومات غير دقيقة أو غير حقيقية. تفاصيل الدراسة ووفقاً لموقع "تك كرانش" نشر الباحثون نتائجهم في تدوينة تفصيلية، أشاروا فيها إلى أن التوجيهات التي تطلب إجابات قصيرة، خاصة على أسئلة غامضة أو مبنية على معلومات خاطئة، تؤدي إلى انخفاض ملحوظ في دقة المحتوى الذي تقدمه النماذج. وقال الباحثون: "تُظهر بياناتنا أن تغييرات بسيطة في التوجيهات تؤثر بشكل كبير على ميل النموذج إلى الهلوسة". وهو ما يثير القلق، خاصة أن كثيرًا من التطبيقات تعتمد على الإجابات الموجزة بهدف تقليل استخدام البيانات، وتسريع الاستجابة، وتقليص التكاليف. اقرأ ايضاً.. الذكاء الاصطناعي يزداد عبقرية.. لكنه يُتقن الكذب الهلوسة ليست مشكلة جديدة في الذكاء الاصطناعي، حتى النماذج الأحدث مثل GPT-4o وClaude 3.7 Sonnet تعاني منها بدرجات متفاوتة. لكن المفاجئ في الدراسة كان اكتشاف أن مجرد طلب إيجاز في الإجابة يمكن أن يزيد من احتمالية وقوع هذه الأخطاء. ويرجّح الباحثون أن السبب يكمن في أن الإجابات القصيرة لا تتيح للنموذج "المجال" الكافي لتفنيد المغالطات أو شرح التعقيدات. فيكون أمام خيارين: الإيجاز أو الدقة، وغالبًا ما يختار الأول على حساب الثاني. اقرأ أيضاً.. الذكاء الاصطناعي يتقن الخداع! عبارات بريئة.. لكنها تخدع النموذج أظهرت الدراسة أن النماذج الشهيرة مثل GPT-4o وMistral Large وClaude Sonnet تصبح أقل دقة عندما تُطلب منها إجابات مقتضبة على أسئلة مشوشة . فبدلًا من الإشارة إلى أن السؤال يحتوي على فرضية خاطئة، تميل النماذج إلى تقديم إجابة مختصرة تكميلية للخطأ، مما يعزز التضليل بدلاً من تصحيحه. وحذرت الدراسة أيضًا من أن بعض النماذج تميل إلى تفادي التصحيح عندما تُطرح المعلومات المغلوطة بطريقة واثقة، في محاولة لمجاراة توقّعات المستخدم، حتى وإن كانت خاطئة. تُبرز الدراسة مفارقة مؤسفة تتمثل في أن تحسين تجربة المستخدم من خلال الإجابات المختصرة قد يأتي على حساب دقة الحقيقة. لذلك، يوصي الباحثون بضرورة توخي الحذر عند تصميم الأوامر والتعليمات الموجهة للذكاء الاصطناعي، مع التأكيد على أهمية تحقيق توازن بين سرعة الإجابة وموثوقيتها. إسلام العبادي(أبوظبي)

حل متاهة نماذج «تشات جي بي تي».. «OpenAI» تكشف الخيار الأمثل لكل مهمة
حل متاهة نماذج «تشات جي بي تي».. «OpenAI» تكشف الخيار الأمثل لكل مهمة

العين الإخبارية

time٠٧-٠٥-٢٠٢٥

  • العين الإخبارية

حل متاهة نماذج «تشات جي بي تي».. «OpenAI» تكشف الخيار الأمثل لكل مهمة

كشفت شركة OpenAI عن وثيقة دعم جديدة تقدم إرشادات واضحة حول أفضل استخدام لكل نموذج من نماذج الذكاء الاصطناعي التابعة لها، خاصة فيما يتعلق بإصدارات "تشات جي بي تي". وتهدف هذه الخطوة إلى مساعدة المستخدمين، سواء من مشتركي خدمة ChatGPT Enterprise أو من مستخدمي النسخة المجانية، على اختيار النموذج الأنسب لاحتياجاتهم اليومية. ورغم أن المنصة تتيح منذ فترة إمكانية التنقل بين النماذج المختلفة، فإن غياب دليل واضح كان يربك المستخدمين بشأن الفروق الدقيقة بين هذه النماذج، وهو ما تسعى الوثيقة الجديدة إلى حله. GPT-4o.. النموذج المثالي للمهام اليومية وفقًا لـ OpenAI، فإن نموذج GPT-4o يعد الخيار الأكثر توازنًا وكفاءة للاستخدامات العامة واليومية، مثل تلخيص الاجتماعات، وكتابة رسائل البريد الإلكتروني، وتوليد الأفكار الإبداعية. كما يتميز بسرعة الاستجابة وسلاسة المحادثة، بالإضافة إلى قدرته على تحليل الملفات والصور فورياً. GPT-4.5.. للتواصل العاطفي والنبرة الإنسانية للمهام التي تتطلب تعاطفًا إنسانيًا أو نبرة عاطفية راقية، مثل كتابة منشور جذاب على LinkedIn أو صياغة رسالة اعتذار. حيث توصي OpenAI باستخدام نموذج GPT-4.5، المتاح فقط للمستخدمين المدفوعين. ويتميز هذا النموذج بتفوقه في صياغة نصوص ذات طابع إنساني وتسويقي، رغم تقاطعه أحيانًا مع GPT-4o في المهام الإبداعية. o3.. النموذج التحليلي لأصحاب القرارات إذا كانت المهام تتعلق بتحليل الأسواق، أو وضع خطط استراتيجية، أو حل مسائل رياضية متقدمة، فإن نموذج o3 هو الأنسب، بفضل قدرته على الاستدلال المنطقي المتسلسل ومعالجة الخطوات واحدة تلو الأخرى لإنتاج نتائج دقيقة. o4-mini.. للمهام التقنية والعلمية o4-mini: مخصص لتحليل البيانات، إصلاح الشيفرات البرمجية، وتلخيص الأبحاث العلمية. o4-mini-high: يمتاز بقدرته على تبسيط المفاهيم المعقدة وتقديم شروحات دقيقة في مجالات البرمجة والعلوم. وبحسب OpenAI، فإن هذا التصنيف يساعد المستخدمين على اختيار النموذج الأنسب لتوفير الوقت والموارد، وتحقيق نتائج أكثر دقة وفعالية، سواء كانوا مطورين أو صانعي محتوى أو محللي بيانات. aXA6IDgyLjI1LjI1NS4xNzAg جزيرة ام اند امز FR

حمل التطبيق

حمّل التطبيق الآن وابدأ باستخدامه الآن

مستعد لاستكشاف الأخبار والأحداث العالمية؟ حمّل التطبيق الآن من متجر التطبيقات المفضل لديك وابدأ رحلتك لاكتشاف ما يجري حولك.
app-storeplay-store