logo
#

أحدث الأخبار مع #نموذج_لغة

حاجة أدوات الذكاء الاصطناعي لإطار عام لتقييم نماذج اللغة
حاجة أدوات الذكاء الاصطناعي لإطار عام لتقييم نماذج اللغة

ارابيان بيزنس

time١٠-٠٥-٢٠٢٥

  • علوم
  • ارابيان بيزنس

حاجة أدوات الذكاء الاصطناعي لإطار عام لتقييم نماذج اللغة

يشير عاصم حجازي خبير الذكاء الاصطناعي والذي عمل لعقود مع مايكروسوفت في التعريب إلى أن السباق لاختيار أفضل نموذج لغة كبير – ChatGPT، أو Gemini، أو DeepSeek، أو Claude – غالبًا ما يغفل حقيقة بسيطة: لا نملك طريقة موحدة لتقييم هذه النماذج. ويتابع بالقول إن معظم النقاشات على الإنترنت مدفوعة باختبارات سريعة أو حملات ترويجية غير دقيقة، ولا تعد هذه تحليلات واقعية. ويعرض عاصم إطارا لمعالجة هذا الجانب الحيوي لتقييم جودة تلك النماذج بطريقة مدروسة. وبقترح ما أسماها مصفوفة شاملة يقدمها وهي من 20 ركيزة، مُصنفة ضمن 5 فئات أساسية، تضم ما يقرب من 200 من المحاور. هذه المصفوفة ليست مخصصة فقط لتقييم نماذج اللغة الكبيرة الحالية، بل يمكن استخدامها لتقييم المنصات الذكية الرقمية المستقبلية، أو وكلاء الذكاء الاصطناعي، أو أي أنظمة ذكاء اصطناعي توليدية تركز على الإنسان. تكمن أهمية هذا التقييم في أنه يتجاوز ما تعاني منه معظم التقييمات الحالية وأغلبها سطحية، تتجاهل طبقاتٍ أساسية مثل كل من: • نطاق التدريب وجودة البيانات • الاستدلال والاستراتيجية المعرفية • التوطين والمعرفة الثقافية • أساليب تكامل المعرفة • توافق الأجهزة ونشر شرائح الذكاء الاصطناعي • نظام التطبيقات ودعم وكلاء الذكاء الاصطناعي تؤثر هذه العناصر بشكل مباشر على الأداء والثقة وسهولة الاستخدام واستمرارية النماذج على المدى الطويل. ماذا يوجد داخل المصفوفة؟ يُنظم الإطار التقييم في خمس فئات رئيسية: 1. أساسيات التدريب يغطي مصادر البيانات، ونطاق التدريب، ونية سلوك النموذج. 2. سلوك النموذج وذكائه يُحدد أنماط الاستدلال، والتوافق، وتدفق المحادثة، والمزيد. 3. المعرفة، والسياق، والتخصص يُقيّم كيفية تخزين برامج ماجستير علوم البيانات واسترجاعها وتطبيقها عبر المجالات. 4. جاهزية النشر والنظام البيئي يُقيّم تكامل شرائح الذكاء الاصطناعي، ودعم الوكلاء، ومرونة بناء التطبيقات، وعمق التوطين. 5. سهولة الاستخدام وتطبيق السوق يُراجع قدرات ذكاء الأعمال، ومنحنيات التبني، وقابلية التكيف مع حالات الاستخدام. تتضمن كل فئة ركائز واضحة، مثل 'الغرض من التدريب'، و'تكامل قاعدة المعرفة'، و'جاهزية وكلاء الذكاء الاصطناعي'، وتُقسّمها إلى عوامل قابلة للقياس مع عوامل فرعية للتعمق أكثر. أما كيفية الاستخدام فهي كما يلي: • يمكن للمستخدمين التركيز فقط على ما يهمهم – ركيزة واحدة أو حتى عامل فرعي واحد. • يمكن للموردين والباحثين معايرة نماذجهم بشفافية. • يمكن للحكومات أو الشركات الكبيرة وضع معايير تنظيمية أو معايير للمشتريات. • يمكن لمطوري الذكاء الاصطناعي توجيه جهودهم في الضبط الدقيق والتدريب بشكل أفضل ومثال على حالة استخدام واحدة، فقد تجد ما يلي: • يتميز ChatGPT بمتابعة التعليمات والتوجيه الفوري. • قد يتفوق DeepSeek على غيره في التفكير القائم على الكود أو التدريب الفعال من حيث التكلفة. • قد يتألق Gemini في التكامل متعدد الوسائط أو تغطية اللغات. وبدلاً من السؤال 'أي نموذج أفضل'، يمكنك الآن السؤال: 'أفضل لأي ركيزة، ووفقًا لأي معيار ولأي نوع من الاستخدام؟' النتيجة هذا هو الإصدار 1.0 من الإطار، وقد أطلقناه بعشرين ركيزة، ولكن هناك المزيد في الطريق. على سبيل المثال: • مصفوفات متخصصة لنموذج اللغة العربية الكبيرة • إضافات مستقبلية للتفكير العاطفي، والتوافق متعدد الوسائط، وخطوط أساس وعي الذكاء الاصطناعي نشر هذا الإطار ليستفيد منه كل من المطورين والمستخدمين، فهو يعزز الشفافية، والمقارنة الذكية، والفهم العميق في عالمٍ يعتمد على الذكاء الاصطناعي.

حمل التطبيق

حمّل التطبيق الآن وابدأ باستخدامه الآن

مستعد لاستكشاف الأخبار والأحداث العالمية؟ حمّل التطبيق الآن من متجر التطبيقات المفضل لديك وابدأ رحلتك لاكتشاف ما يجري حولك.
app-storeplay-store