منذ 11 ساعات
كيف تفوقت "هواوي" على معالجات "إنفيديا" للذكاء الاصطناعي؟
يوضح أداء بنية مركز بيانات الذكاء الاصطناعي"كلاود ماتريكس 384" من هواوي تقدم الشركة في تجاوز قيود الرقابة التقنية الأميركية.
وفقاً لدراسة فنية، مكّنت بنية مركز البيانات المتقدمة "كلاود ماتريكس 384" من هواوي تكنولوجيز رقائق "أسيند" التي تصنعها الشركة من تجاوز أداء وحدات معالجة الرسومات "H800" من إنفيديا في تشغيل نموذج R1 من "DeepSeek" للذكاء الاصطناعي.
ووصفت الدراسة، التي شارك في إعدادها باحثون من هواوي وشركة "سيليكون فلو" الصينية الناشئة في مجال البنية التحتية للذكاء الاصطناعي، "كلاود ماتريكس 384" بأنه "عقدة فائقة" متخصصة في الذكاء الاصطناعي، مصممة خصيصاً للتعامل مع أعباء عمل الذكاء الاصطناعي المكثفة.
وتوقعت هواوي أن "يعيد كلاود ماتريكس صياغة أسس البنية التحتية للذكاء الاصطناعي"، وفقاً للدراسة التي صدرت هذا الأسبوع. يتألف النظام من 384 وحدة معالجة عصبية (NPU) من طراز "Ascend 910C" و192 وحدة معالجة مركزية لخادم Kunpeng، مترابطة عبر ناقل موحد يوفر نطاقاً ترددياً فائقاً وزمن وصول منخفضاً، بحسب ما ذكره موقع "SCMP"، واطلعت عليه "العربية Business".
ويستفيد حل خدمة نموذج اللغة الكبير (LLM) المتطور، المسمى CloudMatrix-Infer، من هذه البنية التحتية، وفقاً للورقة البحثية. وقد تجاوز أداؤه بعضاً من أبرز أنظمة العالم في تشغيل نموذج DeepSeek الاستدلالي R1 الذي يضم 671 مليار معلمة.
يعكس هذا الهيكل جهود شركة هواوي، الخاضعة لعقوبات أميركية، للتغلب على إجراءات الرقابة التقنية التي تفرضها واشنطن، حيث تسعى الشركة إلى توسيع آفاق أداء أنظمة الذكاء الاصطناعي.
مراكز البيانات هي مرافق تضم خوادم وأنظمة تخزين بيانات عالية السعة، مع مصادر طاقة متعددة واتصالات إنترنت عالية النطاق الترددي. ويستخدم المزيد من الشركات مراكز البيانات لاستضافة أو إدارة البنية التحتية للحوسبة لمشاريع الذكاء الاصطناعي الخاصة بها.
في ما يُسمى بمرحلة التعبئة المسبقة التي تتضمن المعالجة الأولية للمطالبات، وصلت CloudMatrix-Infer إلى معدل إنتاج بلغ 6,688 رمزاً في الثانية لكل وحدة معالجة عصبية (NPU) بطول مطالبة يبلغ 4,000 رمز. وهذا يعادل كفاءة حسابية قدرها 4.45 رمزاً في الثانية لكل تريليون عملية فاصلة عائمة في الثانية (TFLOPs).
الرموز هي الوحدات الأساسية التي تستخدمها أنظمة LLM - وهي التقنية التي تدعم خدمات الذكاء الاصطناعي التوليدي مثل ChatGPT - لمعالجة النصوص. يؤثر طول الرمز بشكل مباشر على التكلفة ووقت المعالجة وقدرة نموذج الذكاء الاصطناعي على فهم التعليمات أو السرديات المعقدة والاستجابة لها.
TFLOPS هو مقياس لسرعة معالجة الحاسوب - وتحديداً قدرته على إجراء حسابات معقدة في مهام مثل تدريب أنظمة الذكاء الاصطناعي.
في مرحلة فك التشفير اللاحقة التي تُنتج مخرجات من نموذج الذكاء الاصطناعي، أظهرت نتائج البحث أن CloudMatrix سجّلت 1943 رمزاً في الثانية لكل وحدة معالجة عصبية (NPU) لذاكرة تخزين مؤقتة ذات قيمة مفتاحية بطول 4000 طول - وهي بنية ذاكرة تُمكّن من استخدام معالجات الذكاء الاصطناعي بكفاءة أكبر.
أظهرت المرحلة نفسها أوقات توليد مخرجات أقل باستمرار من 50 مللي ثانية لكل رمز، مما أسفر عن كفاءة قدرها 1.29 رمزاً في الثانية لكل تيرا فلوب (TFLOPS).
ووفقاً للبحث، تجاوزت هذه المقاييس أداء إطار عمل Nvidia SGLang سريع الخدمة لأنظمة LLMs، والذي يعتمد على وحدة معالجة الرسومات H100 الرائدة من الشركة الأميركية، ونظام آخر يعمل بمعالج R1 من DeepSeek باستخدام معالج H800.
وكانت هذه الدراسة هي المرة الأولى التي تُقدم فيها شركة هواوي، ومقرها شنتشن، رسمياً تفاصيل حول قدرات مُسرّع الذكاء الاصطناعي الرائد Ascend 910C.
كما أنها تُؤكد تصريحات نُشرت مؤخراً لمؤسس هواوي ورئيسها التنفيذي رين تشنغفي، الذي أقر بأن شرائح Ascend التي تنتجها الشركة لا تزال متأخرة عن نظيراتها من الشركات الأميركية المنافسة بجيل كامل. وأضاف، مع ذلك، أن استخدام أساليب مثل "التكديس والتجميع" أدى إلى أداء حوسبي يضاهي أكثر الأنظمة تقدماً في العالم.
بدا أن جينسن هوانغ، مؤسس شركة إنفيديا ورئيسها التنفيذي، يتفق مع تقييم رين. وقال هوانغ الأسبوع الماضي في مقابلة مع قناة "سي إن بي سي" الأميركية على هامش مؤتمر فيفا تيك في باريس: "الذكاء الاصطناعي مشكلة متوازية، لذا إذا لم يكن كل جهاز كمبيوتر قادراً على ذلك... فما عليك سوى إضافة المزيد من أجهزة الكمبيوتر".
وأضاف هوانغ: "ما يقوله هو أنه في الصين، حيث لديهم الكثير من الطاقة، سيستخدمون المزيد من الرقائق". وأضاف أن الصين لا تزال سوقاً مهماً استراتيجياً للولايات المتحدة نظراً للثروة الهائلة من مواهب الذكاء الاصطناعي في ثاني أكبر اقتصاد في العالم.