أحدث الأخبار مع #هاوتيانتانغ،


الاتحاد
٢٩-٠٣-٢٠٢٥
- علوم
- الاتحاد
ثورة في توليد الصور بالذكاء الاصطناعي.. أداة جديدة أسرع 9 مرات وتعمل على هاتفك
تمكن باحثون من معهد ماساتشوستس للتكنولوجيا (MIT) وشركة NVIDIA من تطوير أداة جديدة لتوليد الصور تعتمد على الذكاء الاصطناعي، تمتاز بسرعة فائقة وجودة عالية مع استهلاك أقل للطاقة، ويمكن تشغيلها محليًا على أجهزة الحاسوب المحمولة أو الهواتف الذكية. الأداة الجديدة التي تحمل اسم HART (اختصارًا لـ Hybrid Autoregressive Transformer) تمثل دمجًا مبتكرًا بين تقنيتين شائعتين في هذا المجال: النماذج التوليدية التسلسلية (autoregressive) ونماذج الانتشار (diffusion). حيث تعتمد HART على النموذج التسلسلي لرسم الصورة بشكل سريع وإجمالي، ثم تستخدم نموذج الانتشار صغير الحجم لتوضيح التفاصيل الدقيقة وتحسين جودة الصورة. اقرأ أيضاً.. الذكاء الاصطناعي يهدد مستقبل التصوير الفوتوغرافي السرعة والكفاءة وتتميز HART بقدرتها على إنتاج صور تضاهي أو تتفوق على الصور التي تولدها نماذج الانتشار المتقدمة، لكنها تفعل ذلك بسرعة أكبر بنحو تسع مرات، مع تقليل استهلاك الموارد الحاسوبية بنسبة تصل إلى 31% مقارنةً بأحدث النماذج. ويكفي أن يدخل المستخدم وصفًا نصيًا بسيطًا لتقوم الأداة بتوليد الصورة المطلوبة. ويُتوقع أن تفتح هذه التقنية آفاقًا واسعة في عدة مجالات، مثل تدريب السيارات الذاتية القيادة في بيئات افتراضية واقعية، وتصميم مشاهد غنية لألعاب الفيديو، وحتى مساعدة الروبوتات على إتمام مهام معقدة في العالم الحقيقي. يقول الباحث هاوتيان تانغ، المؤلف المشارك في الدراسة: "تمامًا كما يرسم الفنان لوحة من خلال تحديد الشكل العام أولًا، ثم يعود لإضافة التفاصيل الدقيقة بضربات فرشاة صغيرة، هذا ما تفعله HART بالضبط". تحسين الجودة وقد واجه الباحثون تحديات أثناء تطوير الأداة، خاصة في كيفية دمج نموذج الانتشار بطريقة تكمّل عمل النموذج التسلسلي دون أن تؤدي إلى تراكم الأخطاء. وخلصوا إلى أن أفضل طريقة هي استخدام نموذج الانتشار فقط في المرحلة النهائية لمعالجة التفاصيل الدقيقة. ومن أبرز ما يميز HART أنها تعتمد بشكل أساسي على نموذج تسلسلي مشابه للنماذج اللغوية الكبيرة (LLMs) مثل ChatGPT، مما يسهل دمجها مستقبلاً مع نماذج توليدية متعددة الوسائط تجمع بين الرؤية واللغة، وهو ما يمهد الطريق لتطبيقات جديدة مثل شرح خطوات تركيب قطعة أثاث بالصوت والصورة. مستقبل HART ويطمح الفريق البحثي إلى تطوير HART مستقبلًا ليشمل مجالات أوسع مثل توليد الفيديوهات والتنبؤ بالأصوات، مستفيدين من قابلية الأداة للتوسع والعمل عبر وسائط متعددة. وقد تم تمويل هذا البحث من قبل عدة جهات منها مختبر MIT-IBM Watson للذكاء الاصطناعي، ومركز MIT وAmazon Science Hub، وبرنامج MIT لتقنيات الذكاء الاصطناعي، ومؤسسة العلوم الوطنية الأمريكية، كما تبرعت NVIDIA بالبنية التحتية اللازمة لتدريب النموذج. إسلام العبادي(أبوظبي)

عمون
٢٩-٠٣-٢٠٢٥
- علوم
- عمون
في جزء من الثانية .. «هارت» يولد صوراً عالية الجودة عبر الذكاء الاصطناعي
عمون - يُعدُّ توليد صور عالية الجودة بكفاءة تحدياً بالغ الأهمية، خصوصاً للتطبيقات، مثل تدريب السيارات ذاتية القيادة، أو تصميم بيئات ألعاب الفيديو، أو محاكاة سيناريوهات العالم الحقيقي. وفي حين حققت نماذج الذكاء الاصطناعي تقدماً كبيراً في توليد الصور، لا تزال الطرق الحالية تواجه مفاضلة بين السرعة والجودة. نماذج الانتشار (Diffusion Models)، مثل تلك المستخدمة في «DALL-E» و«Stable Diffusion»، تنتج صوراً واقعية مذهلة، لكنها تتطلب قوة حاسوبية كبيرة ووقتاً طويلاً. من ناحية أخرى، النماذج الانحدارية الذاتية (Autoregressive Models) المشابهة لتلك المستخدمة في نماذج اللغة الكبيرة مثل «تشات جي بي تي» (ChatGPT) تولد الصور بسرعة، لكنها غالباً ما تعاني مع التفاصيل الدقيقة، ما يؤدي إلى نتائج مشوهة أو ضبابية. الآن، طور فريق من الباحثين من معهد «ماساتشوستس للتكنولوجيا» (MIT) وشركة «إنفيديا» (NVIDIA) حلّاً مبتكراً يُدعى «هارت» (HART) وهو نموذج ذكاء اصطناعي جديد يجمع بين مزايا الطريقتين لتقديم صور عالية الجودة بسرعات غير مسبوقة. أفضل ما في الطريقتين يعمل «HART» على مبدأ بسيط لكنه قوي. أولاً، يقوم النموذج برسم الخطوط العريضة للصورة بسرعة، ثم يقوم نموذج انتشار صغير بتنقيح التفاصيل، فماذا يعني ذلك؟ يوضح هاوتيان تانغ، طالب الدكتوراه في «MIT»، والمؤلف الرئيسي المشارك للبحث، الأمر بهذه العبارة: «تخيَّل الأمر مثل الرسم». ويتابع: «إذا غطّيت اللوحة كلها دفعة واحدة، فقد تبدو النتيجة خاماً. لكن إذا بدأت برسم عام، ثم نقحته بضربات فرشاة أصغر وأدق، تصبح الصورة النهائية أكثر إتقاناً». تعمل نماذج الانتشار التقليدية عن طريق إزالة الضوضاء من الصورة خطوة بخطوة حتى تظهر صورة واضحة. وهذه العملية تضمن دقة عالية لكنها بطيئة وتستهلك موارد كبيرة. في المقابل، تولد نماذج «هارت» (HART) الصور بشكل تسلسلي، متنبئة بأجزاء صغيرة في كل مرة. وفي حين تكون أسرع، فإنها غالباً ما تفقد تفاصيل مهمة بسبب الضغط. يملأ «HART» هذه الفجوة باستخدام نموذج انحدار ذاتي للتعامل مع الجزء الأكبر من توليد الصورة، ثم تطبيق نموذج انتشار خفيف فقط لتحسين التفاصيل المتبقية، أي تلك العناصر الدقيقة التي تجعل الصورة حية مثل ملمس الشعر، وبريق العين، أو الحواف الدقيقة للأجسام. السرعة دون التضحية بالجودة من أكثر إنجازات «HART» إثارة للإعجاب هي كفاءته. وفي حين تتطلب نماذج الانتشار الحديثة مليارات المعلمات وعشرات الخطوات للتنقيح، يُحقق «هارت» نتائج مماثلة أو حتى أفضل بجزء بسيط من التكلفة الحاسوبية. في الاختبارات، أنتج «HART» صوراً أسرع بتسع مرات من نماذج الانتشار الرائدة، مع الحفاظ على مستوى التفاصيل نفسه. والأكثر إثارة، أنه يفعل ذلك باستخدام طاقة حاسوبية أقل بنسبة 31 في المائة، ما يجعله قابلاً للتشغيل على أجهزة المستهلك العادية، مثل أجهزة اللابتوب أو الهواتف الذكية. يقول تانغ: «نموذج الانتشار في (HART) لديه مهمة أبسط بكثير... فهو يحتاج فقط لتصحيح التفاصيل الدقيقة، وليس الصورة بأكملها، ما يجعل العملية أكثر كفاءة». فتح آفاق جديدة تمتد آثار «HART» إلى ما هو أبعد من مجرد توليد صور أسرع. تصميمه الهجين يجعله شديد التكيف للدمج مع أنظمة الذكاء الاصطناعي متعددة الوسائط، مثل نماذج الرؤية واللغة التي يُمكنها تفسير وتوليد النصوص والصور معاً. تخيَّل أن تطلب من مساعد ذكي أن يرشدك خلال تجميع قطعة أثاث، مع عرض مرئي لكل خطوة في الوقت الفعلي، أو فكِّر في سيارات ذاتية القيادة يتم تدريبها في بيئات افتراضية فائقة الواقعية، تتعلم تجنب المخاطر غير المتوقعة، قبل أن تصل حتى إلى الطريق. سرعة ودقة «HART» مكَّنَتا من جعل هذه التطبيقات ليست ممكنة فحسب، بل عملية أيضاً. في المستقبل، يُخطط الباحثون لتوسيع قدرات «HART»، لتشمل توليد الفيديو وتركيب الصوت، مستفيدين من تصميمه القابل للتوسع لمهام أكثر تعقيداً. خطوة نحو ذكاء اصطناعي أذكى يُمثل «HART» قفزة كبيرة إلى الأمام في مجال الذكاء الاصطناعي التوليدي، مبرهناً على أن السرعة والجودة يجب ألا يكونا متناقضين. من خلال الجمع الذكي بين نقاط قوة النماذج الانحدارية الذاتية ونماذج الانتشار، يفتح الباحثون أبواباً جديدة لتوليد الصور عالية الدقة في الوقت الفعلي، ما يقربنا من مستقبل يمكن فيه للذكاء الاصطناعي أن يدمج الإبداع والكفاءة بسلاسة. هذا البحث، المدعوم من مختبر «MIT-IBM Watson» للذكاء الاصطناعي، ومركز «MIT» و«Amazon للعلوم»، ومؤسسة «العلوم الوطنية الأميركية»، سيُعرض في المؤتمر الدولي حول التمثيلات التعليمية. ومع مزيد من التطوير، قد يصبح «HART» قريباً حجر الزاوية في تطبيقات الذكاء الاصطناعي من الجيل التالي، ما يُعيد تشكيل طريقة تفاعلنا مع الذكاء الاصطناعي والاستفادة منه. الشرق الأوسط