logo
#

أحدث الأخبار مع #DiffusionModels

ChatGPT يقلّد غيبلي: فن مذهل أم انتهاك لحقوق الملكية؟
ChatGPT يقلّد غيبلي: فن مذهل أم انتهاك لحقوق الملكية؟

الغد

time٠٣-٠٤-٢٠٢٥

  • ترفيه
  • الغد

ChatGPT يقلّد غيبلي: فن مذهل أم انتهاك لحقوق الملكية؟

إسراء الردايدة مؤخرًا، غصّت وسائل التواصل الاجتماعي بصور تبدو وكأنها خرجت من فيلم من إنتاج ستوديو غيبلي. صور سيلفي، صور عائلية، وحتى ميمز (meme) أعيد تخيلها بالألوان الهادئة والباستيلية المميزة لأعمال شركة الرسوم المتحركة اليابانية التي أسسها هاياو ميازاكي. اضافة اعلان هذا جاء بعد التحديث الأخير الذي أجرته OpenAI على ChatGPT، حيث حسّن بشكل كبير قدرات توليد الصور في الأداة، مما أتاح للمستخدمين إنتاج صور بأسلوب غيبلي في ثوانٍ معدودة. وقد حظيت هذه الميزة بشعبية جارفة لدرجة أن النظام تعرّض لعطل مؤقت بسبب ضغط المستخدمين، وفقا لموقع " أنظمة الذكاء الاصطناعي التوليدي مثل ChatGPT يمكن فهمها على أنها "محركات أسلوب" (style engines). وما نشهده الآن هو أن هذه الأنظمة باتت تتيح للمستخدمين دقة وتحكمًا غير مسبوقين في المخرجات. لكن هذا التطور يفتح الباب أيضًا أمام أسئلة جديدة ومعقدة تتعلق بحقوق النشر وملكية الإبداع. كيف يصنع ChatGPT الجديد الصور؟ تعمل برامج الذكاء الاصطناعي التوليدي من خلال إنتاج محتوى استجابةً لأوامر المستخدم، بما في ذلك الطلبات الخاصة بإنشاء صور. في الإصدارات السابقة، اعتمدت مولدات الصور على نماذج تُعرف باسم نماذج الانتشار (Diffusion Models)، وهي تقوم بتكرير بيانات عشوائية وضوضائية تدريجيًا إلى أن تتشكل صورة واضحة ومتماسكة. لكن التحديث الأخير لـChatGPT يستخدم ما يُعرف بـخوارزمية توليدية تسلسلية (Autoregressive Algorithm)، وهي مقاربة مختلفة جذريًا. تعامل هذه الخوارزمية الصور بنفس الطريقة التي تتعامل بها مع اللغة، حيث تقوم بتقسيم الصورة إلى وحدات صغيرة تُعرف بـ"الرموز" أو "Tokens". وكما يتنبأ ChatGPT بالكلمات الأكثر احتمالًا في جملة، يمكنه الآن التنبؤ بعناصر بصرية مختلفة داخل الصورة بشكل مستقل. هذه الطريقة في "ترميز الصور" تسمح للخوارزمية بفهم أفضل لخصائص محددة داخل الصورة، وعلاقتها بالكلمات الموجودة في الأمر النصي. والنتيجة؟ قدرة أكبر على توليد صور دقيقة وفقًا لتعليمات المستخدم، مقارنة بالجيل السابق من أدوات توليد الصور. كما أن هذه التقنية تُسهّل عملية استبدال أو تعديل أجزاء محددة من الصورة مع الحفاظ على باقي العناصر، وتحسّن من دقة النصوص المضمّنة داخل الصور، وهي نقطة لطالما كانت تحديًا في النماذج السابقة. وواحدة من أبرز مزايا توليد الصور من داخل نموذج لغوي كبير هي القدرة على الاستفادة من المعرفة المضمّنة مسبقًا في النموذج. هذا يعني أن المستخدم لا يحتاج إلى شرح كل تفصيل صغير في الصورة. يمكنه ببساطة أن يطلب صورة "بأسلوب ستوديو غيبلي"، وسيفهم الذكاء الاصطناعي المرجع فورًا. وبدأت موضة صور "ستوديو غيبلي" مؤخرًا من داخل OpenAI نفسها، قبل أن تنتشر بين مهندسي البرمجيات في وادي السيليكون، ثم تجد طريقها إلى الحكومات والساسة أيضًا. ومن بين الاستخدامات اللافتة: البيت الأبيض استخدم هذه التقنية لإنتاج صورة بأسلوب غيبلي تُظهر امرأة تبكي أثناء ترحيلها. والحكومة الهندية استخدمتها في الترويج لرؤية رئيس الوزراء ناريندرا مودي لما يُعرف بـ"الهند الجديدة". فهم الذكاء الاصطناعي كنظم "توليد الأساليب" لا تخزّن أنظمة الذكاء الاصطناعي التوليدي المعلومات بالطريقة التقليدية المعتادة. بدلاً من ذلك، تقوم بترميز النصوص، والحقائق، وقطع الصور ضمن أنماط – أو ما يُعرف بـ"الأساليب" (styles) – داخل شبكاتها العصبية. وبفضل التدريب على كميات هائلة من البيانات، تتعلم هذه النماذج التعرّف على الأنماط على مستويات متعددة. الطبقات السفلى من الشبكة العصبية قد تلتقط سمات بسيطة مثل العلاقات بين الكلمات أو نسيج الصور. أما الطبقات العليا، فتقوم بترميز مفاهيم أكثر تعقيدًا أو عناصر بصرية متكاملة. وهذا يعني أن كل شيء – الأشياء، الخصائص، الأنواع الأدبية، وحتى نبرة الكتابة المهنية – يتم تحويله إلى أسلوب يمكن للنموذج فهمه وإعادة توليده. فعلى سبيل المثال، عندما يتعلّم الذكاء الاصطناعي عن أعمال ميازاكي (مؤسس ستوديو غيبلي)، فهو لا يقوم بحفظ لقطات معينة من أفلام الاستوديو (رغم أن بعض الصور المنتجة قد تبدو قريبة جدًا من اللقطات الأصلية). بل يقوم بترميز ما يمكن تسميته بـ"روح غيبلي" أو "Ghibli-ness" على شكل نمط رياضي يمكن تطبيقه لاحقًا على صور جديدة. الأمر نفسه ينطبق على مفاهيم مثل "موز"، "قطة"، أو "رسالة بريد إلكتروني رسمية". حيث يتعلّم النموذج "جوهر الموز"، أو "طبيعة القطة"، أو "نمط المراسلات المهنية" كأنماط قابلة للتطبيق. ولطالما كان ترميز الأساليب ونقلها هدفًا صريحًا في أبحاث الذكاء البصري. واليوم، لدينا مولّد صور قادر على تحقيق هذا الهدف بمستوى غير مسبوق من الدقة والتحكّم. هذه المقاربة تفتح آفاقًا مذهلة في الإبداع، سواء على مستوى النصوص أو الصور. فبما أن كل شيء أصبح "أسلوبًا"، يمكن الآن دمج هذه الأساليب بحرية وتبادلها. ولهذا السبب، نُطلق على هذه النماذج وصف "محركات الأسلوب" (Style Engines). جرب مثلًا أن تطلب من النموذج توليد صورة لـ"كرسي بذراعين بأسلوب قطة"، أو "كرسي على الطراز الإلفي (elvish)" – وستُذهلك النتيجة. جدل حقوق النشر: حين تتحول "الأساليب" إلى هوية فنية رغم أن القدرة على التعامل مع الأساليب الفنية هي ما يمنح الذكاء الاصطناعي التوليدي قوته الإبداعية، فإنها أيضًا تقع في صميم جدل متصاعد. بالنسبة لكثير من الفنانين، من المزعج بشدة أن يُختزل أسلوبهم الفني الفريد إلى مجرد "نمط" يمكن لأي شخص استخدامه عبر أمر نصي بسيط. حتى الآن، لم يُدلِ هاياو ميازاكي، المخرج الياباني الشهير ومؤسس ستوديو غيبلي، بأي تعليق علني بشأن ظاهرة توليد الصور بأسلوبه الفني باستخدام ChatGPT. لكنه عبّر سابقًا عن انتقادات تجاه تقنيات الذكاء الاصطناعي. وهذا كله يثير أسئلة جديدة بالكامل تتعلق بحقوق النشر والملكية الإبداعية. بشكل عام، لا تحمي قوانين حقوق النشر الأسلوب الفني بحد ذاته، بل تحمي فقط التعبيرات المحددة عنه. لا يمكنك، على سبيل المثال، تسجيل حقوق ملكية فكرية على نوع موسيقي مثل "السكّا"، أو على حركة فنية مثل "الانطباعية". وهذا القيد القانوني له ما يبرره؛ إذ إن احتكار أحدهم لأسلوب فني بالكامل قد يؤدي إلى خنق الإبداع لدى الآخرين. لكن ثمة فارق بين الأساليب العامة وتلك التي أصبحت مميزة جدًا لدرجة ارتباطها بهوية شخصية لفنان بعينه. فعندما يصبح بإمكان الذكاء الاصطناعي توليد صور "بأسلوب غريغ راتكوفسكي" – وهو فنان بولندي ذُكر اسمه في أكثر من 93,000 طلب ضمن مولد الصور Stable Diffusion – فإن ذلك يشكل تهديدًا مباشرًا لمصدر رزقه وإرثه الفني. تحرك قانوني بالفعل، بدأ بعض المبدعين باتخاذ خطوات قانونية. في أواخر عام 2022، رفع ثلاثة فنانين دعوى قضائية جماعية ضد عدة شركات ذكاء اصطناعي، بدعوى أن مولدات الصور التابعة لها تم تدريبها على أعمالهم الأصلية دون إذن، وهي الآن تتيح للمستخدمين توليد أعمال مشتقة تحاكي أساليبهم الفنية الفريدة. ومع تسارع التطور التكنولوجي مقارنة بتباطؤ القانون، يجري العمل حاليًا على إعداد تشريعات جديدة تحاول الموازنة بين الابتكار التقني وحماية الهوية الإبداعية للفنانين. أياً كانت نتيجة هذه القضايا، فإن هذا الجدل يكشف عن طبيعة الذكاء الاصطناعي التحويلية، ويدعو إلى التأمل في جوانب متعددة منها الإمكانيات الإبداعية الهائلة لمحركات "الأسلوب"، والحاجة الماسّة لوضع ضوابط قانونية دقيقة تحمي الأساليب الفنية المميزة من الانتهاك أو الاستغلال التجاري غير العادل.

في جزء من الثانية .. «هارت» يولد صوراً عالية الجودة عبر الذكاء الاصطناعي
في جزء من الثانية .. «هارت» يولد صوراً عالية الجودة عبر الذكاء الاصطناعي

عمون

time٢٩-٠٣-٢٠٢٥

  • علوم
  • عمون

في جزء من الثانية .. «هارت» يولد صوراً عالية الجودة عبر الذكاء الاصطناعي

عمون - يُعدُّ توليد صور عالية الجودة بكفاءة تحدياً بالغ الأهمية، خصوصاً للتطبيقات، مثل تدريب السيارات ذاتية القيادة، أو تصميم بيئات ألعاب الفيديو، أو محاكاة سيناريوهات العالم الحقيقي. وفي حين حققت نماذج الذكاء الاصطناعي تقدماً كبيراً في توليد الصور، لا تزال الطرق الحالية تواجه مفاضلة بين السرعة والجودة. نماذج الانتشار (Diffusion Models)، مثل تلك المستخدمة في «DALL-E» و«Stable Diffusion»، تنتج صوراً واقعية مذهلة، لكنها تتطلب قوة حاسوبية كبيرة ووقتاً طويلاً. من ناحية أخرى، النماذج الانحدارية الذاتية (Autoregressive Models) المشابهة لتلك المستخدمة في نماذج اللغة الكبيرة مثل «تشات جي بي تي» (ChatGPT) تولد الصور بسرعة، لكنها غالباً ما تعاني مع التفاصيل الدقيقة، ما يؤدي إلى نتائج مشوهة أو ضبابية. الآن، طور فريق من الباحثين من معهد «ماساتشوستس للتكنولوجيا» (MIT) وشركة «إنفيديا» (NVIDIA) حلّاً مبتكراً يُدعى «هارت» (HART) وهو نموذج ذكاء اصطناعي جديد يجمع بين مزايا الطريقتين لتقديم صور عالية الجودة بسرعات غير مسبوقة. أفضل ما في الطريقتين يعمل «HART» على مبدأ بسيط لكنه قوي. أولاً، يقوم النموذج برسم الخطوط العريضة للصورة بسرعة، ثم يقوم نموذج انتشار صغير بتنقيح التفاصيل، فماذا يعني ذلك؟ يوضح هاوتيان تانغ، طالب الدكتوراه في «MIT»، والمؤلف الرئيسي المشارك للبحث، الأمر بهذه العبارة: «تخيَّل الأمر مثل الرسم». ويتابع: «إذا غطّيت اللوحة كلها دفعة واحدة، فقد تبدو النتيجة خاماً. لكن إذا بدأت برسم عام، ثم نقحته بضربات فرشاة أصغر وأدق، تصبح الصورة النهائية أكثر إتقاناً». تعمل نماذج الانتشار التقليدية عن طريق إزالة الضوضاء من الصورة خطوة بخطوة حتى تظهر صورة واضحة. وهذه العملية تضمن دقة عالية لكنها بطيئة وتستهلك موارد كبيرة. في المقابل، تولد نماذج «هارت» (HART) الصور بشكل تسلسلي، متنبئة بأجزاء صغيرة في كل مرة. وفي حين تكون أسرع، فإنها غالباً ما تفقد تفاصيل مهمة بسبب الضغط. يملأ «HART» هذه الفجوة باستخدام نموذج انحدار ذاتي للتعامل مع الجزء الأكبر من توليد الصورة، ثم تطبيق نموذج انتشار خفيف فقط لتحسين التفاصيل المتبقية، أي تلك العناصر الدقيقة التي تجعل الصورة حية مثل ملمس الشعر، وبريق العين، أو الحواف الدقيقة للأجسام. السرعة دون التضحية بالجودة من أكثر إنجازات «HART» إثارة للإعجاب هي كفاءته. وفي حين تتطلب نماذج الانتشار الحديثة مليارات المعلمات وعشرات الخطوات للتنقيح، يُحقق «هارت» نتائج مماثلة أو حتى أفضل بجزء بسيط من التكلفة الحاسوبية. في الاختبارات، أنتج «HART» صوراً أسرع بتسع مرات من نماذج الانتشار الرائدة، مع الحفاظ على مستوى التفاصيل نفسه. والأكثر إثارة، أنه يفعل ذلك باستخدام طاقة حاسوبية أقل بنسبة 31 في المائة، ما يجعله قابلاً للتشغيل على أجهزة المستهلك العادية، مثل أجهزة اللابتوب أو الهواتف الذكية. يقول تانغ: «نموذج الانتشار في (HART) لديه مهمة أبسط بكثير... فهو يحتاج فقط لتصحيح التفاصيل الدقيقة، وليس الصورة بأكملها، ما يجعل العملية أكثر كفاءة». فتح آفاق جديدة تمتد آثار «HART» إلى ما هو أبعد من مجرد توليد صور أسرع. تصميمه الهجين يجعله شديد التكيف للدمج مع أنظمة الذكاء الاصطناعي متعددة الوسائط، مثل نماذج الرؤية واللغة التي يُمكنها تفسير وتوليد النصوص والصور معاً. تخيَّل أن تطلب من مساعد ذكي أن يرشدك خلال تجميع قطعة أثاث، مع عرض مرئي لكل خطوة في الوقت الفعلي، أو فكِّر في سيارات ذاتية القيادة يتم تدريبها في بيئات افتراضية فائقة الواقعية، تتعلم تجنب المخاطر غير المتوقعة، قبل أن تصل حتى إلى الطريق. سرعة ودقة «HART» مكَّنَتا من جعل هذه التطبيقات ليست ممكنة فحسب، بل عملية أيضاً. في المستقبل، يُخطط الباحثون لتوسيع قدرات «HART»، لتشمل توليد الفيديو وتركيب الصوت، مستفيدين من تصميمه القابل للتوسع لمهام أكثر تعقيداً. خطوة نحو ذكاء اصطناعي أذكى يُمثل «HART» قفزة كبيرة إلى الأمام في مجال الذكاء الاصطناعي التوليدي، مبرهناً على أن السرعة والجودة يجب ألا يكونا متناقضين. من خلال الجمع الذكي بين نقاط قوة النماذج الانحدارية الذاتية ونماذج الانتشار، يفتح الباحثون أبواباً جديدة لتوليد الصور عالية الدقة في الوقت الفعلي، ما يقربنا من مستقبل يمكن فيه للذكاء الاصطناعي أن يدمج الإبداع والكفاءة بسلاسة. هذا البحث، المدعوم من مختبر «MIT-IBM Watson» للذكاء الاصطناعي، ومركز «MIT» و«Amazon للعلوم»، ومؤسسة «العلوم الوطنية الأميركية»، سيُعرض في المؤتمر الدولي حول التمثيلات التعليمية. ومع مزيد من التطوير، قد يصبح «HART» قريباً حجر الزاوية في تطبيقات الذكاء الاصطناعي من الجيل التالي، ما يُعيد تشكيل طريقة تفاعلنا مع الذكاء الاصطناعي والاستفادة منه. الشرق الأوسط

حمل التطبيق

حمّل التطبيق الآن وابدأ باستخدامه الآن

مستعد لاستكشاف الأخبار والأحداث العالمية؟ حمّل التطبيق الآن من متجر التطبيقات المفضل لديك وابدأ رحلتك لاكتشاف ما يجري حولك.
app-storeplay-store