أحدث الأخبار مع #ويكيقوه

تقنيات إنتاج الألحان الموسيقية من مدخلات بيانات مختلفة

مجلة رواد الأعمال

٢١-٠٤-٢٠٢٥

علوم
مجلة رواد الأعمال

تقنيات إنتاج الألحان الموسيقية من مدخلات بيانات مختلفة

طور علماء الكمبيوتر، خلال الآونة الأخيرة، العديد من أدوات التعلم الآلي عالية الأداء لإنتاج النصوص والصور ومقاطع الفيديو والأغاني. حيث صممت معظم هذه النماذج التقنية لإنشاء محتوى بناءً على مدخلات البيانات يقدمها المستخدمون. وأجرى باحثون في جامعة هونغ كونغ للعلوم والتكنولوجيا مؤخرًا نموذج AudioX. وهو نموذج يمكنه توليد مسارات صوتية وموسيقية عالية الجودة باستخدام النصوص ولقطات الفيديو والصور والموسيقى والتسجيلات الصوتية كمدخلات. كما يعتمد نموذجهم، الذي تم تقديمه في ورقة بحثية منشورة على خادم ما قبل الطباعة arXiv، على محول الانتشار. وهي خوارزمية متقدمة للتعلم الآلي. والتي تتبنى آلية المحول لتوليد المحتوى عن طريق إزالة الضوضاء تدريجيًا من البيانات المدخلة التي تتلقاها. دراسات بحثية حول تحويل البيانات إلى موسيقى قال وي شويه؛ المؤلف المقابل للورقة البحثية، لـ موقع Tech Xplore'ينبع بحثنا من سؤال أساسي في الذكاء الاصطناعي: كيف يمكن للأنظمة الذكية تحقيق فهم وتوليد موحد عبر الوسائط؟ 'إن الإبداع البشري هو عملية متكاملة بسلاسة. حيث يتم دمج البيانات من القنوات الحسية المختلفة بشكل طبيعي بواسطة الدماغ. وقد اعتمدت الأنظمة التقليدية في كثير من الأحيان على نماذج متخصصة. وفشلت في التقاط ودمج هذه الروابط الجوهرية بين الطرائق'. بينما استهدفت الدراسة الأخيرة التي قادها 'وي شوي' و'يكي قوه' وزملاؤهما تطوير إطار عمل موحد لتعلم التمثيل. حيث سيسمح هذا الإطار لنموذج فردي بمعالجة المعلومات عبر مسارات متنوعة (أي النصوص والصور ومقاطع الفيديو والمسارات الصوتية). ذلك بدلًا من الجمع بين نماذج متميزة يمكنها فقط معالجة نوع معين من البيانات. قال 'شوي': 'نحن نهدف إلى تمكين أنظمة الذكاء الاصطناعي من تكوين شبكات مفاهيمية متعددة الوسائط مشابهة للدماغ البشري'. Audio X.. نموذج تحويل البيانات إلى موسيقى وأضاف 'يمثل نموذج AudioX الذي ابتكرناه نقلة نوعية تهدف إلى معالجة التحدي المزدوج المتمثل في المواءمة المفاهيمية والزمنية. وبعبارة أخرى. فهو مصمم لمعالجة مسألتي 'ماذا' (المواءمة المفاهيمية) و'متى' (المواءمة الزمنية) في آن واحد. ويتمثل هدفنا النهائي في بناء نماذج عالمية قادرة على التنبؤ، وتوليد تسلسلات متعددة الوسائط تظل متسقة مع الواقع'. يمكن للنموذج الجديد القائم على محول الانتشار الجديد الذي طوره الباحثون توليد مقطوعات صوتية أو ألحان موسيقية عالية الجودة باستخدام أي بيانات. تفتح هذه القدرة على تحويل 'أي شيء' إلى صوت إمكانيات جديدة لصناعة الترفيه والمهن الإبداعية. فعلى سبيل المثال، السماح للمستخدمين بإنشاء موسيقى تناسب مشهدًا مرئيًا معينًا أو استخدام مجموعة من المدخلات (مثل النصوص ومقاطع الفيديو) لتوجيه توليد المقطوعات المرغوبة. وأوضح 'شوي' قائلًا: 'إن AudioX مبني على أساس محول الانتشار. ولكن ما يميزه عن غيره هو إستراتيجية الإخفاء متعدد الوسائط'. 'تعيد هذه الإستراتيجية بشكل أساسي تصور كيفية تعلم الآلات لفهم العلاقات بين أنواع مختلفة من المعلومات. وأضاف 'من خلال إخفاء العناصر عبر طرائق الإدخال أثناء التدريب (أي إزالة انتقائية للبقع من إطارات الفيديو أو الرموز من النص أو المقاطع الصوتية من الصوت). وتدريب النموذج على استعادة المعلومات المفقودة من الطرائق الأخرى. فإننا نخلق مساحة تمثيل موحدة'. وجدير بالذكر أن AudioX هو أحد النماذج الأولى التي جمعت بين الأوصاف اللغوية والمشاهد المرئية والأنماط الصوتية. حيث يلتقط المعنى الدلالي والبنية الإيقاعية لهذه البيانات متعددة الوسائط. أهمية نماذج تحويل النصوص إلى موسيقى كما يسمح تصميمه الفريد من نوعه بإنشاء ارتباطات بين أنواع مختلفة من البيانات. على غرار الطريقة التي يدمج بها الدماغ البشري المعلومات التي تلتقطها الحواس المختلفة. يقول 'شوي' إن AudioX هو النموذج التأسيسي الأكثر شمولًا لتحويل البيانات إلى ألحان موسيقية. مع العديد من المزايا الرئيسية. وهو يعد إطار عمل موحد يدعم المهام المتنوعة للغاية ضمن بنية نموذج واحد. كما أنه يتيح التكامل بين الأنماط من خلال إستراتيجية التدريب متعدد الأنماط المقنعة. ما يخلق مساحة تمثيل موحدة. كما أنه يتمتع بقدرات توليد متعددة الاستخدامات. حيث يمكنه التعامل مع كل من الصوت العام والموسيقى بجودة عالية، ويتم تدريبه على مجموعات بيانات واسعة النطاق بما في ذلك مجموعاتنا المنسقة حديثًا. في الاختبارات الأولية، تبين أن النموذج الجديد الذي ابتكره شيويه وزملاؤه ينتج مقطوعات صوتية وموسيقية عالية الجودة. حيث نجح في دمج النصوص ومقاطع الفيديو والصور والصوت. ومن أبرز ما يميزه أنه لا يجمع بين نماذج مختلفة، بل يستخدم محول انتشار واحد لمعالجة ودمج أنواع مختلفة من بيانات. قال 'شيوي': 'يدعم AudioX مهام متنوعة في بنية واحدة. ذلك بدءًا من تحويل النص/ الفيديو إلى صوت إلى رسم الصوت وإكمال الموسيقى. متقدمًا بذلك على الأنظمة التي تتفوق عادة في مهام محددة فقط'. وأشار 'يمكن أن يكون لهذا النموذج تطبيقات محتملة متنوعة، تمتد عبر إنتاج الأفلام وإنشاء المحتوى والألعاب'. فعلى سبيل المثال، صانع الأفلام لم يعد بحاجة إلى مؤثرات صوتية لكل مشهد'. 'يمكن لـ AudioX توليد خطوات أقدام على الثلج أو صرير الأبواب أو حفيف أوراق الشجر تلقائيًا استنادًا إلى اللقطات المرئية فقط. وبالمثل. كما يمكن استخدامه من قبل المؤثرين لإضافة الموسيقى الخلفية المثالية على الفور إلى مقاطع الفيديو الراقصة على TikTok أو من قبل مستخدمي YouTube لتعزيز مدونات الفيديو الخاصة بهم أثناء السفر مع مشاهد صوتية. ذلك بناء على البيانات المطلوبة. وأخيرًا، يمكن أيضًا استخدام AudioX من قِبل مطوري ألعاب الفيديو لإنشاء ألعاب غامرة ومتكيفة. حيث تتكيف أصوات الخلفية دينامكيًا مع تصرفات اللاعبين. فعلى سبيل المثال، عندما تتحرك الشخصية من أرضية خرسانية إلى العشب، يمكن أن يتغير صوت خطواتها. أو يمكن أن تصبح الموسيقى التصويرية للعبة أكثر توترًا تدريجيًا مع اقترابها من تهديد أو عدو. المقال الأصلي: من هنـا

أحدث الأخبار مع #ويكيقوه

تقنيات إنتاج الألحان الموسيقية من مدخلات بيانات مختلفة

حمّل التطبيق الآن وابدأ باستخدامه الآن