أحدث الأخبار مع #TechXplore


المشهد اليمني الأول
١١-٠٥-٢٠٢٥
- علوم
- المشهد اليمني الأول
روبوت الحياكة قادر على حياكة الملابس بمجرد النظر إلى صورتها
طور الباحثان شينغيو تشنغ ومينغ تشنغ لاو من جامعة لورينتيان الكندية نموذج ذكاء اصطناعي يُمكّن الروبوتات من تحليل صورة الألبسة وحياكة قطعة مماثلة، وصرح الباحثان لموقع 'تيك إكسبلور' (Tech Xplore) بأن 'بحثنا يتناول تحدي أتمتة الحياكة من خلال تحويل صور الأقمشة إلى تعليمات قابلة للقراءة آليا'. وفقا لموقع 'إنترستنغ إنجنيرينغ'. ومفهوم هذا الروبوت أنك تلتقط صورة لسترتك المفضلة وتقدمها للروبوت، وهو يحللها ويبدأ بالحياكة على الفور، وهذا الأمر يعد تحديا بالنسبة للبشر، لأنهم يحتاجون إلى فحص الصورة بعناية وتحديد كل غرزة وكل نمط في النسيج وحياكته بشكل يدوي باستخدام آلة الحياكة، وهذه الخطوة لا تستغرق وقتا طويلا فحسب، بل تتطلب أيضا خبرة ودقة عالية. ولتسهيل تحويل صور الأقمشة والألبسة إلى تعليمات دقيقة لروبوت الحياكة، ابتكر الباحثون إطار عمل يقوم على التعلم العميق، يعمل على خطوتين ويهدف لمحاكاة طريقة تحليل الخبراء لأنماط الأقمشة وتفسيرها. الخطوة الأولى: تحويل صورة القماش المحبوك إلى نسخة أبسط وأوضح تُظهر فقط الأجزاء المهمة من النمط -تخيل الأمر كما لو كنت تحول صورة مفصلة إلى رسم تخطيطي سهل القراءة- وتركز هذه الصورة المبسطة على الغرز التي يمكنك رؤيتها على السطح، ومنها يُنشئ النظام ما يُسمى 'العلامات الأمامية' والتي تعد مفتاح صنع القماش. الخطوة الثانية: يستخدم نموذج الذكاء الاصطناعي هذه 'العلامات الأمامية' لاستنتاج تعليمات حياكة شاملة، بما في ذلك طبقات الغُرز المرئية والخفية، وتُنسّق هذه التعليمات بطريقة تمكن آلات الحياكة من فهمها وتنفيذها مباشرة. وقد اختبر الباحثون نموذج الذكاء الاصطناعي الخاص بهم لإعادة إنشاء أنماط لحوالي 5 آلاف عينة نسيجية، وكانت النتائج مبهرة، وصرح الباحثان المسؤولان عن المشروع: 'حقق نموذجنا دقة تزيد على 97% في تحويل الصور إلى تعليمات حياكة، متفوقا بشكل كبير على الطرق الحالية'، وأضافا 'تعامل النظام بفعالية مع تعقيد الخيوط متعددة الألوان وأنواع الغرز النادرة، والتي كانت تُمثّل تحديا رئيسيا في الطرق السابقة، أما من حيث التطبيقات فإن طريقتنا تتيح إنتاج المنسوجات بشكل آلي بالكامل، مما يُقلل من الوقت وتكاليف العمالة'. ورغم أن هذه التقنية تشكل فرقا في الصناعة، فلها جانب مظلم مستقبلي يتمثل في فقدان الوظائف، إذ توفر صناعة النسيج فرص العمل لأكثر من 75 مليون شخص حول العالم، ويعمل العديد منهم في أدوار صعبة ومنخفضة الأجر مثل الحياكة والخياطة.


مجلة رواد الأعمال
٢١-٠٤-٢٠٢٥
- علوم
- مجلة رواد الأعمال
تقنيات إنتاج الألحان الموسيقية من مدخلات بيانات مختلفة
طور علماء الكمبيوتر، خلال الآونة الأخيرة، العديد من أدوات التعلم الآلي عالية الأداء لإنتاج النصوص والصور ومقاطع الفيديو والأغاني. حيث صممت معظم هذه النماذج التقنية لإنشاء محتوى بناءً على مدخلات البيانات يقدمها المستخدمون. وأجرى باحثون في جامعة هونغ كونغ للعلوم والتكنولوجيا مؤخرًا نموذج AudioX. وهو نموذج يمكنه توليد مسارات صوتية وموسيقية عالية الجودة باستخدام النصوص ولقطات الفيديو والصور والموسيقى والتسجيلات الصوتية كمدخلات. كما يعتمد نموذجهم، الذي تم تقديمه في ورقة بحثية منشورة على خادم ما قبل الطباعة arXiv، على محول الانتشار. وهي خوارزمية متقدمة للتعلم الآلي. والتي تتبنى آلية المحول لتوليد المحتوى عن طريق إزالة الضوضاء تدريجيًا من البيانات المدخلة التي تتلقاها. دراسات بحثية حول تحويل البيانات إلى موسيقى قال وي شويه؛ المؤلف المقابل للورقة البحثية، لـ موقع Tech Xplore'ينبع بحثنا من سؤال أساسي في الذكاء الاصطناعي: كيف يمكن للأنظمة الذكية تحقيق فهم وتوليد موحد عبر الوسائط؟ 'إن الإبداع البشري هو عملية متكاملة بسلاسة. حيث يتم دمج البيانات من القنوات الحسية المختلفة بشكل طبيعي بواسطة الدماغ. وقد اعتمدت الأنظمة التقليدية في كثير من الأحيان على نماذج متخصصة. وفشلت في التقاط ودمج هذه الروابط الجوهرية بين الطرائق'. بينما استهدفت الدراسة الأخيرة التي قادها 'وي شوي' و'يكي قوه' وزملاؤهما تطوير إطار عمل موحد لتعلم التمثيل. حيث سيسمح هذا الإطار لنموذج فردي بمعالجة المعلومات عبر مسارات متنوعة (أي النصوص والصور ومقاطع الفيديو والمسارات الصوتية). ذلك بدلًا من الجمع بين نماذج متميزة يمكنها فقط معالجة نوع معين من البيانات. قال 'شوي': 'نحن نهدف إلى تمكين أنظمة الذكاء الاصطناعي من تكوين شبكات مفاهيمية متعددة الوسائط مشابهة للدماغ البشري'. Audio X.. نموذج تحويل البيانات إلى موسيقى وأضاف 'يمثل نموذج AudioX الذي ابتكرناه نقلة نوعية تهدف إلى معالجة التحدي المزدوج المتمثل في المواءمة المفاهيمية والزمنية. وبعبارة أخرى. فهو مصمم لمعالجة مسألتي 'ماذا' (المواءمة المفاهيمية) و'متى' (المواءمة الزمنية) في آن واحد. ويتمثل هدفنا النهائي في بناء نماذج عالمية قادرة على التنبؤ، وتوليد تسلسلات متعددة الوسائط تظل متسقة مع الواقع'. يمكن للنموذج الجديد القائم على محول الانتشار الجديد الذي طوره الباحثون توليد مقطوعات صوتية أو ألحان موسيقية عالية الجودة باستخدام أي بيانات. تفتح هذه القدرة على تحويل 'أي شيء' إلى صوت إمكانيات جديدة لصناعة الترفيه والمهن الإبداعية. فعلى سبيل المثال، السماح للمستخدمين بإنشاء موسيقى تناسب مشهدًا مرئيًا معينًا أو استخدام مجموعة من المدخلات (مثل النصوص ومقاطع الفيديو) لتوجيه توليد المقطوعات المرغوبة. وأوضح 'شوي' قائلًا: 'إن AudioX مبني على أساس محول الانتشار. ولكن ما يميزه عن غيره هو إستراتيجية الإخفاء متعدد الوسائط'. 'تعيد هذه الإستراتيجية بشكل أساسي تصور كيفية تعلم الآلات لفهم العلاقات بين أنواع مختلفة من المعلومات. وأضاف 'من خلال إخفاء العناصر عبر طرائق الإدخال أثناء التدريب (أي إزالة انتقائية للبقع من إطارات الفيديو أو الرموز من النص أو المقاطع الصوتية من الصوت). وتدريب النموذج على استعادة المعلومات المفقودة من الطرائق الأخرى. فإننا نخلق مساحة تمثيل موحدة'. وجدير بالذكر أن AudioX هو أحد النماذج الأولى التي جمعت بين الأوصاف اللغوية والمشاهد المرئية والأنماط الصوتية. حيث يلتقط المعنى الدلالي والبنية الإيقاعية لهذه البيانات متعددة الوسائط. أهمية نماذج تحويل النصوص إلى موسيقى كما يسمح تصميمه الفريد من نوعه بإنشاء ارتباطات بين أنواع مختلفة من البيانات. على غرار الطريقة التي يدمج بها الدماغ البشري المعلومات التي تلتقطها الحواس المختلفة. يقول 'شوي' إن AudioX هو النموذج التأسيسي الأكثر شمولًا لتحويل البيانات إلى ألحان موسيقية. مع العديد من المزايا الرئيسية. وهو يعد إطار عمل موحد يدعم المهام المتنوعة للغاية ضمن بنية نموذج واحد. كما أنه يتيح التكامل بين الأنماط من خلال إستراتيجية التدريب متعدد الأنماط المقنعة. ما يخلق مساحة تمثيل موحدة. كما أنه يتمتع بقدرات توليد متعددة الاستخدامات. حيث يمكنه التعامل مع كل من الصوت العام والموسيقى بجودة عالية، ويتم تدريبه على مجموعات بيانات واسعة النطاق بما في ذلك مجموعاتنا المنسقة حديثًا. في الاختبارات الأولية، تبين أن النموذج الجديد الذي ابتكره شيويه وزملاؤه ينتج مقطوعات صوتية وموسيقية عالية الجودة. حيث نجح في دمج النصوص ومقاطع الفيديو والصور والصوت. ومن أبرز ما يميزه أنه لا يجمع بين نماذج مختلفة، بل يستخدم محول انتشار واحد لمعالجة ودمج أنواع مختلفة من بيانات. قال 'شيوي': 'يدعم AudioX مهام متنوعة في بنية واحدة. ذلك بدءًا من تحويل النص/ الفيديو إلى صوت إلى رسم الصوت وإكمال الموسيقى. متقدمًا بذلك على الأنظمة التي تتفوق عادة في مهام محددة فقط'. وأشار 'يمكن أن يكون لهذا النموذج تطبيقات محتملة متنوعة، تمتد عبر إنتاج الأفلام وإنشاء المحتوى والألعاب'. فعلى سبيل المثال، صانع الأفلام لم يعد بحاجة إلى مؤثرات صوتية لكل مشهد'. 'يمكن لـ AudioX توليد خطوات أقدام على الثلج أو صرير الأبواب أو حفيف أوراق الشجر تلقائيًا استنادًا إلى اللقطات المرئية فقط. وبالمثل. كما يمكن استخدامه من قبل المؤثرين لإضافة الموسيقى الخلفية المثالية على الفور إلى مقاطع الفيديو الراقصة على TikTok أو من قبل مستخدمي YouTube لتعزيز مدونات الفيديو الخاصة بهم أثناء السفر مع مشاهد صوتية. ذلك بناء على البيانات المطلوبة. وأخيرًا، يمكن أيضًا استخدام AudioX من قِبل مطوري ألعاب الفيديو لإنشاء ألعاب غامرة ومتكيفة. حيث تتكيف أصوات الخلفية دينامكيًا مع تصرفات اللاعبين. فعلى سبيل المثال، عندما تتحرك الشخصية من أرضية خرسانية إلى العشب، يمكن أن يتغير صوت خطواتها. أو يمكن أن تصبح الموسيقى التصويرية للعبة أكثر توترًا تدريجيًا مع اقترابها من تهديد أو عدو. المقال الأصلي: من هنـا