logo
"SpeechSSM".. نموذج صوتي جديد يولد كلاماً طبيعياً يصل لـ 16 دقيقة

"SpeechSSM".. نموذج صوتي جديد يولد كلاماً طبيعياً يصل لـ 16 دقيقة

طوّرت باحثة من كوريا الجنوبية نموذجاً لغوياً صوتياً جديداً يُعرف باسم "SpeechSSM"، يمكّن من توليد كلام اصطناعي لكنه يبدو طبيعياً ومتواصلاً دون قيود زمنية، ما يُمهّد الطريق لتطوير نماذج صوتية تعمل على مدار الساعة.
ويُعدّ النموذج الجديد خطوة رائدة في تكنولوجيا الذكاء الاصطناعي التي تولد الأصوات، إذ يتغلب على القيود المعروفة للنماذج السابقة في إنتاج محتوى صوتي طويل كالذي تتطلبه برامج بودكاست، والكتب المسموعة، والتطبيقات التفاعلية.
وأفادت ورقة بحثية نشرتها منصة arXive العلمية، بأن الباحثة سي جين بارك، طالبة الدكتوراه في فريق البروفيسور يونج مان رو، بكلية الهندسة الكهربائية، طورت النموذج "SpeechSSM" ضمن مشروع بحثي نُشر على المنصة، ومن المقرر تقديمه خلال مؤتمر تعلم الآلة الدولي ICML لعام 2025.
جيل جديد من تقنيات معالجة اللغة
تبرز النماذج اللغوية الصوتية (SLMs) بوصفها الجيل القادم من تقنيات معالجة اللغة، كونها تتخطى قيود النماذج النصية التقليدية من خلال قدرتها على تعلم الكلام البشري مباشرة دون حاجة لتحويله إلى نص، وتستفيد هذه النماذج من الخصائص الصوتية الفريدة للبشر لإنتاج كلام عالي الجودة بسرعة، حتى في النماذج واسعة النطاق.
لكن النماذج السابقة كانت تواجه تحديات كبيرة في توليد محتوى طويل المدة، بسبب ارتفاع دقة تحليل المقاطع الصوتية واستهلاك الذاكرة أثناء محاولة التقاط التفاصيل الدقيقة عبر تقسيم الكلام إلى أجزاء صغيرة جداً، وكان من الصعب الحفاظ على الاتساق في المعنى ونبرة المتحدث عند التوليد لمدة طويلة.
توليد كلام لمدة طويلة وسرد سليم
النموذج الجديد "SpeechSSM" يعتمد على هيكل "هجيني" يجمع بين طبقات "الانتباه" التي تركز على المعلومات الحديثة، وطبقات "تكرارية" تتيح تذكّر السياق الكامل للنص أو المحادثة، وهذا التصميم يسمح بتوليد كلام يمتد لفترة طويلة مع الحفاظ على تماسك المعنى وسلاسة السرد، دون فقدان الخيط العام أو انحراف عن الموضوع.
وإلى جانب الحفاظ على التماسك السردي، فإن "SpeechSSM" يقلل بشكل كبير من استهلاك الذاكرة والموارد الحاسوبية، إذ لا يتزايد الحمل الحسابي مع زيادة طول المدخلات، ما يجعل النموذج أكثر كفاءة واستقراراً.
ويعالج النموذج تسلسلات الكلام غير المحدودة عبر تقسيم البيانات إلى وحدات زمنية ثابتة وقصيرة (نوافذ)، وتحليل كل واحدة منها بشكل مستقل، ثم دمجها لإنتاج كلام طويل متماسك.
توليد كلام يصل إلى 16 دقيقة
في مرحلة توليد الصوت، يستخدم "SpeechSSM" نموذجاً يُعرف باسم "SoundStorm"، وهو نموذج تركيب صوتي غير تسلسلي (Non-Autoregressive) يتيح إنتاج مقاطع متعددة في آن واحد، على عكس النماذج التقليدية التي تبني الصوت كلمةً بكلمة أو حرفاً بحرف، وهذه التقنية تُسرّع عملية التوليد بشكل كبير دون التضحية بجودة الصوت.
وعلى عكس النماذج السابقة التي غالباً ما كانت تقتصر على توليد مقاطع قصيرة لا تتعدى 10 ثوانٍ، أنشأت الباحثة مجموعة بيانات جديدة تحت اسم "LibriSpeech-Long"، تتيح اختبار قدرات النموذج في توليد كلام يصل إلى 16 دقيقة، ما يمثل إنجازاً مهماً في تقييم قدرات التوليد الصوتي طويل المدى.
ابتكار أدوات تقييم جديدة
إلى جانب تطوير النموذج، قدّمت الباحثة، أدوات تقييم جديدة تعالج قصور المقاييس التقليدية مثل Perplexity (الحيّرة) التي تقتصر على قياس الصحة اللغوية فقط. وتشمل الأدوات الجديدة مقياس "SC-L" (الاتساق الدلالي مع مرور الوقت)، ومقياس "N-MOS-T" (معدل تقييم الطبيعية الصوتية على مدى الزمن)، ما يتيح فهماً أعمق لتماسك وجودة المحتوى الصوتي الناتج.
وأظهرت التقييمات أن الكلام الذي يولده نموذج "SpeechSSM" يحافظ على الشخصيات والأحداث المذكورة في بداية المحتوى، ويضيف شخصيات ومعلومات جديدة بطريقة طبيعية ومتسقة، حتى مع توليد كلام طويل المدة، وهو ما يمثل قفزة نوعية مقارنة بالنماذج السابقة التي كانت تميل إلى التكرار أو فقدان الموضوع مع مرور الوقت.
وقالت الباحثة: "كانت النماذج اللغوية الصوتية التقليدية محدودة في قدراتها على توليد محتوى طويل المدى، وكان هدفنا تطوير نموذج يمكنه دعم الاستخدام البشري الحقيقي عبر توليد كلام طويل ومتسق".
وأضافت: "نعتقد أن هذا الإنجاز سيسهم في تطوير مجالات المحتوى الصوتي وتطبيقات الذكاء الاصطناعي مثل المساعدات الصوتية، من خلال تحسين الاتساق في المحتوى وقدرة النماذج على التفاعل بكفاءة وسرعة في الزمن الحقيقي".
Orange background

جرب ميزات الذكاء الاصطناعي لدينا

اكتشف ما يمكن أن يفعله Daily8 AI من أجلك:

التعليقات

لا يوجد تعليقات بعد...

أخبار ذات صلة

هل وظائفنا بمأمن من الذكاء الاصطناعي؟
هل وظائفنا بمأمن من الذكاء الاصطناعي؟

الرياض

timeمنذ 6 ساعات

  • الرياض

هل وظائفنا بمأمن من الذكاء الاصطناعي؟

في السنوات الأخيرة، لم يعد الحديث عن "الذكاء الاصطناعي" مقتصرًا على المؤتمرات أو المقالات العلمية. أصبح جزءًا حيًا من تفاصيل عملنا اليومي. شخصيًا، أجد نفسي أطرح سؤالًا لم يعد هامشيًا كما كان: هل يمكن أن يأتي يوم يتجاوز فيه الذكاء الاصطناعي دورنا، بل وربما يحل محلنا؟ أستطيع أن ألاحظ بنفسي تغيّرًا ملموسًا في بعض الوظائف، خاصة تلك المتكررة أو الإدارية. بعض المهام التي كانت توكل إلى موظف يجلس لساعات خلف مكتب، كإدخال البيانات أو الرد على الاستفسارات، أصبحت تنفذها برمجيات بمرونة وسرعة، وأحيانًا بدقة تفوق البشر. حتى في بعض التخصصات، مثل الترجمة والمحاسبة، بدأت هذه الأدوات تقتحم المجال بقوة، وتُعيد ترتيب المشهد. في القطاع الصحي، وهو الميدان الأقرب إليّ، شهدتُ بنفسي كيف تغيّرت الممارسات. حضرتُ ملتقى الصحة العالمي 2024 بالرياض، ولا تزال تجربة تحويل محادثة الطبيب مع المريض إلى ملاحظات مكتوبة تلقائيًا عالقة في ذهني. لم تكن مجرّد استعراض تقني، بل خطوة عملية خفّفت من عبء التوثيق، وفتحت للطبيب وقتًا أوسع للتفاعل مع المريض. لكن الصورة ليست سوداوية! في المقابل، نشأت وظائف جديدة لم تكن مألوفة من قبل، مثل مهندسي الذكاء الاصطناعي، أو المتخصصين في أخلاقيات التقنية وحوكمة البيانات. حتى في الصحة، بدأنا نرى من يعمل كأخصائي بيانات سريرية، أو مسؤول عن دمج أنظمة ذكية ضمن بنية نظم المعلومات الصحية. لستُ ممن يرى أن التقنية تلغي الإنسان، لكنها بالتأكيد تدفعنا لإعادة التفكير في أدوارنا وطبيعة عملنا. ولعل السؤال الأدق ليس: هل سيأخذ الذكاء الاصطناعي وظائفنا؟ بل: كيف ستتغير وظائفنا؟ لنكن واقعيين، هل يمكن استبدال التفاعل البشري الحقيقي بخوارزمية؟ لا أعتقد، لا سيما تلك التي تعتمد على الإبداع، أو التفاعل الإنساني، أو الحكم الأخلاقي، أو القيادة. وهنا تبرز قيمة المهارات الإنسانية (soft skills) كالذكاء العاطفي، والتفكير النقدي، والقدرة على التكيّف. بدلاً من التوجس، أرى أن علينا التهيؤ لهذا التغير بهدوء ووعي، لأن مقاومته قد تكون أصعب من مواكبته. الاستعداد لهذا التحول لا يعني تعلم أدوات جديدة فقط، بل تغيير طريقة تفكيرنا تجاه العمل. نحتاج إلى تبنّي عقلية التعلّم المستمر، والقدرة على التجاوب مع المجهول. من وجهة نظري، الذكاء الاصطناعي ليس خصمًا. بل هو أداة تمدنا بالقوة، متى ما استخدمناها بوعي. المستقبل لن يكون للأدوار الرتيبة، بل لمن يملك عقلًا مرنًا، وقلبًا يقظًا، وفضولًا لا يهدأ. وبصفتي أكاديميًا وممارسًا في القطاع الصحي، أرى أن الذكاء الاصطناعي سيغيّر كثيرًا من الممارسات الطبية والإدارية، لكنه لن يُلغي دور الإنسان، بل سيُعيد صياغته من جديد. فالمشكلة ليست في سرعة تطوّر التقنية، بل في مدى قدرتنا نحن على التكيّف، والحفاظ على ما يجعلنا بشرًا في المقام الأول. أستاذ مشارك واستشاري مختبرات علم أمراض الدم

تحذير عاجل من غوغل ومايكروسوفت: أوقفوا استخدام كلمات المرور فوراً !
تحذير عاجل من غوغل ومايكروسوفت: أوقفوا استخدام كلمات المرور فوراً !

عكاظ

timeمنذ 6 ساعات

  • عكاظ

تحذير عاجل من غوغل ومايكروسوفت: أوقفوا استخدام كلمات المرور فوراً !

دعت شركتا غوغل ومايكروسوفت، المستخدمين حول العالم إلى التوقف الفوري عن استخدام كلمات المرور التقليدية، محذرتين من تصاعد المخاطر الأمنية المرتبطة بها، في ظل تطور أدوات الذكاء الاصطناعي المستخدمة في تنفيذ هجمات التصيّد الإلكترونية بشكل دقيق يصعب كشفه حتى من قبل المستخدمين المحترفين. وأشارت الشركتان إلى أن المهاجمين باتوا يعتمدون على منصات مثل « التابعة لشركة Vercel، لإنشاء صفحات تسجيل دخول مزيفة تحاكي بشكل شبه كامل التصميم والمحتوى الخاص بمواقع كبرى مثل Gmail وMicrosoft 365، ما يجعل الضحية يعتقد أنه يتعامل مع الموقع الحقيقي دون أي إشارات تحذيرية. ولتفادي هذه المخاطر، دعت غوغل ومايكروسوفت إلى الاعتماد على تقنية مفاتيح المرور (Passkeys) كبديل أكثر أماناً. وتعمل هذه التقنية من خلال التحقق البيومتري مثل بصمة الإصبع أو الوجه، أو رمز محلي محفوظ على الجهاز، دون الحاجة لإدخال كلمة مرور تقليدية. ويمتاز هذا الأسلوب بمقاومته لهجمات التصيّد، نظراً إلى غياب أي بيانات قابلة للسرقة أثناء عملية الدخول. مايكروسوفت بدأت تنفيذ هذه الإستراتيجية فعلياً من خلال تعزيز استخدام تطبيق «Microsoft Authenticator»، الذي يتيح الدخول الآمن دون كلمة مرور، بينما تسعى غوغل إلى تعميم استخدام مفاتيح المرور وربطها بخدماتها وتطبيقاتها المختلفة، مع تقليل الاعتماد على الرموز النصية المستخدمة في المصادقة الثنائية. وحذر خبراء الأمن السيبراني من التباطؤ في الاستجابة لهذا التوجه، مؤكدين أن استمرار الاعتماد على كلمات المرور التقليدية يفتح الباب أمام موجة متطورة من الاختراقات. ونصحوا بتفعيل مفاتيح المرور فوراً، واستخدام تطبيقات مصادقة موثوقة، وتجنب فتح الروابط المشبوهة. ويعد هذا التحذير من أقوى الإشارات إلى قرب نهاية عصر كلمات المرور، لصالح أنظمة تحقق رقمية أكثر أماناً وتحصيناً ضد الهجمات. أخبار ذات صلة

علوم وتقنيات / السواحة يلتقي بالمبتكرين والمجتمع البحثي السعودي في لندن
علوم وتقنيات / السواحة يلتقي بالمبتكرين والمجتمع البحثي السعودي في لندن

الأنباء السعودية

timeمنذ 8 ساعات

  • الأنباء السعودية

علوم وتقنيات / السواحة يلتقي بالمبتكرين والمجتمع البحثي السعودي في لندن

لندن 17 محرم 1447 هـ الموافق 12 يوليو 2025 م واس التقى معالي وزير الاتصالات وتقنية المعلومات المهندس عبدالله بن عامر السواحة، ضمن زيارته إلى المملكة المتحدة، بمجموعة من المبتكرين وطلبة الدراسات العليا من الكفاءات الوطنية في العاصمة لندن، وذلك في إطار تحفيز مجتمع المبتكرين والعلماء والباحثين لتحقيق تطلعات المملكة للتحول نحو اقتصاد قائم على التقنية والذكاء الاصطناعي والابتكار. حضر اللقاء معالي نائب الوزير المهندس هيثم بن عبدالرحمن العوهلي، والمشرف العام المكلف على هيئة تنمية البحث والتطوير والابتكار الدكتور سلطان بن سعيد، إلى جانب عدد من قيادات منظومة الابتكار. وناقش اللقاء دعم جهود المبتكرين والباحثين ضمن الأولويات الوطنية في البحث والتطوير والابتكار، وتوظيف الإمكانات البحثية في تطوير حلول نوعية تدعم رؤية المملكة 2030، مع التأكيد على دور الكفاءات السعودية بالخارج في الإسهام بمنظومة الابتكار المحلية وتمثيل المملكة في المحافل العلمية الدولية.

حمل التطبيق

حمّل التطبيق الآن وابدأ باستخدامه الآن

هل أنت مستعد للنغماس في عالم من الحتوى العالي حمل تطبيق دايلي8 اليوم من متجر ذو النكهة الحلية؟ ّ التطبيقات الفضل لديك وابدأ الستكشاف.
app-storeplay-store