هذه هي أول مرة لطرح واجهة برمجة تطبيقات لنموذج "Sora"
أعلنت شركة مايكروسوفت ، يوم الاثنين، أن نموذج الذكاء الاصطناعي "Sora" لإنشاء الفيديو من نص سيكون متاحًا بمنصتها "Azure AI Foundry" الأسبوع المقبل.
وتتيح منصة "Azure AI Foundry" -وهي جزء من منظومة سحابة "Azure" لمياكروسوفت- للمطورين الوصول إلى أكثر من 1,900 نموذج ذكاء اصطناعي لمختلف الاستخدامات، بما في ذلك تطوير ونشر حلول الذكاء الاصطناعي والتطبيقات.
لكن المنصة تفتقر حاليًا إلى نماذج الذكاء الاصطناعي لإنشاء الفيديو من النص، بحسب تقرير لموقع "Neowin" المتخصص في أخبار التكنولوجيا، اطلعت عليه "العربية Business".
وهذه النماذج متوفرة بالفعل في منصات منافسة، على سبيل المثال تضم منصة الحوسبة السحابية "AWS" -التابعة لأمازون- واجهة برمجة تطبيقات "Nova Reels"، وتضم منصة الحوسبة السحابية "Google Cloud" واجهة برمجة تطبيقات نموذج "VEO".
ويوم الاثنين، أعلنت "مايكروسوفت"، خلال مؤتمر السنوي للمطورين "Build"، أن "Azure AI Foundry" ستستضيف واجهة برمجة تطبيقات نموذج "Sora"، الذي طورته شركة "OpenAI".
وأعلنت "مايكروسوفت" أيضًا عن قسم "Video Playground" بمنصة "Azure AI Foundry"، حيث يمكن للمطورين تجربة نماذج إنشاء الفيديو مثل "Sora".
وسيتمكن المطورون من تخصيص نسبة العرض إلى الارتفاع، والدقة، ومدة مقاطع الفيديو المُولدة. إضافةً إلى ذلك، سيتمكن المطورون من الوصول إلى "Sora" عبر خدمة "Azure OpenAI" المخصصة للنماذج التي طورتها "OpenAI"، مما يسمح لهم بدمجها في تطبيقاتهم.
وتعتمد "مايكروسوفت" على "OpenAI" لتلبية جميع احتياجاتها المتقدمة في مجال الذكاء الاصطناعي. وعلى الرغم من أن "OpenAI" طورت نموذج إنشاء الفيديو "Sora"، إلا أنه لم يُطرح بعد كواجهة برمجة تطبيقات للمطورين.
ومع ذلك، يمكن لعملاء خطة "ChatGPT Premium" بروبوت الدردشة "شات جي بي تي" -الذي طورته "OpenAI"- استخدام "Sora" لإنشاء فيديوهات عبر مُدخلات نصية.
وبسبب الموارد الكبيرة المطلوبة من وحدات معالجة الرسوميات (GPU) لجعل "Sora" متاحًا لجميع مستخدمي "شات جي بي تي" والمطورين، لم تُطلق "OpenAI" النموذج على نطاق واسع حتى الآن، رغم إصداره في ديسمبر 2024.

جرب ميزات الذكاء الاصطناعي لدينا
اكتشف ما يمكن أن يفعله Daily8 AI من أجلك:
التعليقات
لا يوجد تعليقات بعد...
أخبار ذات صلة


أرقام
منذ 38 دقائق
- أرقام
الرئيس التنفيذي لإنفيديا: القيود الأمريكية على صادرات الرقائق فشلت
أعلن جنسن هوانغ، الرئيس التنفيذي لشركة إنفيديا، الأربعاء أنّ القيود التي فرضتها واشنطن على صادرات الرقائق الإلكترونية إلى الصين "فشلت" بسبب نجاح الشركات في العملاق الآسيوي في تطوير تقنيات محلية. وقال هوانغ للصحافيين في معرض كومبيوتكس للتكنولوجيا في تايبيه إنّ "الشركات المحلية (الصينية) موهوبة للغاية ومصمّمة للغاية، والرقابة على الصادرات منحتها العقلية والطاقة والدعم الحكومي لتسريع تطورها". وأضاف "أعتقد، بشكل عام، أنّ القيود على التصدير كانت فاشلة". وفي عهد الرئيس السابق جو بايدن (2021-2025)، حظرت الولايات المتحدة بصورة كاملة أو جزئية تصدير الرقائق الأكثر تطورا إلى الصين، بما في ذلك تلك المستخدمة لتطوير تقنيات الذكاء الاصطناعي المتطورة وأجهزة الكمبيوتر العملاقة. وفي الأسبوع الماضي، تراجعت إدارة الرئيس الحالي دونالد ترامب عن قيود جديدة فرضتها على تصدير أشباه الموصلات المستخدمة في تطوير الذكاء الاصطناعي وكانت ستطال خصوصا صادرات هذه المواد المتطوّرة إلى الصين. لكنّ وزارة التجارة الأميركية استبدلت هذه القيود الجديدة بتوصيات "تحذّر" فيها، من بين أمور أخرى، "الجمهور من العواقب المحتملة المترتبة على السماح باستخدام الرقائق الأميركية" لتطوير "نماذج صينية للذكاء الاصطناعي". والأربعاء، تعهّدت بكين "الردّ بحزم" على "الترهيب" الذي تحاول واشنطن ممارسته ضدّها عبر فرض السلطات الأميركية قيودا جديدة على الورادات الصينية من الرقائق الإلكترونية المتقدّمة.


الشرق السعودية
منذ 2 ساعات
- الشرق السعودية
جوجل تزود نماذجها الذكية بمزايا جديدة.. "تستخدم الحاسوب وتفهم المشاعر"
أعلنت شركة جوجل إضافة مجموعة من المزايا الجديدة إلى أحدث نماذجها للذكاء الاصطناعي Gemini 2.5 Pro، وGemini 2.5 Flash، مثل تعزيز التفاعل الصوتي مع المستخدمين وإمكانية تنفيذ مهام عبر حاسوب المستخدم، إلى جانب ميزة تجريبية للتفكير وإنجاز المهام المعقدة. جاء ذلك ضمن فعاليات مؤتمر الشركة السنوي للمطورين Google IO 2025، كما أشارت الشركة إلى أن أحدث نماذجها قد حققت أداءً متقدماً على مستوى العديد من الاختبارات، فقد حصد نموذج جيميناي 2.5 برو 1420 نقطة في اختبارات WebDev Arena الخاصة باختبار قدرات النماذج الذكية في البرمجة، كذلك تصدر قائمة أفضل النماذج في تصنيف LMArena. Gemini 2.5 Pro قدمت الشركة لنموذجها Gemini 2.5 Pro ميزة تجريبية تتمثل في وضع استخدام لجيميناي للإدراك Reasoning يُعرف باسم Deep Think، والتي تتيح للنموذج استغراق وقت أطول في النظر في المعطيات المقدمة من جانب المستخدم، ليتمكن من دراسة فرضيات مختلفة، قبل أن يرد. بفضل الميزة الجديدة، أشارت الشركة إلى أن نموذج Gemini 2.5 Pro Deep Think قد حصل على مركز متقدم على مقياس اختبارات 2025 USAMO، والذي يعد من الاختبارات المعقدة في الرياضيات، كذلك أحرز تقدم على مقياس LiveCodeBench للبرمجة، مع تحقيق نسبة 84% في اختبارات MMMU، التي تركز على إدراك الوسائط والبيانات المتنوعة بين صور وفيديوهات ونصوص وصوتيات. يتوفر وضع الاستخدام الجديد Deep Think بشكل محدود لعدد من المطورين من خلال واجهة Gemini البرمجية، وذلك لاختبار الميزة بشكل كامل وضمان تقديمها لتجربة آمنة، قبل إطلاقها لعموم المستخدمين. يُذكر أن جوجل مع هذه الميزة تنضم إلى كبار اللاعبين في سوق الذكاء الاصطناعي مثل OpenAI، وأنثروبيك وعلي بابا وديب سيك، الذين سارعوا خلال الفترة الماضية لتقديم ميزة التفكير العميق Deep Thinking، بحيث يستغرق النموذج فترة أطول للإجابة يقضيها في التفكير قبل الرد. إصدار "فلاش" مطور كذلك حسنت جوجل من أداء نموذجها Gemini 2.5 Flash وذلك من خلال جعله قادر على التعامل مع أشكال المدخلات البيانية المختلفة من صور وفيديوهات ونصوص، إلى جانب تحسن واضح في قدرته على الفهم والإدراك بشكل جيد قبل الرد Reasoning، إلى جانب تحسين قدراته على كتابة الأكواد البرمجية، وإفساح المجال أمام نافذة أوسع للأوامر الطويلة والمعقدة. رغم تطور إمكانياته، إلا أن جوجل قد حافظت على أهم ميزة في نموذجها Gemini 2.5 Flash، وهي قدرته على خفض استهلاكه من الوحدات البيانية "توكين Token"، وذلك بمعدل 20% إلى 30% مقارنة بالإصدار الماضي. و"التوكين" Token هي وحدة قياس حجم المدخلات البيانية التي يقدمها المستخدم لنموذج الذكاء الاصطناعي في هيئة صور أو فيديوهات أو مقاطع صوتية أو نصوص، وكلما زاد حجم وحدات التوكين، يمكن إدخال كم أكبر من البيانات إلى النموذج الذكي دفعة واحدة، ولكن مع زيادة استهلاك النموذج "للتوكين" يزيد ذلك من التكاليف المادية للتدريب والتشغيل التي يتحملها المطورون. إصدار Gemini 2.5 Flash الجديد يتوفر حالياً على منصة Gemini لعموم المستخدمين عبر الويب وتطبيقات الموبايل، وكذلك عبر منصة Google AI Studio للمطورين، وكذلك لقطاع الأعمال عبر منصة Vertex AI. محادثات تفاعلية زودت جوجل واجهتها البرمجية Live API للمطورين بمزايا جديدة تساعدهم على تطوير تجارب محادثات تفاعلية عبر خدماتهم الرقمية المختلفة، وذلك اعتماداً على نماذج Gemini الذكية. مع التحديث الجديد، سيتمكن المطورون من جعل منصاتهم للمحادثات قادرة على التفاعل مع مستخدميها صوتيا، بنبرة وأسلوب بشري، مع إتاحة الفرصة للمستخدمين لاختيار الأسلوب وطبيعة الصوت واللهجة اللغوية وكذلك أسلوب الحديث، فمثلا يمكن للمستخدم أن يطلب من روبوت الدردشة الذكي أن يحكي قصة بأسلوب ونبرة صوت درامية. كما أضافت الشركة أيضاً إلى واجهتها البرمجية Live API، والتي تستخدم قدرات جيميناي لايف، قدرات بصرية تمكن المنصات الحوارية على فهم وإدراك ما يراه المستخدم، وذلك اعتماداً على كاميرا هاتفه. كما تقدم جوجل عبر واجهة Gemini API نسخة أولية من ميزة تحويل النصوص إلى حديث منطوق مع التحكم في أسلوب الحديث والنبرة، وذلك من خلال نموذجيها جيميناي 2.5 برو، وجيميناي 2.5 فلاش، مع دعم إمكانية إنشاء مقاطع صوتية تتضمن اثنين من المتحدثين، وذلك باستخدام 24 لغة، مع قدرة فائقة على التبديل بينهما خلال نفس المقاطع. وتختبر جوجل حالياً مزايا ثورية لتقديم تجربة تفاعلية حية عبر واجهتها البرمجية، مثل ميزة Affective Dialogue والتي تتيح للنموذج التقاط المشاعر التي يشعر بها المستخدم من أسلوب حديثه، ومن ثم يبدأ النموذج في الرد بصوت يعكس مشاعر مناسبة لما يشعر به المستخدم تعكس التعاطف والتفاهم معه، وكذلك ميزة Proactive Audio، والتي تسمح للنموذج بتجاهل الأصوات والضوضاء حول المستخدم، ويركز على محادثته معه ليتمكن من الرد عليه في الوقت المناسب، مما يخلق تجربة محادثة أقرب للبشرية. وأخيراً تجربة الشركة حالياً دمج ميزة التفكير داخل التفاعل الصوتي الحي Thinking in Live API، مما يُمكن نموذج Gemini من استخدام قدراته على التفكير لتعامل مع الاستفسارات والمهام المعقدة خلال المحادثات الحية مع المستخدم. تحكم في الحاسوب حولت جوجل مشروعها التجريبي Project Mariner، والذي رفعت الستار عنه العام الماضي، إلى ميزة حقيقية على أرض الواقع، تحمل اسم Computer Use، والتي تعتمد فكرتها على تحكم Gemini في حاسوب المستخدم من لوحة مفاتيح ومؤشر الفأرة، ليتمكن من إنجاز المهام المختلفة التي يوكلها إليه المستخدم. أشارت الشركة إلى أن تلك الميزة ستتوفر للمطورين عبر واجهة Gemini API البرمجية خلال الأشهر المقبلة، وبالفعل العديد من عملائها من الشركات تستخدمها، مثل Automation Anywhere، وUiPath، وBrowserbase، وAutotab، وThe Interaction Company، و Cartwheel. تحسينات أمنية كشفت الشركة كذلك عن تعزيزات أمنية كبيرة في نموذج Gemini 2.5 لمواجهة التهديدات السيبرانية، خصوصاً تلك المتعلقة بـهجمات الحقن غير المباشر للتعليمات النصية (Indirect Prompt Injection)، وهي هجمات تدمج أوامر خبيثة في البيانات التي يتعامل معها النموذج الذكي. وبفضل نهج أمني جديد، تمكنت جوجل من رفع معدل الحماية ضد هذه الهجمات خلال استخدام الأدوات بنسبة كبيرة، لتصبح سلسلة Gemini 2.5 الأكثر أماناً حتى الآن.


العربية
منذ 3 ساعات
- العربية
رؤية ألتمان المستقبلية لـ"شات جي بي تي" تمثل كابوساً للخصوصية
أعرب سام ألتمان، الرئيس التنفيذي لشركة الذكاء الاصطناعي "OpenAI"، مؤخرًا عن رغبته في أن يُوثّق روبوت الدردشة " شات جي بي تي" ويتذكر كل شيء في حياة مستخدمه. أدلى ألتمان بهذه التصريحات خلال فعالية للذكاء الاصطناعي، عندما سأله أحد المستخدمين عن كيفية جعل "شات جي بي تي" أكثر تخصيصًا. وأوضح ألتمان أن الفكرة تكمن في نموذج تفكير له "تريليون رمز سياقي" يُمكنه تخزين محادثات المستخدم ورسائل البريد الإلكتروني والمواد التي يقرأها، بحسب تقرير لموقع "Interesting Engineering" المتخصص في أخبار التكنولوجيا والهندسة، اطلعت عليه "العربية Business". وقال الرئيس التنفيذي لـ"OpenAI": "كل محادثة أجريتها في حياتك، وكل كتاب قرأته، وكل بريد إلكتروني قرأته، وكل ما اطلعت عليه موجود هناك... وحياتك تستمر في الإضافة إلى هذا السياق". وأشار أيضًا إلى أن هذا الأمر قد يكون ممكنًا، بالنظر إلى طريقة استخدام الشباب الجامعي لشات جي بي تي، مضيفًا أنهم يقومون بتحميل الملفات، وربط مصادر البيانات، ثم استخدام "مطالبات معقدة" لتحليل تلك البيانات، حتى أن المستخدمين الشباب في الغالب لا يتخذون قرارات حياتية مهمة دون استشارة "شات جي بي تي". أما بالنسبة للأشخاص الأكبر سنًا، ذكر ألتمان أن "شات جي بي تي" بالنسبة لهم يُشبه بديلًا لغوغل، بينما يراه المستخدمون الشباب، الذين تتراوح أعمارهم بين العشرينات والثلاثينات، كمستشارًا في حياتهم. يبدو أن الهدف هو تطوير "شات جي بي تي" ليصبح رفيقًا ذكيًا ذا معرفة غير محدودة. وبدمجه مع وكلاء الذكاء الاصطناعي المستقلين، الذين تطورهم حاليًا شركات وادي السيليكون، يُتيح هذا إمكانياتٍ مدهشة للغاية. تخيّل وجود ذكاء اصطناعي يُجدول صيانة السيارة تلقائيًا، أو يُخطط للسفر في مناسبات بعيدة، أو يطلب مسبقًا المجلد التالي من سلسلة كتبك المُفضلة. يريد ألتمان أن يُصبح "شات جي بي تي" نظام ذكاء اصطناعي شامل المعرفة بحياة مستخدمه. ومع ذلك، قد يكون غير آمن، حيث قد لا يثق المستخدمون بشركة تكنولوجيا عملاقة هادفة للربح لتعرف كل شيء عن حياتهم. وقد يشعر المستخدمون بالقلق بشأن إساءة استخدام بياناتهم الشخصية وأنواع أخرى من المخاطر. كذلك، يمكن لروبوتات الدردشة أن تتصرف بطريقة قد تُفيد مصلحة جماعة سياسية أو تخدم أي أهداف مؤسسية بمساعدة بيانات حساسة وشخصية. وقد لوحظ مؤخرًا أن بعض روبوتات الدردشة تمتثل لمتطلبات الرقابة الصينية، بينما تُقدم أخرى إجابات تدعم أيديولوجية مُحددة.