
جوجل تطلق نموذجين جديدين متطورين لتطبيقات الروبوتات
أعلنت شركة جوجل عن إطلاق نموذجين جديدين للذكاء الاصطناعي، مصممين خصيصًا لتطبيقات الروبوتات، وذلك استنادًا إلى نموذجها المتطور 'جيميني 2.0″، في خطوة تهدف إلى مواكبة التطورات المتسارعة في صناعة الروبوتات.
يأتي هذا الإعلان في ظل التطور الكبير الذي يشهده مجال الروبوتات في السنوات الأخيرة، بفضل التقدم في استخدام الذكاء الاصطناعي وتحسين النماذج، مما يسرع من تسويق الروبوتات في القطاع الصناعي.
وقد أطلقت جوجل، المملوكة لشركة ألفابت، النموذجين الجديدين بعد شهر من تخارج شركة فيجر إيه. آي الناشئة في مجال الروبوتات من اتفاقية تعاون مع شركة أوبن إيه. آي، التي حققت تقدمًا ملحوظًا في مجال الذكاء الاصطناعي للروبوتات.
ويعتبر نموذج 'جيميني روبوتيكس' طرازًا متقدمًا من نموذج 'الرؤية – اللغة – الفعل'، حيث يتيح للروبوتات تنفيذ أفعال مادية ذات نتائج ملموسة.
أما النموذج الثاني، 'جيميني روبوتكس – إي. آر'، فيمكن الروبوتات من استشعار المساحة المحيطة بها بشكل متقدم، ويتيح للمطورين تشغيل برامجهم الخاصة باستخدام قدرات التفكير التي يوفرها نموذج 'جيميني 2.0'.
وأكدت جوجل أن النموذجين مصممان للروبوتات بجميع أشكالها، من الروبوتات الشبيهة بالإنسان إلى تلك المستخدمة في المصانع والمستودعات.
ومن المتوقع أن يساعد استخدام هذه النماذج المتطورة الشركات الناشئة على تقليل تكاليف التطوير وتسريع طرح منتجاتها في السوق.

جرب ميزات الذكاء الاصطناعي لدينا
اكتشف ما يمكن أن يفعله Daily8 AI من أجلك:
التعليقات
لا يوجد تعليقات بعد...
أخبار ذات صلة


الوئام
منذ ساعة واحدة
- الوئام
جوجل تطلق 'Veo 3' لتوليد فيديوهات متكاملة بالذكاء الاصطناعي
كشفت شركة جوجل، خلال مؤتمر المطورين السنوي Google I/O 2025، عن إطلاق الجيل الثالث من نموذجها المتقدم لتوليد الفيديو عبر الذكاء الاصطناعي، Veo 3، والذي يُمثل قفزة نوعية في مجال الفيديوهات المُولدة رقميًا، إذ يتيح ولأول مرة توليد أصوات خلفية، حوارات، ومؤثرات صوتية متزامنة مع المشاهد. وأكدت الشركة أن Veo 3 يتفوق على الإصدار السابق Veo 2، ليس فقط في جودة الصورة، بل أيضًا بدمجه الكامل للصوت داخل المقاطع، ما يمنح المستخدمين تجربة أكثر واقعية وتفاعلًا. ويُتاح النموذج الجديد ضمن تطبيق Gemini لمشتركي باقة 'AI Ultra' بسعر 250 دولارًا شهريًا، مع دعم إدخال النصوص أو الصور لإنشاء الفيديو. وقال ديميس هاسابيس، الرئيس التنفيذي لشركة DeepMind، الذراع البحثية في الذكاء الاصطناعي لدى جوجل: 'لقد غادرنا اليوم عصر الفيديو الصامت. يمكن لـ Veo 3 توليد مشاهد كاملة مع شخصيات، حوارات، ونبرات صوت بحسب وصف المستخدم'. وتعتمد التقنية الجديدة على تحليل البكسلات وربطها بالصوت الذي يتم توليده تلقائيًا بطريقة متزامنة، ما يجعل نتائج الفيديو أكثر تماسكًا وواقعية. وتُرجح مصادر تقنية أن يكون موقع يوتيوب أحد المصادر الأساسية لتدريب النموذج، رغم أن جوجل لم تكشف رسميًا عن البيانات المستخدمة. وفي إطار مواجهة ظاهرة التزييف العميق (Deepfake) ، زوّدت جوجل Veo 3 بتقنية SynthID التي تدمج علامات رقمية غير مرئية داخل كل إطار من الفيديو، لضمان تتبع المحتوى وتحديد منشئه. بالتزامن مع إطلاق Veo 3، أعلنت جوجل عن تحديثات موسعة لـ Veo 2 تشمل إمكانية إدخال صور للشخصيات والمشاهد، وفهم حركات الكاميرا كالدوران والتقريب، بالإضافة إلى تعديل وتوسيع إطار الفيديو. وستكون هذه الميزات متوفرة قريبًا على منصة Vertex AI.


الوئام
منذ ساعة واحدة
- الوئام
دمج Gemini داخل متصفح كروم
أعلنت جوجل في مؤتمر I/O 2025 دمج مساعدها الذكي المدعوم بالذكاء الاصطناعي Gemini داخل متصفح كروم، لتبسيط تجربة التصفح وتقديم محتوى تفاعلي مباشر. Gemini سيبدأ بقدرات تشمل تلخيص المحتوى وتبسيط المعلومات المعقدة في صفحات الويب، مع خطط مستقبلية لدعمه في عدة تبويبات. مديرة إدارة المنتجات في فريق كروم، شارمين دي سيلفا، أوضحت أن Gemini يظهر كأيقونة 'وميض' في الزاوية اليمنى، وتفتح عند الضغط نافذة حوارية قابلة للتحريك والتكبير. خلال العرض التجريبي، استعرض Gemini مواصفات منتج وأجاب عن سؤال يتعلق باستخدامه للتخييم، اعتمادًا على محتوى الصفحة ومصادر من الويب. كما أجرى مقارنة بين منتجين من موقعين مختلفين، وعرض النتائج في جدول منسّق يسهّل اتخاذ القرار الشرائي. في المرحلة الأولى، يدعم Gemini العمل عبر تبويبين فقط، مع خطة لتوسيعه لاحقًا ليشمل عدة تبويبات بشكل متزامن. ميزة جديدة قيد التطوير ستمكّن Gemini من تصفح المواقع نيابة عن المستخدم وتنفيذ أوامر مثل الانتقال لأقسام محددة في الصفحات. كما قدّم تحويلات دقيقة للوحدات داخل وصفات الطهي، مثل تحويل 'أكواب' إلى 'جرامات'، لتسهيل الطهي. يبدأ طرح Gemini في كروم هذا الأسبوع، تجريبيًا عبر Windows وMac، للمستخدمين فوق 18 عامًا، عبر قنوات Beta وDev وCanary. النسخة المحمولة ما تزال قيد الدراسة، بحسب نائبة رئيس كروم باريسا تبريز، والتركيز الحالي على تجربة سطح المكتب.


الشرق السعودية
منذ 4 ساعات
- الشرق السعودية
جوجل تزود نماذجها الذكية بمزايا جديدة.. "تستخدم الحاسوب وتفهم المشاعر"
أعلنت شركة جوجل إضافة مجموعة من المزايا الجديدة إلى أحدث نماذجها للذكاء الاصطناعي Gemini 2.5 Pro، وGemini 2.5 Flash، مثل تعزيز التفاعل الصوتي مع المستخدمين وإمكانية تنفيذ مهام عبر حاسوب المستخدم، إلى جانب ميزة تجريبية للتفكير وإنجاز المهام المعقدة. جاء ذلك ضمن فعاليات مؤتمر الشركة السنوي للمطورين Google IO 2025، كما أشارت الشركة إلى أن أحدث نماذجها قد حققت أداءً متقدماً على مستوى العديد من الاختبارات، فقد حصد نموذج جيميناي 2.5 برو 1420 نقطة في اختبارات WebDev Arena الخاصة باختبار قدرات النماذج الذكية في البرمجة، كذلك تصدر قائمة أفضل النماذج في تصنيف LMArena. Gemini 2.5 Pro قدمت الشركة لنموذجها Gemini 2.5 Pro ميزة تجريبية تتمثل في وضع استخدام لجيميناي للإدراك Reasoning يُعرف باسم Deep Think، والتي تتيح للنموذج استغراق وقت أطول في النظر في المعطيات المقدمة من جانب المستخدم، ليتمكن من دراسة فرضيات مختلفة، قبل أن يرد. بفضل الميزة الجديدة، أشارت الشركة إلى أن نموذج Gemini 2.5 Pro Deep Think قد حصل على مركز متقدم على مقياس اختبارات 2025 USAMO، والذي يعد من الاختبارات المعقدة في الرياضيات، كذلك أحرز تقدم على مقياس LiveCodeBench للبرمجة، مع تحقيق نسبة 84% في اختبارات MMMU، التي تركز على إدراك الوسائط والبيانات المتنوعة بين صور وفيديوهات ونصوص وصوتيات. يتوفر وضع الاستخدام الجديد Deep Think بشكل محدود لعدد من المطورين من خلال واجهة Gemini البرمجية، وذلك لاختبار الميزة بشكل كامل وضمان تقديمها لتجربة آمنة، قبل إطلاقها لعموم المستخدمين. يُذكر أن جوجل مع هذه الميزة تنضم إلى كبار اللاعبين في سوق الذكاء الاصطناعي مثل OpenAI، وأنثروبيك وعلي بابا وديب سيك، الذين سارعوا خلال الفترة الماضية لتقديم ميزة التفكير العميق Deep Thinking، بحيث يستغرق النموذج فترة أطول للإجابة يقضيها في التفكير قبل الرد. إصدار "فلاش" مطور كذلك حسنت جوجل من أداء نموذجها Gemini 2.5 Flash وذلك من خلال جعله قادر على التعامل مع أشكال المدخلات البيانية المختلفة من صور وفيديوهات ونصوص، إلى جانب تحسن واضح في قدرته على الفهم والإدراك بشكل جيد قبل الرد Reasoning، إلى جانب تحسين قدراته على كتابة الأكواد البرمجية، وإفساح المجال أمام نافذة أوسع للأوامر الطويلة والمعقدة. رغم تطور إمكانياته، إلا أن جوجل قد حافظت على أهم ميزة في نموذجها Gemini 2.5 Flash، وهي قدرته على خفض استهلاكه من الوحدات البيانية "توكين Token"، وذلك بمعدل 20% إلى 30% مقارنة بالإصدار الماضي. و"التوكين" Token هي وحدة قياس حجم المدخلات البيانية التي يقدمها المستخدم لنموذج الذكاء الاصطناعي في هيئة صور أو فيديوهات أو مقاطع صوتية أو نصوص، وكلما زاد حجم وحدات التوكين، يمكن إدخال كم أكبر من البيانات إلى النموذج الذكي دفعة واحدة، ولكن مع زيادة استهلاك النموذج "للتوكين" يزيد ذلك من التكاليف المادية للتدريب والتشغيل التي يتحملها المطورون. إصدار Gemini 2.5 Flash الجديد يتوفر حالياً على منصة Gemini لعموم المستخدمين عبر الويب وتطبيقات الموبايل، وكذلك عبر منصة Google AI Studio للمطورين، وكذلك لقطاع الأعمال عبر منصة Vertex AI. محادثات تفاعلية زودت جوجل واجهتها البرمجية Live API للمطورين بمزايا جديدة تساعدهم على تطوير تجارب محادثات تفاعلية عبر خدماتهم الرقمية المختلفة، وذلك اعتماداً على نماذج Gemini الذكية. مع التحديث الجديد، سيتمكن المطورون من جعل منصاتهم للمحادثات قادرة على التفاعل مع مستخدميها صوتيا، بنبرة وأسلوب بشري، مع إتاحة الفرصة للمستخدمين لاختيار الأسلوب وطبيعة الصوت واللهجة اللغوية وكذلك أسلوب الحديث، فمثلا يمكن للمستخدم أن يطلب من روبوت الدردشة الذكي أن يحكي قصة بأسلوب ونبرة صوت درامية. كما أضافت الشركة أيضاً إلى واجهتها البرمجية Live API، والتي تستخدم قدرات جيميناي لايف، قدرات بصرية تمكن المنصات الحوارية على فهم وإدراك ما يراه المستخدم، وذلك اعتماداً على كاميرا هاتفه. كما تقدم جوجل عبر واجهة Gemini API نسخة أولية من ميزة تحويل النصوص إلى حديث منطوق مع التحكم في أسلوب الحديث والنبرة، وذلك من خلال نموذجيها جيميناي 2.5 برو، وجيميناي 2.5 فلاش، مع دعم إمكانية إنشاء مقاطع صوتية تتضمن اثنين من المتحدثين، وذلك باستخدام 24 لغة، مع قدرة فائقة على التبديل بينهما خلال نفس المقاطع. وتختبر جوجل حالياً مزايا ثورية لتقديم تجربة تفاعلية حية عبر واجهتها البرمجية، مثل ميزة Affective Dialogue والتي تتيح للنموذج التقاط المشاعر التي يشعر بها المستخدم من أسلوب حديثه، ومن ثم يبدأ النموذج في الرد بصوت يعكس مشاعر مناسبة لما يشعر به المستخدم تعكس التعاطف والتفاهم معه، وكذلك ميزة Proactive Audio، والتي تسمح للنموذج بتجاهل الأصوات والضوضاء حول المستخدم، ويركز على محادثته معه ليتمكن من الرد عليه في الوقت المناسب، مما يخلق تجربة محادثة أقرب للبشرية. وأخيراً تجربة الشركة حالياً دمج ميزة التفكير داخل التفاعل الصوتي الحي Thinking in Live API، مما يُمكن نموذج Gemini من استخدام قدراته على التفكير لتعامل مع الاستفسارات والمهام المعقدة خلال المحادثات الحية مع المستخدم. تحكم في الحاسوب حولت جوجل مشروعها التجريبي Project Mariner، والذي رفعت الستار عنه العام الماضي، إلى ميزة حقيقية على أرض الواقع، تحمل اسم Computer Use، والتي تعتمد فكرتها على تحكم Gemini في حاسوب المستخدم من لوحة مفاتيح ومؤشر الفأرة، ليتمكن من إنجاز المهام المختلفة التي يوكلها إليه المستخدم. أشارت الشركة إلى أن تلك الميزة ستتوفر للمطورين عبر واجهة Gemini API البرمجية خلال الأشهر المقبلة، وبالفعل العديد من عملائها من الشركات تستخدمها، مثل Automation Anywhere، وUiPath، وBrowserbase، وAutotab، وThe Interaction Company، و Cartwheel. تحسينات أمنية كشفت الشركة كذلك عن تعزيزات أمنية كبيرة في نموذج Gemini 2.5 لمواجهة التهديدات السيبرانية، خصوصاً تلك المتعلقة بـهجمات الحقن غير المباشر للتعليمات النصية (Indirect Prompt Injection)، وهي هجمات تدمج أوامر خبيثة في البيانات التي يتعامل معها النموذج الذكي. وبفضل نهج أمني جديد، تمكنت جوجل من رفع معدل الحماية ضد هذه الهجمات خلال استخدام الأدوات بنسبة كبيرة، لتصبح سلسلة Gemini 2.5 الأكثر أماناً حتى الآن.