صراع العمالقة.. بايدو تطلق MuseStreamer لتوليد فيديو بالذكاء الاصطناعي لمنافسة Google Veo 3

أطلقت شركة بايدو الصينية مؤخرًا نموذجًا متطورًا لتوليد الفيديو بالذكاء الاصطناعي يُعرف باسم MuseStreamer، والذي يُمكنه دمج الصوت الصيني في الفيديوهات المُولّدة. تزعم الشركة أنه أول نموذج ذكاء اصطناعي عالميًا يدعم توليد الصوت الصيني الأصلي، مما يضعه في منافسة مباشرة مع نموذج Veo 3 من جوجل، الذي أحدث ضجة مؤخرًا.

بايدو تكشف عن نموذج فيديو بالذكاء الاصطناعي يدعم الصينية

دخلت بايدو، عملاق التكنولوجيا الصيني، بقوة إلى عالم نماذج توليد الفيديو بالذكاء الاصطناعي بإطلاقها لنموذج MuseStreamer. يتميز هذا النموذج بقدرته الفريدة على إنتاج مقاطع فيديو مدمجة بالصوت الصيني الأصلي، وهو ما يُعد إنجازًا بارزًا في هذا المجال. يؤكد هذا التطور التزام بايدو بتعزيز قدرات الذكاء الاصطناعي الموجهة لجمهورها المحلي والعالمي.

شهد عالم نماذج توليد الفيديو بالذكاء الاصطناعي تقدمًا ملحوظًا خلال العامين الماضيين. تطورت هذه النماذج من مواجهة صعوبات في توليد تفاصيل بسيطة مثل عدد ثابت من الأصابع، إلى نماذج قادرة على تصوير الفيزياء والحركة الواقعية بدقة عالية. ومع ذلك، ظلت إمكانية دعم الصوت بشكل أصلي في مقاطع الفيديو مجالًا لم تستكشفه معظم الشركات الكبرى بشكل كامل.

ميزة الصوت المتكاملة: تنافس جديد في سوق الذكاء الاصطناعي

كانت جوجل أول من قدم هذه الإمكانية من خلال نموذج Veo 3، الذي أُطلق في مؤتمر جوجل للمطورين (Google I/O 2025). أصبح Veo 3 حديث الساعة وتفوق على منافسين كبار مثل Sora من OpenAI، حيث قامت الشركة بتوسيع توفيره في جميع الدول الـ 154 التي يتوفر فيها تطبيق Gemini، مما يُبرز جهودها الحثيثة في تطوير هذه الأداة المبتكرة.

وفقًا لتقارير حديثة، دخلت بايدو المنافسة بنموذج الذكاء الاصطناعي MuseStream، الذي يُنتج مقاطع فيديو بصوت صيني، ويُعد النموذج الوحيد القادر على هذه الميزة تحديدًا. جدير بالذكر أن نموذج Veo 3 من جوجل يُنتج الصوت باللغة الإنجليزية فقط، مما يمنح بايدو ميزة تنافسية فريدة في السوق الصيني وربما الآسيوي على نطاق أوسع.

لا يقتصر عمل MuseStreamer على إنشاء حوارات متزامنة مع مقاطع الفيديو فحسب، بل يتميز أيضًا بقدرته على إضافة مؤثرات صوتية وضوضاء محيطة إليها. زعمت بايدو أن نموذجها حقق نسبة 89.38% على معيار VBench I2V، محتلًا بذلك المركز الأول في هذا المعيار، مما يُبرز تفوقه التقني في جودة توليد الفيديو والصوت.

منصة HuiXiang: أداة بايدو الجديدة لإنشاء المحتوى

بالإضافة إلى نموذج الذكاء الاصطناعي المتقدم، أطلقت بايدو أيضًا منصة جديدة لإنشاء محتوى الفيديو تُسمى HuiXiang. تمثل HuiXiang الواجهة الأمامية لنموذج الذكاء الاصطناعي MuseStreamer، حيث يُمكن للمستخدمين مشاركة المطالبات وإنشاء مقاطع فيديو بكل سهولة. لا تتوفر حاليًا كل من MuseStreamer وHuiXiang خارج الصين.

تدعم منصة HuiXiang حاليًا إنشاء مقاطع فيديو تصل مدتها إلى 10 ثوانٍ بدقة 1080 بكسل، مما يوفر جودة عالية للمحتوى المُولد. بالمقارنة، يُمكن لنموذج Veo 3 من جوجل إنشاء مقاطع فيديو لا تتجاوز مدتها 8 ثوانٍ فقط. لا توجد معلومات واضحة حتى الآن بشأن نسبة العرض إلى الارتفاع الافتراضية للفيديو في HuiXiang، وما إذا كان بإمكان المستخدمين إنشاء مقاطع فيديو بنسب عرض إلى ارتفاع مختلفة.