ثورة في عالم الصور.. علي بابا تطلق نموذجًا جديدًا لتوليد الصور بدقة نصوص غير مسبوقة

أطلقت شركة علي بابا نموذج ذكاء اصطناعي جديد لتوليد الصور باسم Qwen-Image، يتميز بقدرته على إنشاء صور تتضمن نصوصًا معقدة ومتعددة اللغات بدقة عالية، متفوقًا بذلك على العديد من الأدوات المنافسة. يتيح النموذج الجديد استخدامًا تجاريًا بترخيص مفتوح المصدر، ويحتل المرتبة الثالثة عالميًا في جودة الصور المولدة.

مميزات Qwen-Image

صمم فريق Qwen في علي بابا هذا النموذج خصيصًا للتعامل مع مجموعة متنوعة من الاستخدامات. تشمل هذه الاستخدامات كتابة الشعر، وإنشاء الملصقات ثنائية اللغة، وتصميم ملصقات المنتجات، وإنتاج الرسومات التعليمية المعقدة. يُحافظ النموذج على جودة عالية للنصوص، سواء كانت أبجدية كاللغة الإنجليزية أو رمزية كاللغة الصينية، ما يجعله مثاليًا للبيئات متعددة اللغات.

اقرأ أيضًا: مساعدات عاجلة.. السيسي: 5 آلاف شاحنة في مصر جاهزة لدخول غزة

التجربة والاستخدام التجاري

يمكن للمستخدمين تجربة Qwen-Image من خلال موقع Qwen Chat بتفعيل وضع توليد الصور. أصدرت علي بابا النموذج بترخيص Apache 2.0، ما يسمح للمطورين والشركات باستخدامه وتعديله وتوزيعه لأغراض تجارية مع ذكر المصدر. يتيح هذا الترخيص مجالًا واسعًا للتطوير والابتكار في مجال توليد الصور بالذكاء الاصطناعي.

تقنية التدريب وراء Qwen-Image

اعتمدت علي بابا على مليارات الصور والنصوص لتدريب Qwen-Image، بما في ذلك مشاهد طبيعية، وصور شخصية، وملصقات فنية، وبيانات نصية مولدة ذاتيًا. ساهم التدريب الداخلي في تحسين قدرة النموذج على التعرف على الأحرف النادرة والمعقدة، خاصة في اللغة الصينية. اتبع التدريب نهجًا تدريجيًا، ابتداءً من صور بسيطة إلى تخطيطات معقدة ونصوص متعددة اللغات، ما أدى إلى تحسين أدائه بشكل كبير. يتكون النموذج من ثلاثة أجزاء رئيسية: نموذج لغوي متعدد الوسائط Qwen2.5-VL لفهم السياق، و مشفر/مفكك للصور عالية الدقة VAE، ونموذج انتشار MMDiT للحفاظ على تنسيق النصوص. تتعاون هذه المكونات لإنتاج صور دقيقة من حيث النصوص والمظهر العام. يحتل Qwen-Image المرتبة الثالثة عالميًا بين نماذج توليد الصور وفقًا لمنصة AI Arena، ويعتبر أفضل نموذج مفتوح المصدر في هذه الفئة.