الرياض مقراً إقليمياً لـ«لوما»... استراتيجية نحو «ذكاء العالم» لا مجرد توليد المحتوى

لسنوات، جرى تقديم الذكاء الاصطناعي التوليدي، بوصفه أداة إبداعية، على أنه وسيلة أسرع للكتابة وأكثر إبداعاً للتصميم وأكثر متعةَ للتجربة. لكن وفقاً لأميت جاين، الرئيس التنفيذي والمؤسس المشارك لشركة «لوما إيه آي»، فإن هذا التصور أصبح بالفعل متجاوزاً. ما يتشكل اليوم ليس مجرد تحسين في إنتاج المحتوى، بل فئة جديدة من الذكاء متعدد الوسائط تهدف إلى نمذجة العالم نفسه.

يقول جاين في حديث خاص لـ«الشرق الأوسط» على هامش «منتدى الإعلام السعودي»، في الرياض، إن «معظم العمل في الواقع متعدد الوسائط. و(لوما) إحدى شركتين فقط في العالم (الأخرى هي غوغل) تستهدفان هذا النوع من التعددية».

على عكس أنظمة الذكاء الاصطناعي التقليدية التي تنطلق من اللغة أولاً ثم تُمدَّد لاحقاً إلى الصور أو الفيديو، تقوم «لوما للذكاء الاصطناعي» بتدريب ما يصفه جاين بأنه «عمود فقري موحد» يشمل الصوت والفيديو واللغة والصورة في آنٍ واحد. ويوضح أنه «بدلاً من بناء نموذج لغوي ضخم ثم تعليمه التعامل مع الصور، نحن ندرب بنية واحدة على الصوت والفيديو واللغة والصورة معاً. ندمج منطق اللغة مع معلومات العالم المستمدة من الفيديو والصوت والصور».

الطموح الكامن وراء هذه البنية يتجاوز الفيديو التوليدي ويتعلق ببناء ما يسميه جاين مراراً «ذكاء العالم»، أي أنظمة لا تنتج «بكسلات» فحسب، بل تستدل على العالم المادي.

أميت جاين الرئيس التنفيذي والشريك المؤسس لشركة «لوما» للذكاء الاصطناعي (الشركة)

من الجودة السينمائية إلى الدقة التشغيلية

شهدت نماذج الفيديو التوليدي تقدماً سريعاً خلال العامين الماضيين. ويشير جاين إلى أن نموذج «راي 3» (Ray 3) من «لوما» شكّل نقطة تحول. ويلفت جاين إلى أن (Ray 3) كان أول نموذج فيديو استدلالي في العالم. فبدلاً من توليد أول مخرج محتمل، يقوم النموذج بتقييم بدائل داخلياً قبل إنتاج النتيجة النهائية.

لكن جاين يؤكد أن الجودة البصرية لم تكن سوى المرحلة الأولى، ويقول إنه أمضى عام 2025 بالكامل في بناء هذه البنية التحتية والوصول بالنماذج إلى مرحلة تبدو فيها النتائج جيدة بصرياً وأن عام 2026 هو عام الدقة.

هذا الفرق بين المظهر السينمائي والموثوقية التشغيلية يحدد المرحلة التالية للشركة. ووفقاً لجاين، تنتقل هذه الأنظمة الآن من الترفيه إلى الاستخدامات الصناعية وأنه «سيتم استخدامها في النمذجة والتطبيقات الصناعية». ولتوضيح ذلك يضرب مثالاً بالعمارة قائلاً: «في العمارة لن تسأل فقط: كيف يبدو هذا المنزل في النهار؟ بل ستبني المنازل داخل هذه النماذج. وستُستخدم لتوليد بيانات للروبوتات، ولتطبيقات الرؤية الحاسوبية الصناعية». المغزى من حديث جاين واضحاً وهو أن الفيديو التوليدي يتحول من أداة إبداعية إلى قدرة نظامية.

تجاوُز معادلة الجودة والسرعة والتكلفة

يصف جاين نموذج «Ray 3.14» بأنه أزال المقايضة التقليدية بين الجودة والسرعة والتكلفة، لكنه لا يدّعي الكمال. يعترف بأنه «لا تزال هناك قيود كثيرة». مدة الفيديو لا تزال محدودة بنحو 10 ثوانٍ، مع العمل على تمديدها إلى 15 و20 ثانية. كما أن استمرارية الذكاء لا تزال تحدياً. وينوه صراحةً إلى أن «نماذج الفيديو والصورة هي الأضعف من حيث الذكاء حالياً، على سبيل المثال، عندما تكتب طلباً ثم تحصل على صورة، ينسى النموذج ما كنت تتحدث عنه».

استراتيجية شركة «لوما للذكاء الاصطناعي» هي الانتقال من التوليد الأحادي إلى أنظمة بصرية قائمة على الحوار. ويتصور جاين نوعاً من الاستدلال البصري التفاعلي: «فأنت لا تقول فقط: اصنع لي فيديو عن الحرب العالمية الأولى. بل تريد أن تسأل: ماذا لو لم يُغتل فرانز فرديناند؟ أظهِرْ لي نسخة بديلة من التاريخ». بالنسبة إليه، المستقبل يكمن في «وكلاء ذكاء اصطناعي بصريين تفاعليين» يفهمون السياق، ويتذكرون المحادثات السابقة، ويشاركون المستخدم في بناء السرد. ويرى أن «العصر القادم هو عصر الوكلاء الإبداعيين وأنظمة قادرة على إنجاز العمل من البداية إلى النهاية، وتكون شريكك الإبداعي».

الجيل المقبل من الأنظمة لن يكون مجرد أدوات بل «وكلاء إبداعيين» يعملون شركاء قادرين على تنفيذ العمل من البداية إلى النهاية (شاترستوك)

واقع الحوسبة وراء الذكاء متعدد الوسائط

يتطلب بناء هذا المستوى من الذكاء موارد حوسبية هائلة. يذكر جاين الحاجة إلى نحو 30 ألف وحدة معالجة رسومية لتدريب هذه النماذج. وتكلفة التشغيل تقارب 97 ألف دولار في الساعة. ويصف أثر الطاقة بأرقام ملموسة كمئات الميغاواط من القدرة الحوسبية وبنية تحتية تعادل مدينة متوسطة الحجم.

لكن، من وجهة نظره، هذا الاستثمار ضروري وأنه «عندما تفعل ذلك، تحصل على نموذج واحد يمتلك ذكاء العالم، ومنطق البشر، والقدرة على توليد أي نوع من المعلومات التي يريدها البشر».

كما يؤثر الوصول إلى حوسبة سيادية واسعة النطاق في تموضع «لوما» الجغرافي. فقد أعلنت الشركة مؤخراً افتتاح مكتب في الرياض، ليكون مقرها الإقليمي لمنطقة الشرق الأوسط وشمال أفريقيا، دعماً للشراكات المحلية وتطوير نماذج ذكاء اصطناعي عربية عبر مبادرة «هيوماين كرييت HUMAIN Create» في السعودية.

يرى جاين أن القرار استراتيجي والمنطقة سوق واحدة بلغة واحدة. وبالمقارنة مع أوروبا المجزَّأة تنظيمياً ولغوياً، يرى أن الشرق الأوسط يوفر تماسكاً وفرص توسُّع أكبر. ويضيف أن السعودية أكبر سوق في المنطقة، وأسرع اقتصاد نمواً، ولديها التزام ضخم بالذكاء الاصطناعي. ويشير إلى مبادرات البيانات السيادية ومشاريع الحوسبة الكبرى بوصفها دليلاً على طموح طويل الأمد.

التعاون مع «هيوماين» يتيح لـ«لوما» الوصول إلى حوسبة سيادية واسعة النطاق تدعم تدريب نماذج متعددة الوسائط على مستوى صناعي (شاترستوك)

تمثيل الثقافات وخطر المحو الرقمي

يلفت جاين خلال حديثه مع «الشرق الأوسط» إلى مسألة تمثيل الثقافات، حيث «تم تجاوز نقطة التحول بالنسبة إلى النصوص في يونيو (حزيران) 2024، وأن أكثر من 50 في المائة من النصوص المنشورة على الإنترنت اليوم تُنتجها نماذج لغوية». ويتوقع أن يحدث الأمر ذاته بسرعة أكبر في الوسائط البصرية بسبب ارتفاع تكلفة الإنتاج التقليدي. ويضيف أنه «إذا اتَّبَعَتَ المال، فالإعلام التوليدي سيتبنى أسرع من النص».

لكنَّ تدريب النماذج على بيانات الإنترنت العالمية قد يعزز الثقافات المهيمنة ويهمش الأخرى. ويُحذِّر من أن «ثقافات مثل الشرق الأوسط، حيث البيانات أقل بكثير مقارنةً بالولايات المتحدة أو الهند، قد تُمحى من الإنترنت إذا لم ندرِّب النماذج لتمثل هذه الثقافات».

ومن خلال «HUMAIN Create» تخطط «لوما» لتطوير نماذج باللغة العربية وببيانات إقليمية تعكس السياق المحلي. كما سيعمل مكتب الرياض على توظيف مهندسي ذكاء اصطناعي ومبدعين لدعم الانتشار الإقليمي. وبرأي جاين، «هذا الجهد مهم للغاية، وإلا فإن هذه الثقافات ستنقرض رقمياً».

المواهب لا الخوف هي العائق

غالباً ما يتركز النقاش العام حول فقدان الوظائف الإبداعية بسبب الذكاء الاصطناعي. لكن جاين يرى المشكلة معاكسة وأن «أكبر قيد هو عدد الأشخاص الذين يعرفون كيفية استخدام هذه الأنظمة، ولا نستطيع إيجاد فنانين بالسرعة الكافية». فالطلب على المبدعين المتخصصين في الذكاء الاصطناعي التوليدي في ازدياد.

تشغّل «لوما» استوديو «دريم لاب Dream Lab» في مدينة لوس أنجليس، ويضم ما يسميه جين «مبدعين ميدانيين» يجمعون بين مهارات السرد وإتقان الأدوات التوليدية. كما تعمل الشركة مع شركاء عالميين لتدريب مئات الفنانين شهرياً. يرى جاين أن «الفنانين الذين يتجاهلون الذكاء الاصطناعي يفعلون ذلك على مسؤوليتهم».

نقص المواهب القادرة على استخدام أدوات التوليد يمثل العائق الأكبر أمام التوسع المؤسسي وليس الخوف من فقدان الوظائف (شاترستوك)

من الندرة إلى التخصيص الفائق

ربما يكمن الأثر الأكبر للفيديو التوليدي في معادلة الحجم. تكلفة الإنتاج التقليدي تتراوح بين آلاف وعشرات آلاف الدولارات للدقيقة الواحدة. يقول جاين إن «الذكاء الاصطناعي التوليدي يكلّف 10 دولارات للدقيقة، أو 100 دولار للدقيقة والتكلفة لا تُقارن». هذا الفارق يفتح نماذج توزيع جديدة. بدلاً من إنتاج عشرة أفلام كبرى، يمكن إنتاج مئات المشاريع المتخصصة. وبدلاً من إعلان واحد لكل شريحة، يمكن إنشاء إعلان لكل فرد. ويرى جاين أن «الحلم الأبدي للإعلان كان إعلاناً لكل شخص، والذكاء الاصطناعي التوليدي يجعل ذلك ممكناً اقتصادياً لأول مرة».

عتبة الروبوتات

في النهاية، يرى جاين أن الذكاء متعدد الوسائط لا يتعلق بالإعلام فقط، بل بالروبوتات، وأنه «إذا لم نساعد على بناء روبوتات عامة خلال العامين المقبلين، فقد فشلنا».

ويرى أن معظم شركات الروبوتات الحالية تعتمد بشكل مفرط على النماذج اللغوية، بينما البشر يعملون من خلال نماذج ذهنية للعالم. وبحلول نهاية 2026، يتوقع وجود أنظمة قادرة على إنتاج بيانات غير محدودة لتدريب الروبوتات، أما بحلول 2027 فيتوقع جاين نشر أنظمة قادرة على تنفيذ مهام فعلية.

الخيط الناظم في رؤية جاين هو التوسع في الحوسبة والتمثيل الثقافي والإنتاج والذكاء المتجسد. الفيديو التوليدي لا يتطور فقط نحو الثقة المؤسسية، بل يُعاد تعريفه بوصفه بنية تحتية للصناعة والتعليم والإعلان، وربما الروبوتات. ويبقى السؤال: هل ستتمكن المجتمعات والمؤسسات من التوسع معه؟

الرياض مقراً إقليمياً لـ«لوما»... استراتيجية نحو «ذكاء العالم» لا مجرد توليد المحتوى

الرئيس التنفيذي للشركة: «نبني نماذج تفهم العالم ولا تصنع الصور فقط»