«سورا» من «أوبن إيه آي» لإنشاء فيديوهات من أوامر نصية

تبلغ مدة الفيديو دقيقة بدقة 1080 بكسلاً

يمكن لنموذج «سورا» توليد مشاهد تشبه الأفلام بدقة قدرها 1080 بكسلاً (أوبن إيه آي)
يمكن لنموذج «سورا» توليد مشاهد تشبه الأفلام بدقة قدرها 1080 بكسلاً (أوبن إيه آي)
TT

«سورا» من «أوبن إيه آي» لإنشاء فيديوهات من أوامر نصية

يمكن لنموذج «سورا» توليد مشاهد تشبه الأفلام بدقة قدرها 1080 بكسلاً (أوبن إيه آي)
يمكن لنموذج «سورا» توليد مشاهد تشبه الأفلام بدقة قدرها 1080 بكسلاً (أوبن إيه آي)

تمثل تقنية «سورا (Sora)» الجديدة من «أوبن إيه آي» قفزة غير عادية في عالم الذكاء الاصطناعي، لا سيما في مجال تحويل النص إلى فيديو. تم تصميم هذه التقنية المبتكرة لدخول عصر جديد من إنشاء محتوى الفيديو، مما يتيح إنشاء مقاطع فيديو واقعية للغاية ومبتكرة تصل مدتها إلى دقيقة واحدة عبر تعليمات نصّية بسيطة. وبفضل هذه القدرة، يُعد «سورا» مثالاً رائعاً على إمكانات الذكاء الاصطناعي في إحداث نقلة مهمة في إنشاء الوسائط الرقمية. على سبيل المثال تم إعطاء «سورا» التعليمات التالية:

«امرأة أنيقة تسير في أحد شوارع طوكيو المليئة بالنيون المتوهج الدافئ ولافتات المدينة المتحركة. ترتدي سترة جلدية سوداء، وفستاناً أحمر طويلاً، وحذاءً أسود، وتحمل محفظة سوداء. إنها ترتدي النظارات الشمسية وتضع أحمر الشفاه. إنها تمشي بثقة وبشكل عرضيّ. الشارع رطب وعاكس، مما يخلق تأثير مرآة للأضواء الملونة. يتجول الكثير من المشاة». وهكذا كانت النتيجة (من موقع «أوبن إيه آي»):

القدرات المبتكرة والتحديات

يستطيع «سورا» إنشاء مشاهد معقدة تتميز بشخصيات متعددة، وأنواع معينة من الحركة، وسيناريوهات مفصلة، ​​كل ذلك مع فهم الفروق الدقيقة المضمَّنة في مطالبة المستخدم. كما أن إحدى الميزات البارزة هي قدرة «سورا» على إنشاء فيديو كامل دفعة واحدة، وبالتالي التخلص من التناقضات، مثل التغييرات في المظهر عندما تتحرك الأهداف خارج نطاق الرؤية.

إلا أن النموذج لا يخلو من نقاط الضعف. على سبيل المثال، قد يُصوَّر شخص ما وهو يأخذ قضمة من تفاحة، ولكن قد لا تظهر علامة العضّ على التفاحة بعد ذلك. أيضاً قد يواجه «سورا» صعوبة في التعامل مع التفاصيل المكانية والاتجاهات، مثل عدم التمييز بين اليسار واليمين، أو صعوبة وصف أحداث المشاهد التي تتكشف بمرور الوقت مثل الالتزام بمسار معين للكاميرا.

مثال آخر للنتيجة التي تولّدها تقنية «سورا» كان هذا الفيديو (من موقع «أوبن إيه آي») حيث طُلب منه تحديداً ما يلي:

«تواجه الكاميرا المباني الملونة مباشرةً في بورانو بإيطاليا. يبدو كلب دلماسي رائع من خلال نافذة في مبنى في الطابق الأرضي. كثير من الناس يسيرون ويركبون الدراجات على طول شوارع القناة أمام المباني».

تقنيات البحث والتطوير

يستخدم «سورا» على غرار نماذج «جي بي تي GPT» أنواع بنيات التعلم العميق المستخدمة لمعالجة البيانات التسلسلية، مما يسمح له بالتعامل مع كميات كبيرة من البيانات بفاعلية. يمثّل النموذج مقاطع الفيديو والصور على أنها مجموعات من تصحيحات البيانات، مشابهة للرموز المميزة في «جي بي تي» مما يسمح له بالتدريب على مجموعة متنوعة من البيانات المرئية. تتمكن تقنية «سورا» من خلال هذا التوحيد في تمثيل البيانات من التعامل مع المدة والدقة ومواصفات أخرى بطريقة أكثر كفاءة من أي وقت مضى. كما يستند «سورا» على الأبحاث الخاصة بنماذج «DALL - E» و«جي بي تي»، فهو يستخدم تقنية «الاسترداد« من «DALL - E 3» لإنشاء تسميات توضيحية وصفية للغاية لبيانات التدريب المرئية. يؤدي هذا إلى إنشاء مقاطع فيديو تتبع تعليمات المستخدم النصية بدقة أكبر. كما يمكن للنموذج تحريك الصور الثابتة أو توسيع مقاطع الفيديو الموجودة مع اهتمام ملحوظ بالتفاصيل، مما يُظهر تنوعه وإمكاناته في تطبيقات العالم الحقيقي.

اعتبارات السلامة والأخلاق

وإدراكاً لأهمية السلامة والأخلاقيات، التزمت «أوبن إيه آي» الكثير من الخطوات المهمة قبل إمكانية دمج «سورا» في منتجاتها. وعبّرت الشركة في تغريدة لها على موقع «إكس» عن أنه من خلال التعاون مع أعضاء «الفريق الأحمر»، وهو فريق داخل الشركة متخصص في مجالات مثل المعلومات الخاطئة والمحتوى الذي يحض على الكراهية والتحيز، يجري تطوير أدوات للكشف عن المحتوى المضلل، بما في ذلك أداة تصنيف قادرة على تحديد مقاطع الفيديو التي أنشأها «سورا».

المشاركة والآفاق المستقبلية

تخطط «أوبن إيه آي» للتعامل مع صناع السياسات والمعلمين والفنانين على مستوى العالم لفهم المخاوف وتحديد حالات الاستخدام الإيجابية لـ«سورا»، على الرغم من الأبحاث والاختبارات المكثفة، فإن النطاق الكامل للاستخدامات المفيدة والضارة المحتملة لا يزال غير معروف. وتؤمن «أوبن إيه آي» بأهمية التعلم من الاستخدام الواقعي بوصفه عنصراً حاسماً في إنشاء أنظمة ذكاء اصطناعي أكثر أماناً مع مرور الوقت.

يمثل «سورا» تقدماً كبيراً في قدرة الذكاء الاصطناعي على فهم ومحاكاة العالم الحقيقي، مما يمثل خطوة حاسمة نحو تحقيق الذكاء العام الاصطناعي (AGI). لا يُظهر تطويره إمكانية إنشاء محتوى فيديو جذاب فحسب، بل يسلط الضوء أيضاً على التحديات والمسؤوليات المستمرة في مجال أبحاث وتطبيقات الذكاء الاصطناعي.


مقالات ذات صلة

علوم برامج للتحكّم بأسراب الطائرات من دون طيار الضخمة

برامج للتحكّم بأسراب الطائرات من دون طيار الضخمة

تقنيات «لمنع الحرب العالمية الثالثة»

باتريك تاكر (واشنطن)
تكنولوجيا «غوغل» تطلق النسخة الأولية من آندرويد 16 للمطورين مع ميزات جديدة لتعزيز الخصوصية ومشاركة البيانات الصحية (غوغل)

«غوغل» تطلق النسخة الأولية من آندرويد 16 للمطورين مع ميزات جديدة

أطلقت «غوغل» النسخة التجريبية الأولية من آندرويد 16 للمطورين، وهي خطوة تمهد الطريق للتحديثات الكبيرة المقبلة في هذا النظام.

عبد العزيز الرشيد (الرياض)
الاقتصاد مهندس يعمل في إحدى المنشآت التابعة لـ«معادن» (الشركة) play-circle 02:41

رئيس «معادن»: حفر 820 ألف متر من آبار الاستكشاف بالسعودية خلال عامين

تتعاون شركة التعدين العربية السعودية (معادن) مع رواد العالم وتستفيد من أحدث التقنيات لتقديم أكبر برنامج تنقيب في منطقة واحدة على مستوى العالم.

آيات نور (الرياض)
الاقتصاد عرض تقديمي في إحدى الفعاليات التقنية التي أقيمت بالعاصمة السعودية الرياض (واس)

رئيس «سكاي»: الذكاء الاصطناعي يعزز مستقبل الاقتصاد السعودي

تتصدر الشركة السعودية للذكاء الاصطناعي (سكاي) مسيرة بناء منظومة تقنية عالمية المستوى ما يمهد الطريق لتحقيق نمو اقتصادي مدفوع بالذكاء الاصطناعي

آيات نور (الرياض)

شركات الذكاء الاصطناعي التوليدي تلجأ إلى الكتب لتطوّر برامجها

شركات الذكاء الاصطناعي تتفق مع دور النشر بما يتيح لهذه الشركات استخدام الأعمال المنشورة لتدريب نماذجها القائمة على الذكاء الاصطناعي التوليدي (رويترز)
شركات الذكاء الاصطناعي تتفق مع دور النشر بما يتيح لهذه الشركات استخدام الأعمال المنشورة لتدريب نماذجها القائمة على الذكاء الاصطناعي التوليدي (رويترز)
TT

شركات الذكاء الاصطناعي التوليدي تلجأ إلى الكتب لتطوّر برامجها

شركات الذكاء الاصطناعي تتفق مع دور النشر بما يتيح لهذه الشركات استخدام الأعمال المنشورة لتدريب نماذجها القائمة على الذكاء الاصطناعي التوليدي (رويترز)
شركات الذكاء الاصطناعي تتفق مع دور النشر بما يتيح لهذه الشركات استخدام الأعمال المنشورة لتدريب نماذجها القائمة على الذكاء الاصطناعي التوليدي (رويترز)

مع ازدياد احتياجات الذكاء الاصطناعي التوليدي، بدأت أوساط قطاع النشر هي الأخرى في التفاوض مع المنصات التي توفر هذه التقنية سعياً إلى حماية حقوق المؤلفين، وإبرام عقود مع الجهات المعنية بتوفير هذه الخدمات لتحقيق المداخيل من محتواها.

واقترحت دار النشر «هاربر كولينز» الأميركية الكبرى أخيراً على بعض مؤلفيها، عقداً مع إحدى شركات الذكاء الاصطناعي تبقى هويتها طي الكتمان، يتيح لهذه الشركة استخدام أعمالهم المنشورة لتدريب نماذجها القائمة على الذكاء الاصطناعي التوليدي.

وفي رسالة اطلعت عليها «وكالة الصحافة الفرنسية»، عرضت شركة الذكاء الاصطناعي 2500 دولار لكل كتاب تختاره لتدريب نموذجها اللغوي «إل إل إم» لمدة 3 سنوات.

آراء متفاوتة

ولكي تكون برامج الذكاء الاصطناعي قادرة على إنتاج مختلف أنواع المحتوى بناء على طلب بسيط بلغة يومية، تنبغي تغذيتها بكمية مزدادة من البيانات.

وبعد التواصل مع دار النشر أكدت الأخيرة الموافقة على العملية. وأشارت إلى أنّ «(هاربر كولينز) أبرمت عقداً مع إحدى شركات التكنولوجيا المتخصصة بالذكاء الاصطناعي للسماح بالاستخدام المحدود لكتب معينة (...) بهدف تدريب نماذج الذكاء الاصطناعي وتحسين أدائها».

وتوضّح دار النشر أيضاً أنّ العقد «ينظّم بشكل واضح ما تنتجه النماذج مع احترامها حقوق النشر».

ولاقى هذا العرض آراء متفاوتة في قطاع النشر، إذ رفضه كتّاب مثل الأميركي دانييل كيبلسميث الذي قال في منشور عبر منصة «بلوسكاي» للتواصل الاجتماعي: «من المحتمل أن أقبل بذلك مقابل مليار دولار، مبلغ يتيح لي التوقف عن العمل، لأن هذا هو الهدف النهائي من هذه التكنولوجيا».

هامش تفاوض محدود

ومع أنّ «هاربر كولينز» هي إحدى كبرى دور النشر التي أبرمت عقوداً من هذا النوع، فإنّها ليست الأولى. فدار «ويلي» الأميركية الناشرة للكتب العلمية أتاحت لشركة تكنولوجية كبيرة «محتوى كتب أكاديمية ومهنية منشورة لاستخدام محدد في نماذج التدريب، مقابل 23 مليون دولار»، كما قالت في مارس (آذار) عند عرض نتائجها المالية.

ويسلط هذا النوع من الاتفاقيات الضوء على المشاكل المرتبطة بتطوير الذكاء الاصطناعي التوليدي، الذي يتم تدريبه على كميات هائلة من البيانات تُجمع من الإنترنت، وهو ما قد يؤدي إلى انتهاكات لحقوق الطبع والنشر.

وترى جادا بيستيلي، رئيسة قسم الأخلاقيات لدى «هاغينغ فايس»، وهي منصة فرنسية - أميركية متخصصة بالذكاء الاصطناعي، أنّ هذا الإعلان يشكل خطوة إلى الأمام، لأنّ محتوى الكتب يدرّ أموالاً. لكنها تأسف لأنّ هامش التفاوض محدود للمؤلفين.

وتقول: «ما سنراه هو آلية لاتفاقيات ثنائية بين شركات التكنولوجيا ودور النشر أو أصحاب حقوق الطبع والنشر، في حين ينبغي أن تكون المفاوضات أوسع لتشمل أصحاب العلاقة».

ويقول المدير القانوني لاتحاد النشر الفرنسي (SNE) جوليان شوراكي: «نبدأ من مكان بعيد جداً»، مضيفاً: «إنّه تقدم، فبمجرّد وجود اتفاق يعني أن حواراً ما انعقد وثمة رغبة في تحقيق توازن فيما يخص استخدام البيانات مصدراً، التي تخضع للحقوق والتي ستولد مبالغ».

مواد جديدة

وفي ظل هذه المسائل، بدأ الناشرون الصحافيون أيضاً في تنظيم هذا الموضوع. ففي نهاية 2023، أطلقت صحيفة «نيويورك تايمز» الأميركية اليومية ملاحقات ضد شركة «أوبن إيه آي» مبتكرة برنامج «تشات جي بي تي» وضد «مايكروسوفت» المستثمر الرئيسي فيها، بتهمة انتهاك حقوق النشر. وقد أبرمت وسائل إعلام أخرى اتفاقيات مع «أوبن إيه آي».

وربما لم يعد أمام شركات التكنولوجيا أي خيار لتحسين منتجاتها سوى باعتماد خيارات تُلزمها بدفع أموال، خصوصاً مع بدء نفاد المواد الجديدة لتشغيل النماذج.

وأشارت الصحافة الأميركية أخيراً إلى أنّ النماذج الجديدة قيد التطوير تبدو كأنها وصلت إلى حدودها القصوى، لا سيما برامج «غوغل» و«أنثروبيك» و«أوبن إيه آي».

ويقول جوليان شوراكي: «يمكن على شبكة الإنترنت، جمع المحتوى القانوني وغير القانوني، وكميات كبيرة من المحتوى المقرصن، مما يشكل مشكلة قانونية. هذا من دون أن ننسى مسألة نوعية البيانات».