«سورا» من «أوبن إيه آي» لإنشاء فيديوهات من أوامر نصية

تبلغ مدة الفيديو دقيقة بدقة 1080 بكسلاً

يمكن لنموذج «سورا» توليد مشاهد تشبه الأفلام بدقة قدرها 1080 بكسلاً (أوبن إيه آي)
يمكن لنموذج «سورا» توليد مشاهد تشبه الأفلام بدقة قدرها 1080 بكسلاً (أوبن إيه آي)
TT

«سورا» من «أوبن إيه آي» لإنشاء فيديوهات من أوامر نصية

يمكن لنموذج «سورا» توليد مشاهد تشبه الأفلام بدقة قدرها 1080 بكسلاً (أوبن إيه آي)
يمكن لنموذج «سورا» توليد مشاهد تشبه الأفلام بدقة قدرها 1080 بكسلاً (أوبن إيه آي)

تمثل تقنية «سورا (Sora)» الجديدة من «أوبن إيه آي» قفزة غير عادية في عالم الذكاء الاصطناعي، لا سيما في مجال تحويل النص إلى فيديو. تم تصميم هذه التقنية المبتكرة لدخول عصر جديد من إنشاء محتوى الفيديو، مما يتيح إنشاء مقاطع فيديو واقعية للغاية ومبتكرة تصل مدتها إلى دقيقة واحدة عبر تعليمات نصّية بسيطة. وبفضل هذه القدرة، يُعد «سورا» مثالاً رائعاً على إمكانات الذكاء الاصطناعي في إحداث نقلة مهمة في إنشاء الوسائط الرقمية. على سبيل المثال تم إعطاء «سورا» التعليمات التالية:

«امرأة أنيقة تسير في أحد شوارع طوكيو المليئة بالنيون المتوهج الدافئ ولافتات المدينة المتحركة. ترتدي سترة جلدية سوداء، وفستاناً أحمر طويلاً، وحذاءً أسود، وتحمل محفظة سوداء. إنها ترتدي النظارات الشمسية وتضع أحمر الشفاه. إنها تمشي بثقة وبشكل عرضيّ. الشارع رطب وعاكس، مما يخلق تأثير مرآة للأضواء الملونة. يتجول الكثير من المشاة». وهكذا كانت النتيجة (من موقع «أوبن إيه آي»):

القدرات المبتكرة والتحديات

يستطيع «سورا» إنشاء مشاهد معقدة تتميز بشخصيات متعددة، وأنواع معينة من الحركة، وسيناريوهات مفصلة، ​​كل ذلك مع فهم الفروق الدقيقة المضمَّنة في مطالبة المستخدم. كما أن إحدى الميزات البارزة هي قدرة «سورا» على إنشاء فيديو كامل دفعة واحدة، وبالتالي التخلص من التناقضات، مثل التغييرات في المظهر عندما تتحرك الأهداف خارج نطاق الرؤية.

إلا أن النموذج لا يخلو من نقاط الضعف. على سبيل المثال، قد يُصوَّر شخص ما وهو يأخذ قضمة من تفاحة، ولكن قد لا تظهر علامة العضّ على التفاحة بعد ذلك. أيضاً قد يواجه «سورا» صعوبة في التعامل مع التفاصيل المكانية والاتجاهات، مثل عدم التمييز بين اليسار واليمين، أو صعوبة وصف أحداث المشاهد التي تتكشف بمرور الوقت مثل الالتزام بمسار معين للكاميرا.

مثال آخر للنتيجة التي تولّدها تقنية «سورا» كان هذا الفيديو (من موقع «أوبن إيه آي») حيث طُلب منه تحديداً ما يلي:

«تواجه الكاميرا المباني الملونة مباشرةً في بورانو بإيطاليا. يبدو كلب دلماسي رائع من خلال نافذة في مبنى في الطابق الأرضي. كثير من الناس يسيرون ويركبون الدراجات على طول شوارع القناة أمام المباني».

تقنيات البحث والتطوير

يستخدم «سورا» على غرار نماذج «جي بي تي GPT» أنواع بنيات التعلم العميق المستخدمة لمعالجة البيانات التسلسلية، مما يسمح له بالتعامل مع كميات كبيرة من البيانات بفاعلية. يمثّل النموذج مقاطع الفيديو والصور على أنها مجموعات من تصحيحات البيانات، مشابهة للرموز المميزة في «جي بي تي» مما يسمح له بالتدريب على مجموعة متنوعة من البيانات المرئية. تتمكن تقنية «سورا» من خلال هذا التوحيد في تمثيل البيانات من التعامل مع المدة والدقة ومواصفات أخرى بطريقة أكثر كفاءة من أي وقت مضى. كما يستند «سورا» على الأبحاث الخاصة بنماذج «DALL - E» و«جي بي تي»، فهو يستخدم تقنية «الاسترداد« من «DALL - E 3» لإنشاء تسميات توضيحية وصفية للغاية لبيانات التدريب المرئية. يؤدي هذا إلى إنشاء مقاطع فيديو تتبع تعليمات المستخدم النصية بدقة أكبر. كما يمكن للنموذج تحريك الصور الثابتة أو توسيع مقاطع الفيديو الموجودة مع اهتمام ملحوظ بالتفاصيل، مما يُظهر تنوعه وإمكاناته في تطبيقات العالم الحقيقي.

اعتبارات السلامة والأخلاق

وإدراكاً لأهمية السلامة والأخلاقيات، التزمت «أوبن إيه آي» الكثير من الخطوات المهمة قبل إمكانية دمج «سورا» في منتجاتها. وعبّرت الشركة في تغريدة لها على موقع «إكس» عن أنه من خلال التعاون مع أعضاء «الفريق الأحمر»، وهو فريق داخل الشركة متخصص في مجالات مثل المعلومات الخاطئة والمحتوى الذي يحض على الكراهية والتحيز، يجري تطوير أدوات للكشف عن المحتوى المضلل، بما في ذلك أداة تصنيف قادرة على تحديد مقاطع الفيديو التي أنشأها «سورا».

المشاركة والآفاق المستقبلية

تخطط «أوبن إيه آي» للتعامل مع صناع السياسات والمعلمين والفنانين على مستوى العالم لفهم المخاوف وتحديد حالات الاستخدام الإيجابية لـ«سورا»، على الرغم من الأبحاث والاختبارات المكثفة، فإن النطاق الكامل للاستخدامات المفيدة والضارة المحتملة لا يزال غير معروف. وتؤمن «أوبن إيه آي» بأهمية التعلم من الاستخدام الواقعي بوصفه عنصراً حاسماً في إنشاء أنظمة ذكاء اصطناعي أكثر أماناً مع مرور الوقت.

يمثل «سورا» تقدماً كبيراً في قدرة الذكاء الاصطناعي على فهم ومحاكاة العالم الحقيقي، مما يمثل خطوة حاسمة نحو تحقيق الذكاء العام الاصطناعي (AGI). لا يُظهر تطويره إمكانية إنشاء محتوى فيديو جذاب فحسب، بل يسلط الضوء أيضاً على التحديات والمسؤوليات المستمرة في مجال أبحاث وتطبيقات الذكاء الاصطناعي.


مقالات ذات صلة

علوم برامج للتحكّم بأسراب الطائرات من دون طيار الضخمة

برامج للتحكّم بأسراب الطائرات من دون طيار الضخمة

تقنيات «لمنع الحرب العالمية الثالثة»

باتريك تاكر (واشنطن)
تكنولوجيا «غوغل» تطلق النسخة الأولية من آندرويد 16 للمطورين مع ميزات جديدة لتعزيز الخصوصية ومشاركة البيانات الصحية (غوغل)

«غوغل» تطلق النسخة الأولية من آندرويد 16 للمطورين مع ميزات جديدة

أطلقت «غوغل» النسخة التجريبية الأولية من آندرويد 16 للمطورين، وهي خطوة تمهد الطريق للتحديثات الكبيرة المقبلة في هذا النظام.

عبد العزيز الرشيد (الرياض)
الاقتصاد مهندس يعمل في إحدى المنشآت التابعة لـ«معادن» (الشركة) play-circle 02:41

رئيس «معادن»: حفر 820 ألف متر من آبار الاستكشاف بالسعودية خلال عامين

تتعاون شركة التعدين العربية السعودية (معادن) مع رواد العالم وتستفيد من أحدث التقنيات لتقديم أكبر برنامج تنقيب في منطقة واحدة على مستوى العالم.

آيات نور (الرياض)
الاقتصاد عرض تقديمي في إحدى الفعاليات التقنية التي أقيمت بالعاصمة السعودية الرياض (واس)

رئيس «سكاي»: الذكاء الاصطناعي يعزز مستقبل الاقتصاد السعودي

تتصدر الشركة السعودية للذكاء الاصطناعي (سكاي) مسيرة بناء منظومة تقنية عالمية المستوى ما يمهد الطريق لتحقيق نمو اقتصادي مدفوع بالذكاء الاصطناعي

آيات نور (الرياض)

مؤتمر «مايكروسوفت إغنايت 2024» يكشف عن أبرز نزعات الذكاء الاصطناعي المقبلة

يستعرض مؤتمر «مايكروسوفت إغنايت 2024» أبرز تقنيات الذكاء الاصطناعي المقبلة
يستعرض مؤتمر «مايكروسوفت إغنايت 2024» أبرز تقنيات الذكاء الاصطناعي المقبلة
TT

مؤتمر «مايكروسوفت إغنايت 2024» يكشف عن أبرز نزعات الذكاء الاصطناعي المقبلة

يستعرض مؤتمر «مايكروسوفت إغنايت 2024» أبرز تقنيات الذكاء الاصطناعي المقبلة
يستعرض مؤتمر «مايكروسوفت إغنايت 2024» أبرز تقنيات الذكاء الاصطناعي المقبلة

تنتهي اليوم فعاليات مؤتمر «مايكروسوفت إغنايت 2024» (Microsoft Ignite) السنوي في مدينة شيكاغو الأميركية، بحضور تجاوز 14 ألف زائر، الذي استعرضت «مايكروسوفت» خلال أيامه الثلاثة أكثر من 80 خدمة ومنتجاً وميزة مرتبطة بالذكاء الاصطناعي.

الذكاء الاصطناعي بخدمة الموظفين

طوّرت الشركة خدمة «مايكروسوفت 365 كوبايلوت» (Microsoft 365 Copilot) الخاصة بالشركات، مقدمة «أفعال كوبايلوت» (Copilot Actions) التي تسمح بأتمتة المهام اليومية في مجال العمل بأوامر بسيطة، مثل الحصول على ملخص اجتماعات «تيمز» (Teams) في ذلك اليوم أو إعداد التقارير الأسبوعية أو تلخيص ما الذي يجب القيام به حسب الرسائل الواردة إلى بريد المستخدم والاجتماعات التي حدثت قبل عودته من إجازته السنوية، وغيرها.

 

 

«عملاء مايكروسوفت»

كشفت الشركة كذلك ميزة «عملاء مايكروسوفت» (Microsoft Agents) التي تسمح بالبحث في ملفات الشركة وتحليلها والإجابة على أسئلة الموظفين أو العملاء بكل خصوصية، وتلخيص النتائج بهدف تسريع اتخاذ قرارات العمل. وتعمل هذه الميزة في خدمة «شيربوينت» (SharePoint) لكل شركة.

 

 

 

المترجم الفوري

ويمكن لعميل ذكاء اصطناعي اسمه «المترجم الفوري» (Interpreter) ترجمة محادثات الاجتماعات المرئية في «تيمز» بهدف كسر الحواجز اللغوية والتركيز على جوهر الاجتماع، مع القدرة على محاكاة صوت المستخدم بلغة الطرف الثاني. ويمكن لعميل ذكي آخر اسمه «المُيَسِّر» (Facilitator) تلخيص اجتماعات «تيمز» وأتمتة إدارة المشاريع عبر جميع مراحلها. كما يستطيع بعض عملاء الذكاء الاصطناعي مساعدة الموظفين على حلّ مشاكلهم التقنية دون الحاجة للعودة إلى قسم الدعم الفني، والإجابة على أسئلتهم المتعلقة بسياسات الشركة والموارد البشرية والمشتريات، وغيرها.

الذكاء الاصطناعي رفيق المبرمجين

ولتسهيل تضمين تقنيات الذكاء الاصطناعي في برامج الشركات والأفراد، تقدم «مايكروسوفت» ما تسميه بـ«مسبك آجور للذكاء الاصطناعي» (Azure AI Foundry) الذي يوفر مجموعة برمجية للذكاء الاصطناعي وبوابة لتطوير عملاء الذكاء الاصطناعي.

وتوفر هذه المجموعة البرمجية أكثر من 25 قالباً مسبق الإعداد (Template) للذكاء الاصطناعي تسمح بتطوير تطبيقات مدعومة بهذه التقنية وتبسيط عملية البرمجة ونشرها عبر منصات «غيتهاب» (Github) و«فيجوال ستوديو» (Visual Studio) و«كوبايلوت ستوديو» (Copilot Studio). وتسمح البوابة للمبرمجين اكتشاف خدمات وأدوات ونماذج ذكاء اصطناعي تناسب احتياجاتهم واحتياجات الشركات التي يعملون لديها.

حماية المستخدمين

حذّرت «مايكروسوفت» أن عدد الهجمات الإلكترونية التي تستهدف سرقة كلمات السرّ قد ارتفع خلال آخر 3 أعوام من 579 إلى أكثر من 7000 هجمة في كل ثانية، مع مضاعفة العدد في آخر سنة، ما يضع سبل الحماية التقليدية في موضع لا يسمح لها اللحاق بتقدم القراصنة.

مبادرة المستقبل الآمن

هذا الأمر يتطلب إعادة تطوير عملية حماية المستخدمين، ما دفع الشركة إلى إطلاق «مبادرة المستقبل الآمن» (Secure Future Initiative) التي طلبت من 34000 مهندس العمل على أكبر مشروع للأمن الرقمي بتاريخ البشرية وتطوير مقاومة البرامج ونظم التشغيل وأجهزة المستخدمين لطوفان الهجمات الرقمية الذي تتسارع وتيرته في كل يوم.

وكشفت كذلك عن عملها على تطوير «مايكروسوفت سيكيوريتي إكسبوجر مانجمنت» (Microsoft Security Exposure Management) الذي يقوم بتحليل آلية تواصل الأجهزة المختلفة والبيانات والهوية الرقمية والشبكات، بعضها مع بعض، داخل بيئة العمل واكتشاف العلاقات بينها وعرض مسار الاختراقات الممكنة لأي قرصان إلكتروني، وذلك لاكتشاف نقطة الضعف في البيئة المعقدة التي يمكن للقراصنة الدخول منها، وتوقع هدفهم وتتبع المسار المفترض لهم عبر الأجهزة المختلفة للوصول إلى الهوية الرقمية أو البيانات الحساسة، ومن ثم حماية ذلك المسار بشكل استباقي على صعيد سدّ الثغرات في الأجهزة أو البرامج أو نظام التشغيل أو الشبكة، وغيرها من العوامل الأخرى. كما يستطيع هذا المشروع التأكد من سلامة الاحتياطات الأمنية للفريق التقني داخل الشركة.

وأطلقت الشركة نظام «مايكروسوفت سيكيوريتي كوبايلوت» (Microsoft Security Copilot) المدعوم بالذكاء الاصطناعي للقيام بالوظائف الأمنية باستخدام الذكاء الاصطناعي بكل سلاسة وسهولة، حيث أظهرت الدراسات انخفاض معدل مدة حلّ المشاكل الأمنية لدى استخدام هذا النظام بنحو 30 في المائة.

أجهزة الذكاء الاصطناعي

واستعرضت الشركة أول جهاز من فئته، مصنوع خصيصاً للاتصال بأمان مع خدمة «ويندوز 365» السحابية، اسمه «ويندوز 365 لينك» (Windows 365 Link).

الجهاز بسيط وآمن، وسيتم إطلاقه في أبريل (نيسان) 2025 المقبل، بسعر 349 دولاراً أميركياً، ويسمح للمستخدمين بالعمل بأمان مع نظام التشغيل «ويندوز» السحابي بكل سرعة وموثوقية.

ولا يقوم الجهاز بتخزين أي بيانات داخله، ولا يقوم بتثبيت أي برامج فيه، مع تقديم وحدة معالجة للذكاء الاصطناعي مدمجة فيه لتسريع التفاعل مع البيانات والحصول على النتائج بكل سلاسة.

 

تحليل علوم الأرض

وعلى الصعيد نفسه، تعاونت وكالة الفضاء الأميركية «ناسا» مع «مايكروسوفت» لتطوير أداة مدعومة بالذكاء الاصطناعي اسمها «كوبايلوت الأرض» (Earth Copilot) تهدف إلى تبسيط عملية تحليل البيانات المرتبطة بعلوم الأرض التي تجمعها الأقمار الاصطناعية الخاصة بـ«ناسا». وسيتم نشر هذه البيانات المعقدة للجميع بهدف مشاركة المعلومات المهمة مع العلماء والباحثين والطلاب والمدرسين وصناع السياسات وعموم الناس.

وستستخدم الوكالة خدمة «آجور أوبين إيه آي» (Azure OpenAI Service) لتذليل العقبات التقنية وتمكين المجموعات المختلفة للمستخدمين من التفاعل مع البيانات العلمية لكوكب الأرض، ما يدل على الأبواب التي يفتحها الذكاء الاصطناعي لتسهيل وتبسيط عملية التعليم والبحث وتحليل مجموعات البيانات الضخمة في المجالات العلمية وسنّ السياسات، وفي مجالات الزراعة والتخطيط الحضري والاستجابة في حالات الكوارث، وغيرها.

ويمكن زيارة الموقع من هذا الرابط: www.earthdata.nasa.gov/dashboard