«سورا» من «أوبن إيه آي» لإنشاء فيديوهات من أوامر نصية

تبلغ مدة الفيديو دقيقة بدقة 1080 بكسلاً

يمكن لنموذج «سورا» توليد مشاهد تشبه الأفلام بدقة قدرها 1080 بكسلاً (أوبن إيه آي)
يمكن لنموذج «سورا» توليد مشاهد تشبه الأفلام بدقة قدرها 1080 بكسلاً (أوبن إيه آي)
TT

«سورا» من «أوبن إيه آي» لإنشاء فيديوهات من أوامر نصية

يمكن لنموذج «سورا» توليد مشاهد تشبه الأفلام بدقة قدرها 1080 بكسلاً (أوبن إيه آي)
يمكن لنموذج «سورا» توليد مشاهد تشبه الأفلام بدقة قدرها 1080 بكسلاً (أوبن إيه آي)

تمثل تقنية «سورا (Sora)» الجديدة من «أوبن إيه آي» قفزة غير عادية في عالم الذكاء الاصطناعي، لا سيما في مجال تحويل النص إلى فيديو. تم تصميم هذه التقنية المبتكرة لدخول عصر جديد من إنشاء محتوى الفيديو، مما يتيح إنشاء مقاطع فيديو واقعية للغاية ومبتكرة تصل مدتها إلى دقيقة واحدة عبر تعليمات نصّية بسيطة. وبفضل هذه القدرة، يُعد «سورا» مثالاً رائعاً على إمكانات الذكاء الاصطناعي في إحداث نقلة مهمة في إنشاء الوسائط الرقمية. على سبيل المثال تم إعطاء «سورا» التعليمات التالية:

«امرأة أنيقة تسير في أحد شوارع طوكيو المليئة بالنيون المتوهج الدافئ ولافتات المدينة المتحركة. ترتدي سترة جلدية سوداء، وفستاناً أحمر طويلاً، وحذاءً أسود، وتحمل محفظة سوداء. إنها ترتدي النظارات الشمسية وتضع أحمر الشفاه. إنها تمشي بثقة وبشكل عرضيّ. الشارع رطب وعاكس، مما يخلق تأثير مرآة للأضواء الملونة. يتجول الكثير من المشاة». وهكذا كانت النتيجة (من موقع «أوبن إيه آي»):

القدرات المبتكرة والتحديات

يستطيع «سورا» إنشاء مشاهد معقدة تتميز بشخصيات متعددة، وأنواع معينة من الحركة، وسيناريوهات مفصلة، ​​كل ذلك مع فهم الفروق الدقيقة المضمَّنة في مطالبة المستخدم. كما أن إحدى الميزات البارزة هي قدرة «سورا» على إنشاء فيديو كامل دفعة واحدة، وبالتالي التخلص من التناقضات، مثل التغييرات في المظهر عندما تتحرك الأهداف خارج نطاق الرؤية.

إلا أن النموذج لا يخلو من نقاط الضعف. على سبيل المثال، قد يُصوَّر شخص ما وهو يأخذ قضمة من تفاحة، ولكن قد لا تظهر علامة العضّ على التفاحة بعد ذلك. أيضاً قد يواجه «سورا» صعوبة في التعامل مع التفاصيل المكانية والاتجاهات، مثل عدم التمييز بين اليسار واليمين، أو صعوبة وصف أحداث المشاهد التي تتكشف بمرور الوقت مثل الالتزام بمسار معين للكاميرا.

مثال آخر للنتيجة التي تولّدها تقنية «سورا» كان هذا الفيديو (من موقع «أوبن إيه آي») حيث طُلب منه تحديداً ما يلي:

«تواجه الكاميرا المباني الملونة مباشرةً في بورانو بإيطاليا. يبدو كلب دلماسي رائع من خلال نافذة في مبنى في الطابق الأرضي. كثير من الناس يسيرون ويركبون الدراجات على طول شوارع القناة أمام المباني».

تقنيات البحث والتطوير

يستخدم «سورا» على غرار نماذج «جي بي تي GPT» أنواع بنيات التعلم العميق المستخدمة لمعالجة البيانات التسلسلية، مما يسمح له بالتعامل مع كميات كبيرة من البيانات بفاعلية. يمثّل النموذج مقاطع الفيديو والصور على أنها مجموعات من تصحيحات البيانات، مشابهة للرموز المميزة في «جي بي تي» مما يسمح له بالتدريب على مجموعة متنوعة من البيانات المرئية. تتمكن تقنية «سورا» من خلال هذا التوحيد في تمثيل البيانات من التعامل مع المدة والدقة ومواصفات أخرى بطريقة أكثر كفاءة من أي وقت مضى. كما يستند «سورا» على الأبحاث الخاصة بنماذج «DALL - E» و«جي بي تي»، فهو يستخدم تقنية «الاسترداد« من «DALL - E 3» لإنشاء تسميات توضيحية وصفية للغاية لبيانات التدريب المرئية. يؤدي هذا إلى إنشاء مقاطع فيديو تتبع تعليمات المستخدم النصية بدقة أكبر. كما يمكن للنموذج تحريك الصور الثابتة أو توسيع مقاطع الفيديو الموجودة مع اهتمام ملحوظ بالتفاصيل، مما يُظهر تنوعه وإمكاناته في تطبيقات العالم الحقيقي.

اعتبارات السلامة والأخلاق

وإدراكاً لأهمية السلامة والأخلاقيات، التزمت «أوبن إيه آي» الكثير من الخطوات المهمة قبل إمكانية دمج «سورا» في منتجاتها. وعبّرت الشركة في تغريدة لها على موقع «إكس» عن أنه من خلال التعاون مع أعضاء «الفريق الأحمر»، وهو فريق داخل الشركة متخصص في مجالات مثل المعلومات الخاطئة والمحتوى الذي يحض على الكراهية والتحيز، يجري تطوير أدوات للكشف عن المحتوى المضلل، بما في ذلك أداة تصنيف قادرة على تحديد مقاطع الفيديو التي أنشأها «سورا».

المشاركة والآفاق المستقبلية

تخطط «أوبن إيه آي» للتعامل مع صناع السياسات والمعلمين والفنانين على مستوى العالم لفهم المخاوف وتحديد حالات الاستخدام الإيجابية لـ«سورا»، على الرغم من الأبحاث والاختبارات المكثفة، فإن النطاق الكامل للاستخدامات المفيدة والضارة المحتملة لا يزال غير معروف. وتؤمن «أوبن إيه آي» بأهمية التعلم من الاستخدام الواقعي بوصفه عنصراً حاسماً في إنشاء أنظمة ذكاء اصطناعي أكثر أماناً مع مرور الوقت.

يمثل «سورا» تقدماً كبيراً في قدرة الذكاء الاصطناعي على فهم ومحاكاة العالم الحقيقي، مما يمثل خطوة حاسمة نحو تحقيق الذكاء العام الاصطناعي (AGI). لا يُظهر تطويره إمكانية إنشاء محتوى فيديو جذاب فحسب، بل يسلط الضوء أيضاً على التحديات والمسؤوليات المستمرة في مجال أبحاث وتطبيقات الذكاء الاصطناعي.


مقالات ذات صلة

«غوغل» تعزز تجربة زوار ومتابعي أولمبياد باريس عبر تقنيات وتحديثات خاصة

تكنولوجيا تقدم «غوغل» التحديثات في الوقت الفعلي والخرائط التفاعلية وخدمات البث ومساعدي الذكاء الاصطناعي لمتابعي الأولمبياد (غوغل)

«غوغل» تعزز تجربة زوار ومتابعي أولمبياد باريس عبر تقنيات وتحديثات خاصة

بمساعدة التكنولوجيا المتقدمة والمنصات الرقمية لـ«غوغل»، يمكن لمشجع أولمبياد باريس في جميع أنحاء العالم البقاء على اتصال واطلاع طوال المباريات.

نسيم رمضان (لندن)
تكنولوجيا «واتساب» سيطلق قريباً ميزتي الترجمة التلقائية وأسماء المستخدمين لتعزيز التواصل والخصوصية (أبل)

«واتساب» يختبر ميزة الترجمة التلقائية للمحادثات وأسماء المستخدمين

بهدف تعزيز التواصل والخصوصية...

عبد العزيز الرشيد (الرياض)
تكنولوجيا يزود «Galaxy Z Flip6 Olympic» بشريحة «eSIM» مع 100 غيغابايت من بيانات 5G لدعم تواصل أفضل للرياضيين (سامسونغ)

«سامسونغ» تكشف عن إصدار خاص من «Galaxy Z Flip6» لرياضيي أولمبياد 2024

إنها المرة الأولى التي يتوفر فيها أحدث منتجات «سامسونغ» للرياضيين قبل إطلاقه رسمياً في السوق.

نسيم رمضان (لندن)
علوم «مبنى برّي» ينمو من الأشجار قد يجسد مستقبل الهندسة المعمارية

«مبنى برّي» ينمو من الأشجار قد يجسد مستقبل الهندسة المعمارية

ينمو مثل الغابة المحيطة به.

نيت بيرغ
تكنولوجيا مشروع نقل البيانات هو مبادرة مفتوحة المصدر تهدف إلى تمكين المستخدمين من نقل بياناتهم بسهولة بين الخدمات عبر الإنترنت (غوغل)

إليك الخطوات البسيطة لنقل الصور والفيديوهات من «غوغل» إلى «أبل آي كلاود»

أطلقت «غوغل» ميزة نقل الصور من (Google Photos) إلى «أبل آي كلاود (Apple iCloud)»، وأصبحت العملية أسهل وأسرع.

عبد العزيز الرشيد (الرياض)

«غوغل» تعزز تجربة زوار ومتابعي أولمبياد باريس عبر تقنيات وتحديثات خاصة

تقدم «غوغل» التحديثات في الوقت الفعلي والخرائط التفاعلية وخدمات البث ومساعدي الذكاء الاصطناعي لمتابعي الأولمبياد (غوغل)
تقدم «غوغل» التحديثات في الوقت الفعلي والخرائط التفاعلية وخدمات البث ومساعدي الذكاء الاصطناعي لمتابعي الأولمبياد (غوغل)
TT

«غوغل» تعزز تجربة زوار ومتابعي أولمبياد باريس عبر تقنيات وتحديثات خاصة

تقدم «غوغل» التحديثات في الوقت الفعلي والخرائط التفاعلية وخدمات البث ومساعدي الذكاء الاصطناعي لمتابعي الأولمبياد (غوغل)
تقدم «غوغل» التحديثات في الوقت الفعلي والخرائط التفاعلية وخدمات البث ومساعدي الذكاء الاصطناعي لمتابعي الأولمبياد (غوغل)

تمثل فعاليات أولمبياد باريس 2024 حدثاً مليئاً بالتميز الرياضي والاحتفال الثقافي والوحدة العالمية. مع تنافس آلاف الرياضيين على مدار الأيام التسعة عشر المقبلة، من المقرر أن تكون مدينة باريس مركزاً صاخباً للإثارة والنشاط. وبينما يتابع المتفرجون والمشجعون من جميع أنحاء العالم هذه العروض الرائعة، تلعب تقنيات «غوغل» دوراً محورياً في تعزيز تجربتهم، من التحديثات في الوقت الفعلي إلى الخرائط التفاعلية وخدمات البث.

تحديثات البحث في الوقت الفعلي

قد يكون مواكبة الحجم الهائل من الأحداث والمسابقات أمراً شاقاً. لتسهيل الأمر، يقدم «بحث غوغل» تحديثات في الوقت الفعلي توفر تغطية شاملة للألعاب الأولمبية. من خلال البحث عن بلدان أو رياضات أو رياضيين محددين أو محتوى أوليمبي عام، يمكن للمستخدمين الوصول إلى جداول الأحداث والنتائج وأعداد الميداليات، وأبرز مقاطع الفيديو والتقارير اليومية وأحدث القصص والآراء على وسائل التواصل الاجتماعي.

تضمن هذه التجربة المحلية أن يرى المشاهدون الجداول الزمنية في مناطقهم الزمنية الخاصة، إلى جانب تحديثات الأداء والأحداث الرائجة ذات الصلة ببلدهم. وستظهر الميزات الخاصة نتائج الانتصارات القياسية والميداليات، مما يضيف طبقة إضافية من المشاركة.

يوفر «جيمناي» محرك البحث الخاص بـ«غوغل» معلومات مفصلة عن الألعاب الأولمبية (غوغل)

استخدام «خرائط غوغل» و«وييز»

قد يكون التنقل في شوارع باريس في أثناء الألعاب الأولمبية أمراً صعباً، خاصة مع إغلاق الطرق المؤقت ومناطق القيادة المقيدة. لمساعدة الزوار والسكان المحليين، تم تحديث تطبيقي «خرائط غوغل» و«وييز»؛ لتوفير أحدث معلومات التوجيه. ستُعلم ميزة الأحداث المرورية الجديدة في «وييز» السائقين بالانقطاعات المرورية المقبلة والنشطة، مما يساعدهم على التخطيط لمساراتهم بكفاءة أكبر. بالنسبة لأولئك الذين يستخدمون وسائل النقل العام، تتيح الميزات الجديدة على «خرائط غوغل» للمستخدمين معاينة رحلاتهم بالحافلة أو القطار أو المترو، مع مراعاة عدد التحويلات والطرق المكيفة، وتكاليف التذاكر ومعلومات الانقطاع في الوقت الفعلي وحافلات الألعاب الأولمبية الرسمية.

تجارب افتراضية

تسعى «غوغل» لجعل التخطيط لمسار الرحلة أسهل مع ميزة «Immersive View» المتوفرة الآن لـ50 مدينة جديدة في أوروبا. تتيح هذه الميزة للمستخدمين تجربة المعالم السياحية والأماكن الرياضية الشهيرة افتراضياً، مما يسهل تحديد الأماكن التي يجب زيارتها. بالإضافة إلى ذلك، يمكن لقوائم المطاعم الجديدة على الخرائط أن تساعد في تنظيم جولة طهي باريسية، مع تقديم توصيات من أدلة السفر المحلية مثل «Sortiraparis». وبالنسبة لأولئك الذين يستكشفون المدينة، توفر تقنية الواقع المعزز في «خرائط غوغل» طريقة فريدة لرؤية المعالم الأيقونية، مثل التصميمات المعمارية المبكرة لبرج إيفل من القرن العشرين، وذلك بفضل المحتوى من «Google Arts & Culture».

سيضم «متجر غوغل» تطبيقات وألعاباً وكتباً للمساعدة على الانخراط في روح الألعاب الأولمبية (غوغل)

مشاهدة محتوى المبدعين وأبرز الأحداث

يتعاون «يوتيوب» مع شركات البث الرسمية لأولمبياد باريس 2024 واللجنة الأولمبية الدولية، لتقديم آلاف الساعات من المحتوى الأولمبي للمشجعين في جميع أنحاء العالم. في أسواق مختارة، ستبث هذه الشركات البث المباشر للأحداث وحفلي الافتتاح والختام على قنواتها على «يوتيوب». وبالنسبة لأولئك الذين لا يريدون تفويت أي حدث، تتيح ميزة العرض المتعدد على «يوتيوب» للمشاهدين مشاهدة ما يصل إلى أربعة بثوث في وقت واحد.

ماذا عن «جيمناي»؟

تقول «غوغل» إن مساعدها الشخصي للذكاء الاصطناعي، «جيميناي»، يوفر معلومات مفصلة عن الألعاب الأولمبية. يمكن للمستخدمين سؤال «جيمناي» عن الرياضات الجديدة والرياضيين والاختلافات في الأحداث. على سبيل المثال، يمكن سؤاله: «ما هي بعض الوجبات الخفيفة والمشروبات السهلة ذات الطابع الأولمبي التي يمكنني تقديمها لحفلة مشاهدة؟»، أو «ما هي الاختلافات الرئيسية بين المنافسة في سباق الدراجات على الطرق الأولمبي وسباق فرنسا للدراجات؟».

يقدم «جيمناي» ملخصات موجزة واقتراحات مفيدة، مما يجعله أداة قيمة لكل من المشاهدين العاديين ومشجعي الرياضة المتحمسين.

محتوى «غوغل بلاي»

خلال الألعاب، يعرض «غوغل بلاي» مجموعة متنوعة من التطبيقات والألعاب والكتب لمساعدة المستخدمين على الدخول في أجواء الألعاب الأولمبية. كما يقدم تطبيق الألعاب الأولمبية الرسمي تغطية شاملة للأحداث، بينما تسمح التطبيقات الأخرى للمستخدمين بمشاهدة أحداثهم المفضلة وممارسة اللغة الفرنسية والمزيد. تضمن التحديثات اليومية على «بلاي» أن يظل المستخدمون على اطلاع دائم ومتفاعلين مع أحدث محتوى الألعاب الأولمبية. من المتوقع أن تكون أولمبياد باريس 2024 حدثاً مذهلاً، عارضة أروع الإنجازات الرياضية والاحتفالات الثقافية. وبمساعدة التكنولوجيا المتقدمة والمنصات الرقمية، يمكن للمشجعين في جميع أنحاء العالم البقاء على اتصال واطلاع طوال الألعاب.