الفيديوهات الفورية... القفزة النّوعية التالية لتقنية الذكاء الصناعي

تسرِّع عمل الفنانين... وقد توظف للتضليل الإلكتروني

فيديو أُنتج بعد طبع عبارة «بقرة في عيد ميلاد»
فيديو أُنتج بعد طبع عبارة «بقرة في عيد ميلاد»
TT

الفيديوهات الفورية... القفزة النّوعية التالية لتقنية الذكاء الصناعي

فيديو أُنتج بعد طبع عبارة «بقرة في عيد ميلاد»
فيديو أُنتج بعد طبع عبارة «بقرة في عيد ميلاد»

تعمل واحدة من مجموعة من الشركات الناشئة في نيويورك، على تطوير نظام لإنتاج فيديوهات قصيرة، بالاعتماد على بضع كلمات تُطبع على جهاز الكمبيوتر.
طبع إيان سانسافيرا، مهندس برمجة بشركة «رانوي إي.آي.» الناشئة في نيويورك، توصيفاً مختصراً لما يريد رؤيته في مقطع فيديو، فكتب: «نهرٌ هادئ في الغابة»... وبعد أقلّ من دقيقتين، ولّدت خدمة إنترنت تجريبية مقطع فيديو قصيراً لنهرٍ هادئ في غابة. تدفّقت مياه النهر تحت ضوء الشمس، وتقاطعت بين الأشجار والأعشاب، ثمّ استدارت وضربت برفقٍ على الصخور.

فيديو بطباعة كلمتين
تُعدّ «رانوي Runway»، التي وفّرت خدمتها لمجموعة صغيرة لاختبارها، بداية هذا الشهر، واحدةً من شركات عدّة تعمل حالياً على تطوير تقنية ذكاء صناعي قد تتيح قريباً للناس صناعة فيديوهات بطباعة بضع كلمات في مربّع على شاشة الكمبيوتر.


فيديو أُنتج بعد طبع عبارة «كلب يحمل هاتفاً»

تمثّل هذه الشركات المرحلة المقبلة من السباق الذي تشهده هذه الصناعة - والذي يضمّ عمالقة كمايكروسوفت وغوغل بالإضافة إلى شركات ناشئة صغيرة أخرى - لابتكار أنظمة يعتقد البعض أنّها ستكون الاختراق المقبل في عالم الذكاء الصناعي، كما حصل عند ابتكار المتصفّحات الإلكترونية والآيفون.
قد تسرِّع أنظمة توليد الفيديوهات الجديدة عمل صانعي الأفلام وغيرهم من الفنّانين الرقميين، ولكنها يمكن أن تتحوّل أيضاً إلى وسيلة تضليل إلكتروني جديدة يصعب رصدها، وتزيد، من ثم، صعوبة التمييز بين الحقيقي والمزيف على شبكة الإنترنت.
تُعدّ هذه الأنظمة من الأمثلة على ما يُعرف بالذكاء الصناعي التوليدي «generative A.I»، القادر على صناعة النصوص، والصور، والأصوات بشكلٍ فوري. ومثلها الآخر هو «تشات جي.بي.تي.»، برنامج المحادثة الذي طوّرته شركة «أوبن إيه.آي.» وأذهل صناعة التقنية بقدراته، منذ أواخر العام الماضي.
وكانت شركتا «غوغل» و«ميتا (الشركة المالكة لفيسبوك)» قد كشفتا عن أوّل نظم صناعة الفيديوهات، العام الماضي، ولكنّهما لم تشاركاه مع المستخدمين بسبب مخاوف من استخدامه لنشر المعلومات المضلّلة بمستوى جديد من السرعة والفعالية.

فيديو أُنتج بعد طبع عبارة «نهرٌ هادئ في الغابة»

ويعتقد كريستوبال فالنزويلا، الرئيس التنفيذي لـ«رانوي»، أن التقنية أهمّ بكثير من أن تُترك في المختبر، رغم مخاطرها، واصفاً إيّاها «بواحدة من أكثر التقنيات المثيرة للإعجاب، التي طُوّرت في السنوات المائة الأخيرة. يجب أن نسمح للنّاس باستخدامها».
لا يُعدّ توليف الأفلام والفيديوهات، والتلاعب بها، بالأمر الجديد طبعاً، إذ يستخدم صانعو الأفلام هذه الأدوات منذ ما يقارب قرناً من الزمن. وعمد الباحثون والفنّانون الرقميون، في السنوات الأخيرة، إلى استخدام تقنيات ذكاء صناعي وبرمجيات متنوّعة لصناعة وتعديل الفيديوهات التي تشتهر باسم «ديب فيك».
لكنّ الأنظمة الشبيهة بنظام «رانوي» قد تحلّ، مع الوقت، محلّ مهارات التعديل التقليدية بكبسة زرّ.

صور غير مألوفة
تولِّد تقنية «رانوي» الجديدة فيديوهات من أي توصيف مختصر. في البداية، يمكنكم طباعة توصيف أشبه بالملاحظة القصيرة.
وقد تحصلون على نتائج أفضل، إذا تضمّن التوصيف قليلاً من الحركة - ولكن ليس الكثير - كـ«يوم ممطر في المدينة الكبيرة»، أو «كلب مع هاتف محمول في الحديقة»، ثمّ انقروا على «إدخال»، ليولّد لكم النظام مقطع الفيديو في دقيقة أو اثنتين. تستطيع التقنية أيضاً إنتاج صور مألوفة لقطٍّ ينام على بساط مثلاً، أو أن تدمج أفكاراً متباينة لتوليد فيديوهات مسلِّية لبقرةٍ في حفلة عيد ميلاد.
ينتج النظام الجديد فيديوهات لا تتعدّى مدّتها الـ4 ثوانٍ، وبنوعية تبدو باهتة وغير واضحة، عند النظر إليها عن قرب. في بعض الأحيان، تكون صوره غريبة ومشوَّهة ومريبة، خصوصاً أنّ النظام يستطيع دمج حيوانات، كالكلاب والقطط، بأجسام جامدة كالكرات والهواتف المحمولة، لكن عندما يحصل على الطلب الصحيح، ينتج فيديوهات تظهر بوضوح أين تتّجه هذه التقنية.
من جهته، قال فيليب إيزولا، أستاذ متخصص بالذكاء الصناعي في «معهد ماساتشوستس للتقنية»: «في هذه المرحلة، إذا رأيتُ مقطع فيديو عالي الدقّة، فسأثق به على الأرجح، ولكنّ هذا الأمر سيتغيّر بسرعة كبيرة».
وكغيره من تقنيات الذكاء الصناعي التوليدي، يتعلّم نظام «رانوي»، من خلال تحليل البيانات الرقمية - في هذه الحالة، من الصور، والفيديوهات، والملاحظات المرفقة التي توصّف محتوى الصور. يبدي الباحثون ثقة بقدرتهم على تحسين وتوسيع مهارات هذا النظام بسرعة، من خلال تدريبه على كميات متنامية من البيانات. ويعتقد الخبراء أن هذا النوع من التقنيات سيستطيع قريباً صناعة أفلامٍ قصيرة عالية الجودة، مع موسيقى وحوارات.
من الصعب تحديد ما يبتكره هذا النظام، في الوقت الحالي؛ لأنه ليس صورة ولا رسوماً متحركة، بل مجموعة من البيكسلات الكثيرة الممزوجة مع بعضها لتشكيل فيديو واقعي. تخطّط «رانوي» لتوفير تقنيتها، مع مجموعة من الأدوات الأخرى التي تعتقد أنّها ستسرِّع عمل الفنّانين المحترفين.
وعمدت شركات ناشئة أخرى؛ من بينها «أوبن إيه.آي.»، إلى إطلاق تقنيات مشابهة تنتج صوراً جامدة من طلبات قصيرة، كـ«صورة دبّ محشوّ يركب لوح تزلّج في تايمز سكوير». ويرجّح التقدّم السريع، الذي تشهده الصور المصنوعة بالذكاء الصناعي، أن تقنية الفيديو الجديدة ستسير في الاتجاه نفسه.
وقد عجّت وسائل التواصل الاجتماعي، الشهر الماضي، بصورٍ للبابا فرنسيس يرتدي معطفاً منفوخاً من علامة «بالنسياغا» يبدو عصرياً جداً، بالنسبة لرجل دين في السادسة والثمانين من عمره، ولكن هذه الصور لم تكن حقيقية، بل من تركيب عامل بناء (31 عاماً)، من شيكاغو، استخدم أداة ذكاء صناعي شهيرة اسمها «ميدجورني» لهذه الغاية.
تعتمد «ميدجورني Midjourney» على شبكة عصبية تتعلّم مهاراتها من خلال تحليل كميات هائلة من البيانات، وتبحث عن أنماط معيّنة في ملايين الصور الرقمية والنصوص التي توصّف ما يظهر في الصور.
عندما يوصّف أحدهم صورة ما للنظام، يولّد الأخير لائحة من المزايا التي قد تتضمّنها الصورة.
يلفت فالنزويلا إلى أنّ «الفيديو هو مجموعة من الإطارات - الصور الجامدة - المدمجة بطريقة توحي بالحركة. الحيلة هنا تكمن في تدريب نموذج يفهم العلاقة والتماسك بين كلّ إطار وإطار». وكما في الإصدارات الأولى من أدوات كـ«دال-إي»، و«ميدجورني»، تجمع التقنية أحياناً الأفكار والصور بأشكال مثيرة للفضول. فإذا طلبتم دبّاً محشوّاً يلعب كرة السلّة، فقد يعطيكم نوعاً من الحيوانات المحشوة الغريبة، مع كرة سلّة في يده، وإذا طلبتم كلباً مع هاتف محمول في الحديقة، فقد تحصلون على هاتف في يد كائن بشري بجسم غريب.
• خدمة «نيويورك تايمز».


مقالات ذات صلة

دراسة جديدة: نماذج الذكاء الاصطناعي اللغوية تفتقر لفهم حقيقي للعالم

تكنولوجيا بحسب الدراسة أظهرت نماذج الذكاء الاصطناعي أنها لا تتعلم بالفعل الحقائق الكامنة عن العالم (أدوبي)

دراسة جديدة: نماذج الذكاء الاصطناعي اللغوية تفتقر لفهم حقيقي للعالم

تشير دراسة حديثة إلى أن نماذج اللغة الكبيرة تفتقر إلى فهم حقيقي للعالم، إذ تتفوق في مهام ثابتة، لكنها تتعثر مع تغييرات بسيطة، ما يثير تساؤلات حول جدواها.

نسيم رمضان (لندن)
الاقتصاد زوار في جناح شركة «أميركان إكسبريس السعودية» بمؤتمر «سيمليس» للمدفوعات الرقمية بالرياض (الشركة) play-circle 01:34

«أميركان إكسبريس السعودية»: البنية التحتية المتطورة تدعم زيادة إنفاق السياح

يرى الرئيس التنفيذي لشركة «أميركان إكسبريس السعودية» أن البنية التحتية المتطورة للمدفوعات الرقمية بالسعودية وزيادة نقاط البيع تعززان إنفاق السيّاح.

عبير حمدي (الرياض)
تكنولوجيا ستحدد انتخابات 2024 كيفية تطوير التكنولوجيا وحماية خصوصية المستخدمين ومستوى التدخل الحكومي في ذلك القطاع (أدوبي)

كيف ستؤثر الانتخابات الرئاسية الأميركية على مستقبل التكنولوجيا؟

ستتأثر السياسات التكنولوجية بنتائج الانتخابات الأميركية بشكل كبير بسبب اختلاف رؤى كل مرشح حول تنظيم الذكاء الاصطناعي وخصوصية البيانات ومكافحة الاحتكار.

نسيم رمضان (لندن)
تكنولوجيا توفر «غاما» منصة ذكية لإنشاء العروض التقديمية بسرعة معتمدة على الذكاء الاصطناعي لتبسيط عملية التصميم (غاما)

كيف تسهّل منصة «غاما» العروض التقديمية عبر الذكاء الاصطناعي؟

يمكن الآن للمستخدمين تحويل أفكارهم إلى شرائح عرض احترافية وجاهزة في ثوانٍ، ودون عناء التنسيق اليدوي.

عبد العزيز الرشيد (الرياض)
خاص تستثمر «ساس» أكثر من مليار دولار في بحث وتطوير قدرات الذكاء الاصطناعي مع التركيز على السعودية كسوق رئيسية لها في المنطقة (شاترستوك)

خاص «ساس»: دمج البيانات الحقيقية والاصطناعية سيقود التحول الرقمي في السعودية

في حديث لـ«الشرق الأوسط»، تؤكد شركة «ساس» التزامها بدعم أهداف رؤية 2030 عبر استثمارات في البحث والتطوير لتعزيز قدرات الذكاء الاصطناعي.

نسيم رمضان (دبي)

دراسة جديدة: نماذج الذكاء الاصطناعي اللغوية تفتقر لفهم حقيقي للعالم

بحسب الدراسة أظهرت نماذج الذكاء الاصطناعي أنها لا تتعلم بالفعل الحقائق الكامنة عن العالم (أدوبي)
بحسب الدراسة أظهرت نماذج الذكاء الاصطناعي أنها لا تتعلم بالفعل الحقائق الكامنة عن العالم (أدوبي)
TT

دراسة جديدة: نماذج الذكاء الاصطناعي اللغوية تفتقر لفهم حقيقي للعالم

بحسب الدراسة أظهرت نماذج الذكاء الاصطناعي أنها لا تتعلم بالفعل الحقائق الكامنة عن العالم (أدوبي)
بحسب الدراسة أظهرت نماذج الذكاء الاصطناعي أنها لا تتعلم بالفعل الحقائق الكامنة عن العالم (أدوبي)

أظهرت نماذج اللغة الكبيرة (LLMs)، مثل النماذج التي يقوم عليها نموذج «GPT-4»، قدرات مذهلة في توليد النصوص، سواء أكان ذلك في كتابة الشعر، أو تأليف المقالات، حتى تقديم حلول برمجية. تُدرَّب هذه النماذج، المعتمدة على بنى معمارية متقدمة تُعرف باسم «المحوّلات» (Transformers)، على توقع تسلسل الكلمات، ما يمكّنها من الاستجابة للمطالبات بطرق تحاكي فهماً يشبه البشري. ومع ذلك، تشير أبحاث حديثة إلى أن هذه النماذج، على الرغم من قدراتها المثيرة للإعجاب، قد لا تتعلم بالفعل الحقائق الكامنة عن العالم.

خريطة لمدينة نيويورك الأميركية (أدوبي)

التنقل في مدينة نيويورك دون خريطة

في دراسة حديثة قادها آشِش رامباتشان، أستاذ مساعد في الاقتصاد وباحث في مختبر نظم المعلومات واتخاذ القرار بمعهد ماساتشوستس للتكنولوجيا (LIDS)، قام الباحثون باختبار مدى قدرة نموذج لغوي مبني على «المحوّلات» على التنقل في مدينة نيويورك. وبينما أظهر النموذج دقة عالية في تقديم توجيهات دقيقة خطوة فخطوة عبر شبكة شوارع المدينة، تراجع أداؤه بشكل كبير عندما تمت إضافة عراقيل مثل إغلاق بعض الشوارع والتحويلات.

وعندما حلّل الباحثون أنماط التنقل التي أنتجها النموذج، اكتشفوا أن «خرائط» مدينة نيويورك التي كوّنها النموذج كانت تحتوي على مسارات غير واقعية، مثل شوارع غير موجودة وروابط غير دقيقة بين تقاطعات متباعدة. هذا الاكتشاف أثار تساؤلات حول حدود هذه النماذج، خاصة في البيئات التي تتطلب دقة كبيرة.

التداعيات في العالم الحقيقي

تنطوي هذه القيود على تداعيات هامة. فعلى الرغم من أن نماذج الذكاء الاصطناعي تبدو قادرة على التعامل مع مهام معقدة، فإن أداءها قد يتراجع بشكل كبير عندما تتغير المتغيرات البيئية، ولو بشكل بسيط. على سبيل المثال، قد يتمكن النموذج من التنقل في خريطة ثابتة لمدينة نيويورك، لكنه يتعثر عند مواجهة تحديات غير متوقعة، مثل إغلاق الشوارع. ويحذر فريق البحث من أن استخدام هذه النماذج في تطبيقات حقيقية قد يؤدي إلى فشل غير متوقع إذا واجهت سيناريوهات خارجة عن بيانات التدريب.

لعبة «أوثيللو» هي لعبة ألواح استراتيجية يشارك فيها لاعبان يلعبان على لوح مقسم إلى 8 × 8 مربعات غير مختلفة اللون (أدوبي)

مقاييس لتقييم الفهم

لمزيد من التعمق في مدى قدرة نماذج الذكاء الاصطناعي على تكوين «نماذج للعالم»، أي تمثيلات داخلية للقواعد والهيكليات، طوّر الفريق مقياسين جديدين للتقييم، هما «تمييز التسلسل» و«ضغط التسلسل».

يقيس «تمييز التسلسل» قدرة النموذج على التمييز بين سيناريوهات مختلفة، مثل تمييز موضعين مختلفين على لوحة لعبة «أوثيللو». ويقيّم المقياس ما إذا كان النموذج يفهم أن مدخلات مختلفة تحمل دلالات مختلفة.

أما مقياس «ضغط التسلسل» فيقيّم قدرة النموذج على إدراك الحالات المتطابقة، مثل وضعين متطابقين على لوحة لعبة «أوثيللو»، ويفهم أن خطوات التحرك التالية من كل وضع يجب أن تكون متشابهة.

قام الفريق باختبار هذه المقاييس على فئة معينة من المسائل تشمل تسلسلاً محدداً من الحالات والقواعد، مثل التنقل في شبكة شوارع أو لعب «أوثيللو». من خلال هذه التقييمات، سعى الباحثون لفهم ما إذا كانت النماذج قد طوّرت بالفعل نماذج منطقية للعالم.

العشوائية قد تؤدي إلى فهم أعمق

كشف البحث عن نتيجة غير متوقعة، حيث أظهرت النماذج التي دربت على تسلسلات عشوائية قدرة أكبر على بناء نماذج داخلية دقيقة مقارنة بتلك التي دربت على بيانات منظمة. على سبيل المثال، في لعبة «أوثيللو»، كانت النماذج المدربة على حركات عشوائية قادرة على التعرف على جميع الحركات الممكنة، حتى الحركات غير المثلى التي لا يلجأ إليها اللاعبون المحترفون.

وأوضح كيون فافا، الباحث الرئيسي وأستاذ زائر في جامعة هارفارد، أنه «من الناحية النظرية، عندما يتم تدريب النموذج على حركات عشوائية، فإنه يرى مجموعة كاملة من الاحتمالات، بما في ذلك الخيارات غير المحتملة». ويبدو أن هذا التعرض الواسع «يساعد النموذج في تكوين نموذج أكثر دقة للعالم، وإن لم يلتزم بالأسلوب الأمثل».

ورغم هذه النتائج، لم يستطع أي من النماذج تكوين نموذج منطقي متكامل للعالم في مهمة التنقل. وعندما أضاف الباحثون تحويلات إلى خريطة نيويورك، فشلت جميع النماذج في التكيف. وأشار فافا إلى أن «التراجع في الأداء كان مفاجئاً؛ إغلاق واحد في المائة فقط من الشوارع تسبب في انخفاض الدقة بشكل حاد، من أداء شبه مثالي إلى 67 بالمائة فقط».

تراجع أداء نماذج الذكاء الاصطناعي بشكل كبير عندما تتغير المتغيرات البيئية ولو بشكل بسيط (أدوبي)

بناء نماذج للعالم موثوقة

تسلط نتائج هذه الدراسة الضوء على تحدٍ كبير، يتمثل في أنه عندما تبدو المحوّلات قادرة على أداء مهام معينة، فإنها قد تفتقر إلى الفهم الأساسي للقواعد. وشدّد رامباتشان على ضرورة الحذر، قائلاً: «غالباً ما يفترض الناس أنه بما أن هذه النماذج تحقق نتائج رائعة، فلا بد أنها طوّرت فهماً جوهرياً للعالم. لكن دراستنا تشير إلى أننا بحاجة إلى النظر في هذا الافتراض بعناية وعدم الاعتماد على الحدس فقط».

ويخطط الباحثون لتوسيع دراستهم لتشمل تحديات أكثر تعقيداً حيث قد تكون القواعد غير معروفة كلياً أو متغيرة. وباستخدام مقاييسهم التقييمية على هذه المجالات، يأملون في فهم حدود نماذج الذكاء الاصطناعي بشكل أفضل وتوجيه تطويرها في المستقبل.

تداعيات أوسع وأهداف مستقبلية

تتجاوز تداعيات هذا البحث فهم العالم الافتراضي، وتمس التطبيقات العملية. إذا كانت نماذج الذكاء الاصطناعي غير قادرة على تكوين نماذج داخلية دقيقة للعالم، فإن ذلك يثير تساؤلات حول استخدامها في مجالات تتطلب منطقاً دقيقاً، مثل القيادة الذاتية، والأبحاث العلمية، والتخطيط اللوجستي. ويقول الباحثون إن الحاجة ملحة لإعادة التفكير في كيفية تدريب هذه النماذج وتقييمها لتكون أكثر تكيفاً وموثوقية.

هذا البحث مدعوم من قبل عدة مؤسسات، بما في ذلك مبادرة علوم البيانات في جامعة هارفارد، ومؤسسة العلوم الوطنية، ومؤسسة ماك آرثر. سيتم عرض الدراسة في مؤتمر نظم معالجة المعلومات العصبية، حيث سيواصل الباحثون مناقشة تعقيدات نماذج الذكاء الاصطناعي واستكشاف مسارات جديدة لتطويرها.