تطبيق مطور لخلق الصور من النصوص

نظم الذكاء الصناعي تنتج لوحة إبداعية تفوق بمضمونها آلاف الكلمات

تطبيق مطور لخلق الصور من النصوص
TT

تطبيق مطور لخلق الصور من النصوص

تطبيق مطور لخلق الصور من النصوص

أول فكرة تطرأ على ذهنك لدى معاينة صور بصرية من إنتاج «وردس آي» (WordsEye) أنك تعاين عملا أبدعه فنان على درجة فائقة من الموهبة والابتكار. وتدور الصور حول أفكار مبتكرة مثل ديناصور يقف بجوار كعكة من الشوكولاته، وسفينة فضاء متلألئة رمادية اللون فوق سطح القمر وحيوانات مما يشاهدها القائمون برحلات سفاري في أفريقيا تشع ألوانًا شبيهة بألوان قوس قزح - وهي صور تفوق في تأثيرها آلاف الكلمات.
* صور آلية مدهشة
إلا أن هذه الصور لم تكن نتاجًا لأيدٍ بشرية.. وإنما لآلة! ويعتبر تطبيق «وردس آي» جديدا، وهو يتوافر على الإنترنت، ويقوم بترجمة السطور القليلة الواردة في أي نص يطرحه المستخدم حول مشهد ما، إلى صورة فنية باستخدام نظم الذكاء الصناعي.
على سبيل المثال، يمكن للمستخدم كتابة كلمات «الوادي طويل الامتداد. وتوجد كعكة شوكولاته هائلة الحجم على بعد ثلاث أقدام من ديناصور». وحينذاك، ستدفع هذه الكلمات التطبيق أولاً لتفهم كلمات «كعكة شوكولاته» و«ديناصور» و«وادي» من مكتبة المفاهيم والأفكار، ثم يشرع التطبيق في طرح تصوير فني للكيفية التي يمكن من خلالها جمع الصور الثلاثة معًا في مشهد فني واحد.
في نوفمبر (تشرين الثاني)، أطلقت «وردس آي» فيديو عبر موقع «يوتيوب» مدته دقيقة واحدة تستعرض بعض مبتكراتها التي جرى إبداعها في غضون الشهر الأول فقط من اختبار التطبيق. وعلى الموقع الإلكتروني لـ«وردس آي»، هناك مجموعة من الصور التي خلقها المستخدمون عبر التطبيق والتي جرى التشارك فيها عبر شبكات التواصل الاجتماعي.
* من النص إلى الصورة
في الواقع، إن الانتقال من الكلمة إلى الصورة أصعب كثيرًا عما يبدو الآن، نظرًا لأنه يعتمد على نمط معين من الذكاء الصناعي يعرف باسم «معالجة اللغة الطبيعية». من أجل الانتقال من «النص إلى المشهد» و«كتابة صورة»، فإنه يتعين على النظام أولاً التمتع بالقدرة على استخلاص معنى من الكلمات، ثم الاعتماد على مزيج من الرياضيات والاحتمالات والإحصاءات لتحديد العلاقات بين هذه الكلمات. بعد ذلك، ينبغي أن تكون لديه القدرة على طرح الصور الصحيحة المتوافقة مع تلك الكلمات واستخدام بعض أدوات التصفية والتنقية الفنية لتحويلها إلى قطع فنية مذهلة.
حتى الآن، لا يزال تطبيق «وردس آي» مقصورا على النطاق الخاص، لكن هناك خطط لتحويله إلى صورة من صور شبكات التواصل الاجتماعي، ربما على غرار «إنستغرام» الذي بدأ أيضًا كمنتدى لتشارك الأفراد في صور فنية، ثم استجابة آخرين لهذه الصور وتعليقاتهم على الصور وما إلى غير ذلك.
من جهته، يشير «وردس آي» إلى نفسه باعتباره «شبكة اجتماعية جديدة للتعبير الإبداعي وصور المزاح البصري». أيضًا، هناك خطط لإطلاق تطبيق يعمل بالاعتماد على «أندرويد» و«آي أو إس»، الأمر الذي سيتيح «وردس آي» أمام مستخدمي الهواتف الجوالة.
وذات مرة، ظهر «وردس آي» عبر «برودكت هانت»، حيث نال 245 صوتًا، وبالفعل بدأت المقترحات بخصوص فكرة «اكتب صورة» تتدفق من المستخدمين. واقترح بعض مستخدمي «برودكت هنت» إمكانية تحول «وردس آي» لأداة لواقع افتراضي أو لعبة إلكترونية، أو سبيلا لتدريس لغات أجنبية، أو سبيلا يسيرا لخلق مقالات مبسطة لشرح مفاهيم علمية. أو قد يمكن للصحافيين الاعتماد على التطبيق في خلق صور لوضعها برفقة مقالاتهم، بدلاً من اللجوء للصور الأرشيفية. بيد أن التطور الأكبر هنا يمكن في أن آلات الذكاء الصناعي أصبحت الآن تكتسب سمات - مثل الإبداع، كانت من قبل حكرًا على البشر. إننا قد نشير إلى آلات باعتبارها «ذكية» أو «عقلانية» أو «ذات كفاءة»، فإننا عادة لا نفكر فيها باعتبارها «مبدعة».
* ذكاء صناعي مبدع
إلا أن هذا الوضع قد يكون في طريقه نحو التغير الآن، مع اقتحام الذكاء الصناعي مجالات جديدة مثل الرسم. في الوقت الحاضر، فإن تطبيقات الذكاء الصناعي مثل «وردس آي» محدودة بسبب عدد الكلمات والألفاظ التي يمكن للتطبيق فهمها، علاوة على حدود معالجة اللغة الطبيعية وأنماط النماذج الفنية التي يمكن للتطبيق إبداعها. باختصار، العمل لا يزال جاريًا على هذا الصعيد.
ومع ذلك، تبقى هناك بعض التطبيقات المثيرة إذا ما نجحت الآلات بالفعل في اكتساب القدرة على الإبداع والابتكار - أو على الأقل إقناع البشر بحقيقة أن الآلات تملك سمات الإبداع. على سبيل المثال، قد تتمكن الآلات يومًا من تحدينا لإعادة التفكير فيما نعنيه من وراء كلمة «إبداع».
الملاحظ أننا عادة ما ننظر إلى الإبداع باعتباره هبة أو ومضة أو لحظة تألق - لكنه قد يكون في حقيقة الأمر عبارة عن حسابات رياضية ماهرة، بمعنى أن سلفادور دالي وبيكاسو كانوا أناسًا طبيعيين مثلك ومثلي، لكنهم كانوا أكثر براعة في الحسابات الرياضية وبضعة أدوات تنقية ذكية.
ومن هذا المنظور، فإن من المثير مقارنة بعض اللوحات السريالية الشهيرة بعدد من إبداعات «وردس آي». وعند لحظة معينة، ستتولد داخلك قناعة بإمكانية وجود سوق فنية للإبداع البشري. وفي حقبة يبدي جامعو الأعمال الفنية عشرات الملايين من الدولارات مقابل الحصول على أشهر لوحات العالم، فكم سيدفعون مقابل لوحة فنية من إبداع آلة؟

* خدمة «واشنطن بوست» (خاص بـ {الشرق الأوسط})



«جيميناي 2.0»... «غوغل» بدأت إتاحة نموذجها الأحدث للذكاء الاصطناعي التوليدي

شعار «جيميناي» يظهر على شاشة هاتف جوال (رويترز)
شعار «جيميناي» يظهر على شاشة هاتف جوال (رويترز)
TT

«جيميناي 2.0»... «غوغل» بدأت إتاحة نموذجها الأحدث للذكاء الاصطناعي التوليدي

شعار «جيميناي» يظهر على شاشة هاتف جوال (رويترز)
شعار «جيميناي» يظهر على شاشة هاتف جوال (رويترز)

أعلنت شركة «غوغل» اليوم (الأربعاء) بدء العمل بنموذجها الأكثر تطوراً إلى اليوم في مجال الذكاء الاصطناعي التوليدي «جيميناي 2.0» Gemini 2.0 الذي تسعى من خلاله إلى منافسة شركات التكنولوجيا العملاقة الأخرى في قطاع يشهد نمواً سريعاً، وفقاً لـ«وكالة الصحافة الفرنسية».

وتوقّع رئيس مجموعة «ألفابت» التي تضم «غوغل» سوندار بيشاي أن تفتح هذه النسخة الحديثة من البرنامج «عصراً جديداً» في مجال الذكاء الاصطناعي التوليدي القادر على أن يسهّل مباشرة الحياة اليومية للمستخدمين.

وأوضحت «غوغل» أن الصيغة الجديدة من «جيميناي» غير متاحة راهناً إلا لقلّة، أبرزهم المطوّرون، على أن تُوفَّر على نطاق أوسع في مطلع سنة 2025. وتعتزم الشركة دمج الأداة بعد ذلك في مختلف منتجاتها، وفي مقدّمها محركها الشهير للبحث، وبأكثر من لغة.

وشرح سوندار بيشاي ضمن مقال مدَوَّنة أعلن فيه عن «جيميناي 2.0» أن هذه الأداة توفّر «القدرة على جعل المعلومات أكثر فائدة، مشيراً إلى أن في وِسعها فهم سياق ما وتوقّع ما سيلي استباقياً واتخاذ القرارات المناسبة للمستخدم».

وتتنافس «غوغل» و«أوبن إيه آي» (التي ابتكرت تشات جي بي تي) و«ميتا» و«أمازون» على التوصل بسرعة فائقة إلى نماذج جديدة للذكاء الاصطناعي التوليدي، رغم ضخامة ما تتطلبه من أكلاف، والتساؤلات في شأن منفعتها الفعلية للمجتمع في الوقت الراهن.

وبات ما تسعى إليه «غوغل» التوجه الجديد السائد في سيليكون فالي، ويتمثل في جعل برنامج الذكاء الاصطناعي بمثابة «خادم رقمي» للمستخدم وسكرتير مطّلع على كل ما يعنيه، ويمكن استخدامه في أي وقت، ويستطيع تنفيذ مهام عدة نيابة عن المستخدم.

ويؤكد المروجون لهذه الأدوات أن استخدامها يشكّل مرحلة كبرى جديدة في إتاحة الذكاء الاصطناعي للعامّة، بعدما حقق «تشات جي بي تي» تحوّلاً جذرياً في هذا المجال عام 2022.

وأشارت «غوغل» إلى أن ملايين المطوّرين يستخدمون أصلاً النسخ السابقة من «جيميناي».

وتُستخدَم في تدريب نموذج «جيميناي 2.0» وتشغيله شريحة تنتجها «غوغل» داخلياً، سُمّيت بـ«تريليوم». وتقوم نماذج الذكاء الاصطناعي التوليدي بشكل أساسي على معدات تصنعها شركة «نفيديا» الأميركية العملاقة المتخصصة في رقائق وحدات معالجة الرسومات (GPUs).