يعمل الباحثون في «أوبن إيه آي»، أحد أكبر مختبرات الذكاء الصناعي في العالم، على تطوير تقنية تتيح للنّاس صناعة صور رقمية بخطوة بسيطة، وذلك بوصف ما يريدون مشاهدته.
أطلق الباحثون على التقنية اسم «دال - إي» DALL - E في إشارة منهم إلى فيلم للرسوم المتحرّكة «وال - إي» (2008) الذي يتحدّث عن روبوت، وعن الرسام السريالي سالفادور دالي.
صناعة صور رقمية
تلقّى مختبر «أوبن إيه آي» OpenAI تمويلاً بقيمة مليار دولار من شركة «مايكروسوفت»، ولكنه لم يتشارك بالتقنية مع أفراد الجمهور بعد. إلّا أنّ أليكس نيكول، أحد الباحثين المشاركين في تطويرها، قدّم أخيراً عرضاً لكيفية عملها.
عندما طلب نيكول من النظام تنفيذ شكل «إبريق شاي على شكل ثمرة أفوكادو» وطبع هذه الكلمات على شاشة كومبيوتر عملاقة، صنع له النظام عشر صور مختلفة لإبريق شاي على شكل أفوكادو باللون الأخضر القاتم.
عندها، قال نيكول «(دال – إي) بارع في ابتكار الأفوكادو».
وعندما طبع على الشاشة عبارة «قطط تلعب الشطرنج»، ابتكر النظام قططاً تجلس من جهتي لوحة الشطرنج مع 32 قطعة مرصوفة عليها. وعندما طلب عبارة «دبّ يعزف البوق تحت الماء»، ابتكر النظام صورة تُظهر فقاعات ترتفع من طرف بوق الدبّ باتجاه سطح الماء.
يعمل «دال - إي» على توليف الصور أيضاً، فعندما حذف نيكول البوق وطلب استبداله بغيتار، امتثل النظام وظهر الغيتار بين يدي الدب.
أمضى فريقٌ مؤلّف من سبعة باحثين سنتين في تطوير التقنية التي يخطّط «أوبن إيه آي». لتوفيرها كأداة لمن يحتاجون إليها كمصممي الغرافيك، لتزوّدهم باختصارات وأفكار جديدة يستخدمونها في ابتكارهم وتعديلهم للصور الرقمية. ويستخدم المبرمجون اليوم أداة «كوبايلوت» Copilot المستندة إلى تقنية مماثلة من تطوير «أوبن إيه آي». لصناعة الرموز البرمجية.
صورة إبريق يشبه ثمرة الافاكادو يصنعها نظام «دال-إي» عند الطلب
تقنية مثيرة للقلق
ولكنّ الكثير من الخبراء يرون أنّ «دال - إي» مثيرٌ للقلق، ويتخوّفون من أنّ استمرار تطوّر هذا النوع من التقنية قد يؤدي إلى انتشار المعلومات المضلّلة عبر شبكة الإنترنت، وتغذية الحملات الإلكترونية المغرضة كتلك التي ساعدت في التلاعب بالانتخابات الرئاسية الأميركية عام 2016.
واعتبر سوباراو كامبهامباتي، أستاذ علوم الكومبيوتر في جامعة ولاية أريزونا، أنّ «هذه التقنية يمكن استخدامها في أمور جيّدة، ولكنّها قد تستخدم أيضاً في جميع أنواع التطبيقات المجنونة والمقلقة كصناعة مواد (ديب فيك) من الصور والفيديوهات المزيفة والمضللة».
قبل نحو خمس سنوات، طوّرت أبرز مختبرات الذكاء الصناعي في العالم أنظمة قادرة على تعريف الأشياء الظاهرة في الصور الرقمية، وحتّى فبركة صورٍ تظهر وروداً وكلاباً وسيارات ووجوهاً. وبعدها ببضع سنوات، طوّرت المختبرات أنظمة قادرة على القيام بالأشياء نفسها في الكتابات النصية، وتلخيص المقالات، والإجابة على الأسئلة، وابتكار التغريدات، وحتّى كتابة المدوّنات.
ويأخذ الباحثون اليوم بجمع وتوحيد هذه التقنيات لابتكار أشكال جديدة من الذكاء الصناعي، ويُعدّ «دال – إي» خطوة تقدّمية بارزة في هذا المجال لأنّه يعتمد على اللغة والصور، وفي بعض الحالات، على العلاقة بين الاثنين.
وفي هذا الصدد قال أورين إتزيوني، الرئيس التنفيذي لمعهد «آلان» للذكاء الصناعي في سياتل «يمكننا استخدام مصادر عدّة متقاطعة من المعلومات لابتكار تقنية أفضل».
ولكنّ التقنية الجديدة ليست مثالية. فعندما طلب نيكول من «دال - إي» «وضع برج إيفل على القمر»، لم يفهم النظام الفكرة ووضع القمر في سماء البرج. وعندما طلب منه «غرفة معيشة مليئة بالرمال»، عرض له مشهداً أقرب إلى موقع بناء منه إلى غرفة معيشة.
أمّا حين صعّب نيكول طلباته بعض الشيء، بإضافة أو حذف بعض الكلمات من هنا وهناك، نفّذ النظام طلبه. فعندما طلب منه ابتكار صورة تعرض «بيانو في غرفة معيشة مليئة بالرمال»، بدت الصورة أشبه بشاطئ في غرفة المعيشة.
شبكات عصبية
ينتمي «دال - إي» إلى ما يسمّيه باحثو الذكاء الصناعي شبكة عصبية، وهي عبارة عن نظام حسابي صُمم على شكل شبكة الأعصاب في الدماغ، وهي التقنية نفسها التي تتعرّف إلى الأوامر المحكية في الهواتف الذكية، وترصد وجود المشاة أثناء تجوّل السيارات الآلية في شوارع المدن.
تتعلّم الشبكة العصبية مهاراتها من خلال تحليل كميات كبيرة من البيانات. تستطيع الشبكة مثلاً تعلّم التعرّف إلى الأفوكادو من خلال رصد الأنماط في آلاف صور ثمار الأفوكادو. يبحث «دال - إي» عن الأنماط أثناء تحليله لملايين الصور الرقمية والنصوص المرفقة التي تصف محتوى الصور، ليتعلّم بهذه الطريقة رصد الرابط بين الصورة والكلمة.
عندما يصف أحدهم صورة لـ«دال - إي»، ينتج الأخير مجموعة من الملامح الرئيسية التي قد تتضمّنها هذه الصورة. قد تكون هذه الملامح على شكل الخطّ في طرف البوق، أو خط آخر منحنٍ من أذن الدبّ.
بعدها، تعمل شبكة عصبية أخرى اسمها نموذج الانتشار diffusion model على صناعة الصورة وفبركة البيكسلات المطلوبة لرسم هذه الملامح. تنتج النسخة الأخيرة من «دال - إي»، التي كُشف عنها النقاب أخيراً في ورقة بحثية تصف النظام، صوراً عالية الدقّة تبدو في أحيانٍ كثيرة كالصور الفوتوغرافية.
يستمرّ «أوبن إيه آي». في تحسين تقنية «دال - إي» رغم أنها تخفق غالباً في فهم ما يصفه المستخدم أو تفسد الصورة التي تصنعها، إذ ينجح الباحثون في معظم الأحيان في صقل مهارات الشبكة العصبية عبر تغذيتها بكميات أكبر من البيانات.
يستطيع الباحثون أيضاً تطوير أنظمة أكثر قوّة من خلال تطبيق الأفكار نفسها على أنواع جديدة من البيانات. وقد طوّر معهد آلان The Allen Institute أخيراً نظاماً يحلّل الصوت والصورة والنص. وبعد تحليل ملايين فيديوهات الـ«يوتيوب» التي تحتوي على مقاطع صوتية وملاحظات توضيحية، تعلّم النظام تحديد لحظات استثنائية كنباح الكلاب أو صوت إقفال الأبواب في البرامج التلفزيونية والأفلام.
يعتقد الخبراء، أنّ الباحثين سيستمرّون في بناء هذا النوع من الأنظمة لأنّها قد تصبح أخيراً قادرة على مساعدة الشركات في تحسين محرّكات البحث، وأجهزة المساعدة الرقمية، وغيرها من التقنيات الشائعة، بالإضافة إلى أتمتة وظائف جديدة لفناني الغرافيك والمبرمجين وغيرهم.
ولكنّ هذه القدرة تنطوي على بعض النواقص لأنّ أنظمة الذكاء الصناعي تظهر نوعاً من التمييز ضدّ المرأة وأصحاب البشرة الملوّنة كونها تكتسب مهاراتها من مجموعات كبيرة من النصوص الإلكترونية والصور والبيانات المنحازة، فضلاً عن إمكانية استخدامها لصناعة المحتوى الإباحي وخطابات الكراهية والمواد المسيئة. يعتقد الخبراء أنّ التقنية ستسهّل في نهاية المطاف صناعة المعلومات المضللة إلى درجة ستجعل الناس يشككون في كلّ شيء يرونه على الشبكة.
من جهته، اعتبر إتزيوني أنّه «يمكننا صناعة النصوص وقراءتها بصوت أحدهم. ويمكننا صناعة صور وفيديوهات. تحتوي شبكة الإنترنت اليوم على الكثير من المعلومات المضلّلة ولكنّ القلق هو من فكرة رفع مستوى التضليل».
يفرض مختبر «أوبن إيه آي». ضوابط شديدة على «دال - إي» كي يمنع الأطراف الخارجية من استخدامه كما يحلو لها، وعمد إلى وضع علامة عائدة له في زاوية كلّ صورة ينتجها. وأخيراً، افتتح المختبر تجربة للنظام للراغبين باختباره منتصف شهر أبريل (نيسان) الماضي ولكن لمجموعة صغيرة فقط.
* خدمة «نيويورك تايمز»