«شبكات عصبية» مطورة للتعرف على صور الوجوه

تؤمن رصد الملامح من زوايا متعددة

«شبكات عصبية» مطورة للتعرف على صور الوجوه
TT

«شبكات عصبية» مطورة للتعرف على صور الوجوه

«شبكات عصبية» مطورة للتعرف على صور الوجوه

في عام 2001 قام عالمان في الكومبيوتر هما بول فيولا ومايكل جونز بإطلاق ثورة في مضمار التعرف على الوجوه بواسطة الكومبيوتر، فبعد سنوات من الركود جاء اختراقهما التقني هذا على شكل خوارزميات (رموز كومبيوترية) يمكنها التعرف على الوجوه في الصور في الزمن الحقيقي، وكانت هذه الرموز التي عرفت بـ«فيولا - جونز» من السرعة والبساطة بحيث إنها زرعت داخل الكاميرات العادية من نوع «سدّد والتقط».
وكان جزء من محاولتهما هو تجاهل المشكلة القديمة الصعبة للتعرف على الوجوه، والتركيز على التحري والاستقصاء فقط. كما ركزا على الوجوه من الأمام فقط، متجاهلين أيا منها التي تبدو من خلال زاوية. ومع تلك الشروط أدركا أن جسر الأنف يشكل عادة خطا عموديا يكون أكثر بريقا من محجري العينين. كذلك لاحظا أن العينين تكونان عادة ضمن الظلال، وبذلك يشكلان شريطا أفقيا داكنا.
وهكذا قام هذان العالمان بوضع رموز كومبيوترية تبحث أولا عن الشرائط البراقة العمودية في الصورة التي قد تمثل الأنوف، ثم بعد ذلك عن الشرائط الأفقية الداكنة التي قد تمثل العينين، ثم بعد ذلك البحث عن الأنماط والملامح العامة الأخرى التي تتضمنها الوجوه عادة.

* شبكة عصبية
وتبين لهما في البداية أن أيا من التقاسيم هذه يبين بقوة أنه ينتمي للوجوه، لكن لدى تحري كل منها على حدة بصورة تسلسلية، كانت النتيجة دليلا جيدا ينم عن ملامح الوجوه في الصور. وبذلك أصبح اسم هذه العملية «التسلسل الاستقصائي». ولكون مثل هذه الاختبارات هي بسيطة الإجراء، كانت نتيجة الخوارزميات هذه أنها قادرة على العمل بسرعة في الزمن الحقيقي.
وعلى الرغم من أن خوارزمية «فيولا - جونز» كانت ابتكارا جيدا بالنسبة إلى الوجوه المرئية من الأمام، فإنه لا يمكنها تحديد الوجوه من أي زاوية أخرى، بدقة. وهذا ما يحد من استخدامها على صعيد محركات البحث عن الوجوه. وهذا ما جعل شركة «ياهو» مهتمة بالمشكلة، فقد كشف ساشن فارفايد ومحمد سابريان من مختبرات «ياهو» في كاليفورنيا، و«لي - جيا لي» من جامعة «ستانفورد» القريبة عن مسعى قريب لحل هذه المشكلة، ألا وهو القدرة على التعرف على الوجوه من الزوايا، حتى ولو كانت مغطاة جزئيا. ويقول هذان الباحثان إن أسلوبهما بسيط، لكنه حقق أداء ونتائج، هي من ثمار العصر.
واستخدم فارفايد وزميله مسعى مختلفا لتشييد نموذجهما هذا؛ فقد استثمرا في التقدم الحاصل في السنوات الأخيرة في مضمار تعلم الآلات الذي يعرف بالشبكة العصبية العميقة التلافيف. والفكرة هنا في تدريب الشبكة العصبية المتعددة الطبقات عن طريق استخدام قاعدة بيانات واسعة من الأمثلة المشروحة، وفي مثل هذه الحالة هي صور الوجوه من زوايا متعددة. وهنا قام فارفايد ورفيقه بتنظيم قاعدة بيانات مؤلفة من 200 ألف صورة تتضمن وجوها من زوايا واتجاهات متنوعة، إضافة إلى 20 مليون صورة من دون وجوه، وبعد ذلك قاما بتدريب شبكتهما العصبية عليها على دفعات، تتألف كل منها من 128 صورة على مدى 50 ألف عملية إعادة.

* تطوير متميز
وكانت النتيجة تطوير خوارزمية مفردة يمكنها التعرف على الوجوه من زوايا متعددة، حتى ولو كانت مغطاة جزئيا. وكان بإمكانها التعرف على وجوه عدة في الصورة ذاتها بدقة مدهشة.
وأطلق الفريق على هذا الأسلوب اسم «مكتشف الوجوه ذو الكثافة العميقة»، وهو يمكن مقارنته بشكل جيد مع الخوارزميات الأخرى، وقال الباحثان: «قمنا بتقييم هذا الأسلوب المقترح مع أساليب أخرى تعتمد على التعلم العميق، وتبين من النتائج أن أسلوبنا أسرع وأكثر دقة».
والأكثر من ذلك كانت خوارزمية الفريق هذا أفضل بكثير على صعيد التعرف على الوجوه عندما تكون مقلوبة، وهو الأسلوب الذي لم تصل به إلى حد الكمال المساعي الأخرى. وذكر الباحثان أن بالإمكان حتى تحسين أسلوبهما هذا عن طريق قاعدة بيانات تضم صور وجوه مقلوبة. وأضافا في حديث لمجلة «تكنولوجي ريفيو» الأميركية: «نحن نخطط لاستخدام استراتيجيات أكثر تحسينا على صعيد العينات، والمزيد من فنون وأساليب التعزيز لزيادة تحسين أداء ما نعمل عليه، لتحري واستقصاء الوجوه المغطاة، وتلك التي تدور»، كما يقولان.
وهذا عمل جذاب يبين مدى تقدم علم التعرف على الوجوه، فأسلوب الشبكة العصبية العميقة التلافيف لم يتعد عمره السنتين، ومع ذلك حقق تقدما كبيرا على صعيد التعرف على الأجسام وعلى الوجوه.
وتوفر هذه الخوارزمية الواعدة البحث في الصور عن أناس محددين، وليس كما يجري حاليا؛ إذ يقتصر أسلوب البحث على البحث المباشر عن الصور الملتقطة في مكان معين، أو وقت محدد. وعندما تدخل هذه التقنية حيز التنفيذ في القريب العاجل ستصبح الصور المستقبلية معرضة للبحث فيها واستقصاء خباياها، ومنها الصور الرقمية أيضا، بما في ذلك الكميات الهائلة من الفيديوهات، خاصة تلك الخاصة بالمراقبة والدوائر المغلقة. وهذا ما سيشكل قوة عظمى بشكل أو بآخر.



«جيميناي 2.0»... «غوغل» بدأت إتاحة نموذجها الأحدث للذكاء الاصطناعي التوليدي

شعار «جيميناي» يظهر على شاشة هاتف جوال (رويترز)
شعار «جيميناي» يظهر على شاشة هاتف جوال (رويترز)
TT

«جيميناي 2.0»... «غوغل» بدأت إتاحة نموذجها الأحدث للذكاء الاصطناعي التوليدي

شعار «جيميناي» يظهر على شاشة هاتف جوال (رويترز)
شعار «جيميناي» يظهر على شاشة هاتف جوال (رويترز)

أعلنت شركة «غوغل» اليوم (الأربعاء) بدء العمل بنموذجها الأكثر تطوراً إلى اليوم في مجال الذكاء الاصطناعي التوليدي «جيميناي 2.0» Gemini 2.0 الذي تسعى من خلاله إلى منافسة شركات التكنولوجيا العملاقة الأخرى في قطاع يشهد نمواً سريعاً، وفقاً لـ«وكالة الصحافة الفرنسية».

وتوقّع رئيس مجموعة «ألفابت» التي تضم «غوغل» سوندار بيشاي أن تفتح هذه النسخة الحديثة من البرنامج «عصراً جديداً» في مجال الذكاء الاصطناعي التوليدي القادر على أن يسهّل مباشرة الحياة اليومية للمستخدمين.

وأوضحت «غوغل» أن الصيغة الجديدة من «جيميناي» غير متاحة راهناً إلا لقلّة، أبرزهم المطوّرون، على أن تُوفَّر على نطاق أوسع في مطلع سنة 2025. وتعتزم الشركة دمج الأداة بعد ذلك في مختلف منتجاتها، وفي مقدّمها محركها الشهير للبحث، وبأكثر من لغة.

وشرح سوندار بيشاي ضمن مقال مدَوَّنة أعلن فيه عن «جيميناي 2.0» أن هذه الأداة توفّر «القدرة على جعل المعلومات أكثر فائدة، مشيراً إلى أن في وِسعها فهم سياق ما وتوقّع ما سيلي استباقياً واتخاذ القرارات المناسبة للمستخدم».

وتتنافس «غوغل» و«أوبن إيه آي» (التي ابتكرت تشات جي بي تي) و«ميتا» و«أمازون» على التوصل بسرعة فائقة إلى نماذج جديدة للذكاء الاصطناعي التوليدي، رغم ضخامة ما تتطلبه من أكلاف، والتساؤلات في شأن منفعتها الفعلية للمجتمع في الوقت الراهن.

وبات ما تسعى إليه «غوغل» التوجه الجديد السائد في سيليكون فالي، ويتمثل في جعل برنامج الذكاء الاصطناعي بمثابة «خادم رقمي» للمستخدم وسكرتير مطّلع على كل ما يعنيه، ويمكن استخدامه في أي وقت، ويستطيع تنفيذ مهام عدة نيابة عن المستخدم.

ويؤكد المروجون لهذه الأدوات أن استخدامها يشكّل مرحلة كبرى جديدة في إتاحة الذكاء الاصطناعي للعامّة، بعدما حقق «تشات جي بي تي» تحوّلاً جذرياً في هذا المجال عام 2022.

وأشارت «غوغل» إلى أن ملايين المطوّرين يستخدمون أصلاً النسخ السابقة من «جيميناي».

وتُستخدَم في تدريب نموذج «جيميناي 2.0» وتشغيله شريحة تنتجها «غوغل» داخلياً، سُمّيت بـ«تريليوم». وتقوم نماذج الذكاء الاصطناعي التوليدي بشكل أساسي على معدات تصنعها شركة «نفيديا» الأميركية العملاقة المتخصصة في رقائق وحدات معالجة الرسومات (GPUs).