«شبكات عصبية» مطورة للتعرف على صور الوجوه

تؤمن رصد الملامح من زوايا متعددة

«شبكات عصبية» مطورة للتعرف على صور الوجوه
TT

«شبكات عصبية» مطورة للتعرف على صور الوجوه

«شبكات عصبية» مطورة للتعرف على صور الوجوه

في عام 2001 قام عالمان في الكومبيوتر هما بول فيولا ومايكل جونز بإطلاق ثورة في مضمار التعرف على الوجوه بواسطة الكومبيوتر، فبعد سنوات من الركود جاء اختراقهما التقني هذا على شكل خوارزميات (رموز كومبيوترية) يمكنها التعرف على الوجوه في الصور في الزمن الحقيقي، وكانت هذه الرموز التي عرفت بـ«فيولا - جونز» من السرعة والبساطة بحيث إنها زرعت داخل الكاميرات العادية من نوع «سدّد والتقط».
وكان جزء من محاولتهما هو تجاهل المشكلة القديمة الصعبة للتعرف على الوجوه، والتركيز على التحري والاستقصاء فقط. كما ركزا على الوجوه من الأمام فقط، متجاهلين أيا منها التي تبدو من خلال زاوية. ومع تلك الشروط أدركا أن جسر الأنف يشكل عادة خطا عموديا يكون أكثر بريقا من محجري العينين. كذلك لاحظا أن العينين تكونان عادة ضمن الظلال، وبذلك يشكلان شريطا أفقيا داكنا.
وهكذا قام هذان العالمان بوضع رموز كومبيوترية تبحث أولا عن الشرائط البراقة العمودية في الصورة التي قد تمثل الأنوف، ثم بعد ذلك عن الشرائط الأفقية الداكنة التي قد تمثل العينين، ثم بعد ذلك البحث عن الأنماط والملامح العامة الأخرى التي تتضمنها الوجوه عادة.

* شبكة عصبية
وتبين لهما في البداية أن أيا من التقاسيم هذه يبين بقوة أنه ينتمي للوجوه، لكن لدى تحري كل منها على حدة بصورة تسلسلية، كانت النتيجة دليلا جيدا ينم عن ملامح الوجوه في الصور. وبذلك أصبح اسم هذه العملية «التسلسل الاستقصائي». ولكون مثل هذه الاختبارات هي بسيطة الإجراء، كانت نتيجة الخوارزميات هذه أنها قادرة على العمل بسرعة في الزمن الحقيقي.
وعلى الرغم من أن خوارزمية «فيولا - جونز» كانت ابتكارا جيدا بالنسبة إلى الوجوه المرئية من الأمام، فإنه لا يمكنها تحديد الوجوه من أي زاوية أخرى، بدقة. وهذا ما يحد من استخدامها على صعيد محركات البحث عن الوجوه. وهذا ما جعل شركة «ياهو» مهتمة بالمشكلة، فقد كشف ساشن فارفايد ومحمد سابريان من مختبرات «ياهو» في كاليفورنيا، و«لي - جيا لي» من جامعة «ستانفورد» القريبة عن مسعى قريب لحل هذه المشكلة، ألا وهو القدرة على التعرف على الوجوه من الزوايا، حتى ولو كانت مغطاة جزئيا. ويقول هذان الباحثان إن أسلوبهما بسيط، لكنه حقق أداء ونتائج، هي من ثمار العصر.
واستخدم فارفايد وزميله مسعى مختلفا لتشييد نموذجهما هذا؛ فقد استثمرا في التقدم الحاصل في السنوات الأخيرة في مضمار تعلم الآلات الذي يعرف بالشبكة العصبية العميقة التلافيف. والفكرة هنا في تدريب الشبكة العصبية المتعددة الطبقات عن طريق استخدام قاعدة بيانات واسعة من الأمثلة المشروحة، وفي مثل هذه الحالة هي صور الوجوه من زوايا متعددة. وهنا قام فارفايد ورفيقه بتنظيم قاعدة بيانات مؤلفة من 200 ألف صورة تتضمن وجوها من زوايا واتجاهات متنوعة، إضافة إلى 20 مليون صورة من دون وجوه، وبعد ذلك قاما بتدريب شبكتهما العصبية عليها على دفعات، تتألف كل منها من 128 صورة على مدى 50 ألف عملية إعادة.

* تطوير متميز
وكانت النتيجة تطوير خوارزمية مفردة يمكنها التعرف على الوجوه من زوايا متعددة، حتى ولو كانت مغطاة جزئيا. وكان بإمكانها التعرف على وجوه عدة في الصورة ذاتها بدقة مدهشة.
وأطلق الفريق على هذا الأسلوب اسم «مكتشف الوجوه ذو الكثافة العميقة»، وهو يمكن مقارنته بشكل جيد مع الخوارزميات الأخرى، وقال الباحثان: «قمنا بتقييم هذا الأسلوب المقترح مع أساليب أخرى تعتمد على التعلم العميق، وتبين من النتائج أن أسلوبنا أسرع وأكثر دقة».
والأكثر من ذلك كانت خوارزمية الفريق هذا أفضل بكثير على صعيد التعرف على الوجوه عندما تكون مقلوبة، وهو الأسلوب الذي لم تصل به إلى حد الكمال المساعي الأخرى. وذكر الباحثان أن بالإمكان حتى تحسين أسلوبهما هذا عن طريق قاعدة بيانات تضم صور وجوه مقلوبة. وأضافا في حديث لمجلة «تكنولوجي ريفيو» الأميركية: «نحن نخطط لاستخدام استراتيجيات أكثر تحسينا على صعيد العينات، والمزيد من فنون وأساليب التعزيز لزيادة تحسين أداء ما نعمل عليه، لتحري واستقصاء الوجوه المغطاة، وتلك التي تدور»، كما يقولان.
وهذا عمل جذاب يبين مدى تقدم علم التعرف على الوجوه، فأسلوب الشبكة العصبية العميقة التلافيف لم يتعد عمره السنتين، ومع ذلك حقق تقدما كبيرا على صعيد التعرف على الأجسام وعلى الوجوه.
وتوفر هذه الخوارزمية الواعدة البحث في الصور عن أناس محددين، وليس كما يجري حاليا؛ إذ يقتصر أسلوب البحث على البحث المباشر عن الصور الملتقطة في مكان معين، أو وقت محدد. وعندما تدخل هذه التقنية حيز التنفيذ في القريب العاجل ستصبح الصور المستقبلية معرضة للبحث فيها واستقصاء خباياها، ومنها الصور الرقمية أيضا، بما في ذلك الكميات الهائلة من الفيديوهات، خاصة تلك الخاصة بالمراقبة والدوائر المغلقة. وهذا ما سيشكل قوة عظمى بشكل أو بآخر.



«غوغل» تطلق نظام «أندرويد إكس آر» المصمم لتعزيز تجارب الواقع المختلط

صورة ملتقطة 12 مايو 2023 في الولايات المتحدة تظهر شعار «غوغل» على أحد المباني في المقر الرئيسي للشركة (د.ب.أ)
صورة ملتقطة 12 مايو 2023 في الولايات المتحدة تظهر شعار «غوغل» على أحد المباني في المقر الرئيسي للشركة (د.ب.أ)
TT

«غوغل» تطلق نظام «أندرويد إكس آر» المصمم لتعزيز تجارب الواقع المختلط

صورة ملتقطة 12 مايو 2023 في الولايات المتحدة تظهر شعار «غوغل» على أحد المباني في المقر الرئيسي للشركة (د.ب.أ)
صورة ملتقطة 12 مايو 2023 في الولايات المتحدة تظهر شعار «غوغل» على أحد المباني في المقر الرئيسي للشركة (د.ب.أ)

عرضت شركة «غوغل»، الخميس، تطوّراتها في تكنولوجيا الواقع المختلط، مع إطلاقها نظام تشغيل جديداً لنظارات وخِوَذ الواقعَيْن الافتراضي والمعزَّز، وهو مجال حققت فيه «ميتا» و«أبل» تقدماً كبيراً.

وأطلقت الشركة الأميركية العملاقة «أندرويد إكس آر» المعادل لأجهزتها القائمة على نظام «أندوريد»، وهو نظامها لتشغيل الهواتف المهيمن إلى حد كبير على الهواتف الذكية في العالم، وفق «وكالة الصحافة الفرنسية».

وقالت «غوغل»، في بيان: «سيُطلق نظام (أندرويد إكس آر) في مرحلة أولى على خِوَذ رأس تغيّر طريقة مشاهدتكم لمقاطع الفيديو، وكيفية عملكم واستكشافكم لمحيطكم».

ويُفترض نشر نظام التشغيل الذي ابتكرته «غوغل»، بالتعاون مع «سامسونغ»، على جهاز من تصنيع المجموعة الكورية الجنوبية، سُمي مؤقتاً بـ«بروجكت موهان»، وسيُباع في العام المقبل.

أما راهناً، فستوفر «غوغلاندرويد اكس آر» بهدف المعاينة للمطورين الراغبين في ابتكار تطبيقات وألعاب في الواقعين الافتراضي والمعزز.

وأكّدت «غوغل» أنّ «خوذ الرأس ستتيح لمستخدمها الانتقال بسهولة من الانغماس التام في بيئة افتراضية إلى الوجود في العالم الحقيقي».

وأشارت الشركة الأميركية إلى استخدامات عدة لها، كمشاهدة مقاطع فيديو أو صور تغطي مجال الرؤية بالكامل أو إظهار جسم ما على الكاميرا وإجراء بحث عبر الإنترنت، بفضل الذكاء الاصطناعي.

وأضافت: «يمكنكم ملء المساحة من حولكم بالتطبيقات والمحتوى، ومع (جيميناي)، المساعد القائم على الذكاء الاصطناعي، يمكنكم أيضاً إجراء محادثات بشأن ما ترونه، أو التحكم بأجهزتكم».

يُفترض أن يعمل «أندرويد إكس آر» أيضاً على نظارات الواقع المعزز التي سيكون «جيميناي» متاحاً باستمرار فيها «لتوفير معلومات مفيدة عندما يحتاج المستخدم إليها، مثل الترجمات أو ملخصات الرسائل، من دون الحاجة إلى استخدام الهاتف. كل شيء سيكون مرئياً أو مسموعاً».

تهيمن شركة «ميتا» حالياً على سوق الواقع المختلط من خلال خوذ «كويست» ونظارات «راي بان»، وكلتاهما تباع بأسعار معقولة مقارنة بخوذ «فيجن برو» من «أبل»، التي يبلغ سعرها 3500 دولار.

وقبل 10 سنوات، أطلقت «غوغل» نظارات «غوغل غلاس» المتصلة، التي لم تلقَ استحسان المستهلكين، مما دفع الشركة للتخلي عنها في النهاية.