في عام 2001 قام عالمان في الكومبيوتر هما بول فيولا ومايكل جونز بإطلاق ثورة في مضمار التعرف على الوجوه بواسطة الكومبيوتر، فبعد سنوات من الركود جاء اختراقهما التقني هذا على شكل خوارزميات (رموز كومبيوترية) يمكنها التعرف على الوجوه في الصور في الزمن الحقيقي، وكانت هذه الرموز التي عرفت بـ«فيولا - جونز» من السرعة والبساطة بحيث إنها زرعت داخل الكاميرات العادية من نوع «سدّد والتقط».
وكان جزء من محاولتهما هو تجاهل المشكلة القديمة الصعبة للتعرف على الوجوه، والتركيز على التحري والاستقصاء فقط. كما ركزا على الوجوه من الأمام فقط، متجاهلين أيا منها التي تبدو من خلال زاوية. ومع تلك الشروط أدركا أن جسر الأنف يشكل عادة خطا عموديا يكون أكثر بريقا من محجري العينين. كذلك لاحظا أن العينين تكونان عادة ضمن الظلال، وبذلك يشكلان شريطا أفقيا داكنا.
وهكذا قام هذان العالمان بوضع رموز كومبيوترية تبحث أولا عن الشرائط البراقة العمودية في الصورة التي قد تمثل الأنوف، ثم بعد ذلك عن الشرائط الأفقية الداكنة التي قد تمثل العينين، ثم بعد ذلك البحث عن الأنماط والملامح العامة الأخرى التي تتضمنها الوجوه عادة.
* شبكة عصبية
وتبين لهما في البداية أن أيا من التقاسيم هذه يبين بقوة أنه ينتمي للوجوه، لكن لدى تحري كل منها على حدة بصورة تسلسلية، كانت النتيجة دليلا جيدا ينم عن ملامح الوجوه في الصور. وبذلك أصبح اسم هذه العملية «التسلسل الاستقصائي». ولكون مثل هذه الاختبارات هي بسيطة الإجراء، كانت نتيجة الخوارزميات هذه أنها قادرة على العمل بسرعة في الزمن الحقيقي.
وعلى الرغم من أن خوارزمية «فيولا - جونز» كانت ابتكارا جيدا بالنسبة إلى الوجوه المرئية من الأمام، فإنه لا يمكنها تحديد الوجوه من أي زاوية أخرى، بدقة. وهذا ما يحد من استخدامها على صعيد محركات البحث عن الوجوه. وهذا ما جعل شركة «ياهو» مهتمة بالمشكلة، فقد كشف ساشن فارفايد ومحمد سابريان من مختبرات «ياهو» في كاليفورنيا، و«لي - جيا لي» من جامعة «ستانفورد» القريبة عن مسعى قريب لحل هذه المشكلة، ألا وهو القدرة على التعرف على الوجوه من الزوايا، حتى ولو كانت مغطاة جزئيا. ويقول هذان الباحثان إن أسلوبهما بسيط، لكنه حقق أداء ونتائج، هي من ثمار العصر.
واستخدم فارفايد وزميله مسعى مختلفا لتشييد نموذجهما هذا؛ فقد استثمرا في التقدم الحاصل في السنوات الأخيرة في مضمار تعلم الآلات الذي يعرف بالشبكة العصبية العميقة التلافيف. والفكرة هنا في تدريب الشبكة العصبية المتعددة الطبقات عن طريق استخدام قاعدة بيانات واسعة من الأمثلة المشروحة، وفي مثل هذه الحالة هي صور الوجوه من زوايا متعددة. وهنا قام فارفايد ورفيقه بتنظيم قاعدة بيانات مؤلفة من 200 ألف صورة تتضمن وجوها من زوايا واتجاهات متنوعة، إضافة إلى 20 مليون صورة من دون وجوه، وبعد ذلك قاما بتدريب شبكتهما العصبية عليها على دفعات، تتألف كل منها من 128 صورة على مدى 50 ألف عملية إعادة.
* تطوير متميز
وكانت النتيجة تطوير خوارزمية مفردة يمكنها التعرف على الوجوه من زوايا متعددة، حتى ولو كانت مغطاة جزئيا. وكان بإمكانها التعرف على وجوه عدة في الصورة ذاتها بدقة مدهشة.
وأطلق الفريق على هذا الأسلوب اسم «مكتشف الوجوه ذو الكثافة العميقة»، وهو يمكن مقارنته بشكل جيد مع الخوارزميات الأخرى، وقال الباحثان: «قمنا بتقييم هذا الأسلوب المقترح مع أساليب أخرى تعتمد على التعلم العميق، وتبين من النتائج أن أسلوبنا أسرع وأكثر دقة».
والأكثر من ذلك كانت خوارزمية الفريق هذا أفضل بكثير على صعيد التعرف على الوجوه عندما تكون مقلوبة، وهو الأسلوب الذي لم تصل به إلى حد الكمال المساعي الأخرى. وذكر الباحثان أن بالإمكان حتى تحسين أسلوبهما هذا عن طريق قاعدة بيانات تضم صور وجوه مقلوبة. وأضافا في حديث لمجلة «تكنولوجي ريفيو» الأميركية: «نحن نخطط لاستخدام استراتيجيات أكثر تحسينا على صعيد العينات، والمزيد من فنون وأساليب التعزيز لزيادة تحسين أداء ما نعمل عليه، لتحري واستقصاء الوجوه المغطاة، وتلك التي تدور»، كما يقولان.
وهذا عمل جذاب يبين مدى تقدم علم التعرف على الوجوه، فأسلوب الشبكة العصبية العميقة التلافيف لم يتعد عمره السنتين، ومع ذلك حقق تقدما كبيرا على صعيد التعرف على الأجسام وعلى الوجوه.
وتوفر هذه الخوارزمية الواعدة البحث في الصور عن أناس محددين، وليس كما يجري حاليا؛ إذ يقتصر أسلوب البحث على البحث المباشر عن الصور الملتقطة في مكان معين، أو وقت محدد. وعندما تدخل هذه التقنية حيز التنفيذ في القريب العاجل ستصبح الصور المستقبلية معرضة للبحث فيها واستقصاء خباياها، ومنها الصور الرقمية أيضا، بما في ذلك الكميات الهائلة من الفيديوهات، خاصة تلك الخاصة بالمراقبة والدوائر المغلقة. وهذا ما سيشكل قوة عظمى بشكل أو بآخر.