في معظم حالات قراءة حركة الشفاه، تعتمد التجارب على شخص يقرأ حركة شفتي شخصٍ آخر، أو في حالة برامج قراءة الشفتين كـ«ليب نت» LipNet و«ليوبوا» Liopa، يتولّى الذكاء الصناعي قراءة شفتي كائنٍ بشري بواسطة تطبيق هاتفي.
ولكنّ مختبر «وسائط الكومبيوتر الذكية للتفاعلات المستقبلية» التّابع لجامعة كورنيل يخوض اليوم نوعاً مختلفاً من التجارب في هذا المجال.
نظارة ذكية
طوّر فريقٌ من الباحثين نظاماً للتعرّف على الكلام لقراءة الشفتين قادراً على تعريف 31 كلمة باللغة الإنجليزية. ولكنّ النظام الذي يحمل اسم «إيكو سبيتش» EchoSpeech، يأتي على شكل نظارات تقليدية وليس تطبيقاً هاتفياً. تفيد ورقة بحثية جديدة بأنّ النظارة (التي يمكن شراؤها من دون وصفة طبية) تستطيع قراءة شفتي المستخدم نفسه ومساعدة الأشخاص العاجزين عن الكلام على أداء مهام أساسية كفتح قفل الهاتف أو توجيه أي أمرٍ لمساعد «سيري» دون إصدار صوت. قد يبدو لكم الأمر أشبه بالتحريك العقلي ولكنّ هذه النظّارة المجهّزة بميكروفونين، ومكبرين للصوت، وجهاز ضبط مصغّر، تعتمد في الحقيقة على السونار (تقنية انتشار الصوت).
يستخدم حوالي ألف نوعٍ حيّ السونار للصيد والاستمرار على قيد الحياة، ولعلّ الحيتان هي أشهر هذه الأنواع، كونها قادرة على إرسال نبضات صوتية تثب من جسمٍ إلى آخر في المياه، ومن ثمّ ترتدّ إلى الحوت ليستطيع معالجة هذه الأصداء وتكوين صورة عقلية للبيئة المحيطة وأحجام الأجسام التي تتحرّك فيها والمسافات التي تفصله عنها.
تعمل نظاّرات «إيكو سبيتش» بطريقة مشابهة باستثناء أنّ نظامها لا يركّز على المسافة بل يتابع حركة الموجات الصوتية (غير المسموعة بالأذن البشرية) في الوجه وكيف تظهر في مختلف أجزائه. يتلخّص عمل النظارة بأربع خطوات أساسية.
في الأولى، تصدر المكبرات الصوتية الصغيرة (المثبّتة في جهة واحدة من النظارة) الموجات الصوتية. ومع تحريك المرتدي لشفتيه للفظ كلمات مختلفة، تتنقل الموجات الصوتية في أنحاء وجهه وتظهر على «مفاصل» مختلفة كالشفتين، والفكّ، والخدّين. بعدها، تلتقط الميكروفونات (المثبّتة في الجهة الأخرى من النظارة) هذه الموجات الصوتية، ومن ثمّ يعالج جهاز الضبط المصغّر هذه الموجات مجتمعة بمساعدة أي جهاز متزاوج مع النظارة.
قراءة الشفاه
ولكن كيف يعرف النظام أنّه عليه تعيين كلمة محدّدة لحركة وجه معيّنة؟ هنا، استخدم الباحثون نوعاً من الذكاء الصناعي يُعرف بخوارزمية التعلّم العميق التي تلقّن الكومبيوتر معالجة البيانات على طريقة الدماغ البشري. يقول رويدونغ زانغ، الباحث الرئيسي في الدراسة: «البشر أذكياء. إذا درّبتم أنفسكم بالدرجة الكافية، يمكنكم النظر إلى فم أي شخص وفهم محتوى كلامه دون سماع أي صوت».
استخدم الفريق البحثي مقاربة مشابهة، ولكن بدل الاعتماد على كائن بشري آخر لفهم محتوى الخطاب، اعتمد الباحثون على نموذج ذكاء صناعي مدرّب سابقاً على التعرّف على بعض الكلمات ومطابقتها لـ«ملفّ الصدى» في وجه أحدهم. لتدريب الذكاء الصناعي، طلب الفريق من 24 شخصاً تكرار مجموعة من الكلمات أثناء ارتداء النظارة أكثر من مرّة غير متتالية.
تعمل «إيكو سبيتش» حتّى اليوم بمفردات طفلٍ صغير وتستطيع التعرّف على 10 أرقام، وفهم الاتجاهات كـ«فوق» و«تحت» و«يسار» و«يمين»، التي يمكن استخدامها، بحسب زانغ، لرسم خطوط في برنامج كومبيوتر مساعد. علاوة على ذلك، تستطيع النظارة تشغيل مساعدين صوتيين كأليكسا، وغوغل، وسيري، أو الاتصال بأجهزة أخرى تعمل بالبلوتوث.
في اختبار أخير زاوج خلاله الفريق النظام مع جهاز آيباد، حقّقت النظارة دقّة بنسبة 95 في المائة، ولكنّها لا تزال تحتاج إلى المزيد من العمل لتحسين سهولة استخدامها. تحتاج «إيكو سبيتش» حالياً إلى التدريب في كلّ مرّة يرتديها شخصٌ مختلف، الأمر الذي قد يؤدي إلى إبطاء التقدّم بالتزامن مع تطوير النظام. ولكنّ الفريق يعتقد أنّ اتساع قاعدة المستخدمين إلى درجة كافية سيمكّن النموذج أخيراً من جمع بيانات أكثر، وتعلّم المزيد من أنماط الخطاب، وتطبيقها على الجميع.
يقول زانغ أخيراً إنّ عمل النظام بـ100 أو 200 مصطلح يجب ألّا يشكّل تحدّياً مع الذكاء الصناعي المتوفر حالياً، ولكنّ التوسّع بالمصطلحات سيحتاج إلى نموذج ذكاء صناعي أكثر تقدّماً، ما قد يشكّل ثقلاً على الأبحاث الحالية في مجال التعرّف على الخطاب.
*«فاست كومباني»
- خدمات تريبيون ميديا