إذ كان من الممكن لأجهزة الكومبيوتر أن تتكلم، فلأي مدى سيكون الصوت قريبا من صوت البشر؟
حاول ستة من اللغويين والمهندسين والمسوقين بشركة «آي بي إم» عام 2009 الإجابة عن هذا السؤال عندما شرعوا في مهمة تحويل النص المكتوب إلى صوت، وكان ذلك خصيصا لنظام «واطسون» للذكاء الصناعي.
* تفاعل صوتي
وبعد ذلك بثمانية عشر شهرا، أنتجت الشركة صوتا متقنا، قد لا يتطابق كليا مع الصوت البشري، لكنه ليس مثل صوت الشخصية الخيالية «هال 9000» الذي سمعناه في فيلم «سبيس أوديسي 2001» (ملحمة الأوديسا الفضائية)، بيد أن الصوت عبّرَ عن الشخصية الصناعية لنظام «واطسون».
تمثل التحدي لإنتاج «شخصية» عبر الكومبيوتر في أنه الآن وفي ظل انتشار أجهزة الكومبيوتر المحمولة، وبعدما أصبحت أيادي الناس وعيونهم مشغولة دوما، فإن عددا من مصممي البرامج أصبحوا يتصارعون لإنتاج كومبيوتر يعتمد على التفاعل الصوتي.
بمقدور الماكينات أن تسمع وتفهم وتتحدث، فالأمر ليس مقتصرا على أجهزة الكومبيوتر أو الهواتف الذكية، حيث أضيف الصوت إلى كثير من الأجهزة التي نستخدمها يوميا مثل السيارات واللعب والمستلزمات المنزلية التي تعتمد على المعلومات مثل أدوات المطبخ، والروبوت المنزلي «جبو»، وتطبيق أمازون الصوتي «أليكسا» الذي يحاكي صوت مستخدمه.
ظهر علم تصميم جديد يهدف إلى تطوير برامج للمحادثة بالكومبيوتر بمقدورها فهم اللغات والأحاديث البشرية، وتستطيع الاستجابة للأوامر الصوتية للإنسان. غير أن إنتاج تلك الأنظمة، بواسطة باحثين في مجال يعرف بتصميم تفاعل الكومبيوتر البشري، لا يزال يعد مجرد فن أو علم غير مطبق.
ولا يزال من غير الممكن إنتاج صوت كومبيوتري لا يمكن تمييزه عن الصوت البشري، باستثناء ذلك الصوت المستخدم في العبارات المختصرة مثل النشرة الجوية أو تعليمات قيادة السيارة.
وقد اعترف أغلب مصممي البرامج أنهم ما زالوا يواجهون مشكلة تخطي ما يعرف بـ«وادي العجائب»، حيث تبدو الأصوات منفرة ومزعجة، رغم أنها تشبه إلى حد بعيد الأصوات البشرية. وتعود عبارة «وادي العجائب» إلى صانع أجهزة الروبوت الياباني «ماشيرو موري» التي استحدثها عام 1970، حيث لاحظ المبتكر الياباني اقتراب الرسوم من محاكاة النماذج الآدمية إلى حد بعيد، إلا أن هناك نقطة معينة تتشوه عندها تلك الصور ثم تتحسن، بحيث لا يمكن تمييزها عن المقاطع المصورة للبشر الحقيقيين.
* سمات بشرية
والشيء نفسه ينطبق على المقاطع الصوتية. وقال بريان لانغر، كبير خبراء الصوت بأحد معاهد التكنولوجيا في ولاية سان فرنسيسكو التي أنتجت برامج صوتية رقمية لمنتجات مثل دمية «باربي»، إن «كلمة مزعج هي الأنسب»، مضيفا: «عندما تجيد الماكينات إنتاج بعض هذه الأصوات، يعتقد الناس أنها سوف تنجح في إنتاج جميع الأصوات بالجودة نفسها».
وبغض النظر عن النطق الصحيح، يكمن التحدي الأكبر في إضافة السمات البشرية بشكل صحيح مثل علم الصرف والانفعال إلى الحديث. يؤكد اللغويون أهمية إضافة «علم العروض» للحديث بوضع «شدة» في المكان الصحيح واستخدام النغمة والعاطفة في الكلام المنطوق.
اليوم ورغم التقدم الذي تحقق فلا يزال من غير الممكن إضافة المشاعر الثرية بشكل كامل إلى الأحاديث البشرية من خلال الذكاء الصناعي. فبعد استخدام خوارزميات تعليم الكومبيوتر وبعد اللجوء إلى قاعدة ضخمة من بيانات المشاعر الإنسانية التي توظف في الحديث، أصبحت أول نتائج الأبحاث التجريبية جاهزة لخبراء الأحاديث الصوتية.
* خدمة «نيويورك تايمز»