تصميم صوت كومبيوتري.. يروق للناس

نظم التفاعل الصوتي تدخل في السيارات واللعب والمستلزمات المنزلية

باحث في مختبر «واطسون» في شركة «آي بي إم»
باحث في مختبر «واطسون» في شركة «آي بي إم»
TT

تصميم صوت كومبيوتري.. يروق للناس

باحث في مختبر «واطسون» في شركة «آي بي إم»
باحث في مختبر «واطسون» في شركة «آي بي إم»

إذ كان من الممكن لأجهزة الكومبيوتر أن تتكلم، فلأي مدى سيكون الصوت قريبا من صوت البشر؟
حاول ستة من اللغويين والمهندسين والمسوقين بشركة «آي بي إم» عام 2009 الإجابة عن هذا السؤال عندما شرعوا في مهمة تحويل النص المكتوب إلى صوت، وكان ذلك خصيصا لنظام «واطسون» للذكاء الصناعي.
* تفاعل صوتي
وبعد ذلك بثمانية عشر شهرا، أنتجت الشركة صوتا متقنا، قد لا يتطابق كليا مع الصوت البشري، لكنه ليس مثل صوت الشخصية الخيالية «هال 9000» الذي سمعناه في فيلم «سبيس أوديسي 2001» (ملحمة الأوديسا الفضائية)، بيد أن الصوت عبّرَ عن الشخصية الصناعية لنظام «واطسون».
تمثل التحدي لإنتاج «شخصية» عبر الكومبيوتر في أنه الآن وفي ظل انتشار أجهزة الكومبيوتر المحمولة، وبعدما أصبحت أيادي الناس وعيونهم مشغولة دوما، فإن عددا من مصممي البرامج أصبحوا يتصارعون لإنتاج كومبيوتر يعتمد على التفاعل الصوتي.
بمقدور الماكينات أن تسمع وتفهم وتتحدث، فالأمر ليس مقتصرا على أجهزة الكومبيوتر أو الهواتف الذكية، حيث أضيف الصوت إلى كثير من الأجهزة التي نستخدمها يوميا مثل السيارات واللعب والمستلزمات المنزلية التي تعتمد على المعلومات مثل أدوات المطبخ، والروبوت المنزلي «جبو»، وتطبيق أمازون الصوتي «أليكسا» الذي يحاكي صوت مستخدمه.
ظهر علم تصميم جديد يهدف إلى تطوير برامج للمحادثة بالكومبيوتر بمقدورها فهم اللغات والأحاديث البشرية، وتستطيع الاستجابة للأوامر الصوتية للإنسان. غير أن إنتاج تلك الأنظمة، بواسطة باحثين في مجال يعرف بتصميم تفاعل الكومبيوتر البشري، لا يزال يعد مجرد فن أو علم غير مطبق.
ولا يزال من غير الممكن إنتاج صوت كومبيوتري لا يمكن تمييزه عن الصوت البشري، باستثناء ذلك الصوت المستخدم في العبارات المختصرة مثل النشرة الجوية أو تعليمات قيادة السيارة.
وقد اعترف أغلب مصممي البرامج أنهم ما زالوا يواجهون مشكلة تخطي ما يعرف بـ«وادي العجائب»، حيث تبدو الأصوات منفرة ومزعجة، رغم أنها تشبه إلى حد بعيد الأصوات البشرية. وتعود عبارة «وادي العجائب» إلى صانع أجهزة الروبوت الياباني «ماشيرو موري» التي استحدثها عام 1970، حيث لاحظ المبتكر الياباني اقتراب الرسوم من محاكاة النماذج الآدمية إلى حد بعيد، إلا أن هناك نقطة معينة تتشوه عندها تلك الصور ثم تتحسن، بحيث لا يمكن تمييزها عن المقاطع المصورة للبشر الحقيقيين.
* سمات بشرية
والشيء نفسه ينطبق على المقاطع الصوتية. وقال بريان لانغر، كبير خبراء الصوت بأحد معاهد التكنولوجيا في ولاية سان فرنسيسكو التي أنتجت برامج صوتية رقمية لمنتجات مثل دمية «باربي»، إن «كلمة مزعج هي الأنسب»، مضيفا: «عندما تجيد الماكينات إنتاج بعض هذه الأصوات، يعتقد الناس أنها سوف تنجح في إنتاج جميع الأصوات بالجودة نفسها».
وبغض النظر عن النطق الصحيح، يكمن التحدي الأكبر في إضافة السمات البشرية بشكل صحيح مثل علم الصرف والانفعال إلى الحديث. يؤكد اللغويون أهمية إضافة «علم العروض» للحديث بوضع «شدة» في المكان الصحيح واستخدام النغمة والعاطفة في الكلام المنطوق.
اليوم ورغم التقدم الذي تحقق فلا يزال من غير الممكن إضافة المشاعر الثرية بشكل كامل إلى الأحاديث البشرية من خلال الذكاء الصناعي. فبعد استخدام خوارزميات تعليم الكومبيوتر وبعد اللجوء إلى قاعدة ضخمة من بيانات المشاعر الإنسانية التي توظف في الحديث، أصبحت أول نتائج الأبحاث التجريبية جاهزة لخبراء الأحاديث الصوتية.

* خدمة «نيويورك تايمز»



7 مشاريع تجريبية للذكاء الاصطناعي من «غوغل» يمكنك التعرف عليها الآن

7 مشاريع تجريبية للذكاء الاصطناعي من «غوغل» يمكنك التعرف عليها الآن
TT

7 مشاريع تجريبية للذكاء الاصطناعي من «غوغل» يمكنك التعرف عليها الآن

7 مشاريع تجريبية للذكاء الاصطناعي من «غوغل» يمكنك التعرف عليها الآن

تمنحنا «غوغل» إمكانية الوصول إلى مجموعة متنوعة من الأدوات التجريبية التي لم تصبح منتجات كاملة بعد. وسواء كنت من منشئي المحتوى أو طالباً أو مجرد فضولي بشأن الذكاء الاصطناعي، فهناك شيء يناسب الجميع لاستكشافه.

مشاريع «غوغل»

* «نوتبوك إل إم (NotebookLM)» - مساعد تدوين الملاحظات المدعوم بالذكاء الاصطناعي الذي يساعدك على تحليل وفهم المستندات.

قم بتحميل مواد البحث الخاصة بك، وسيساعدك الذكاء الاصطناعي في إنشاء ملخصات والإجابة عن الأسئلة وتوليد الأفكار.

إنه يشبه إلى حد ما إنشاء دليل دراسي مخصص لك لمواضيع مختلفة. كما يتيح لك إنشاء لمحات صوتية لموادك – أي مناقشات تشبه البث الصوتي يستضيفها صوتان اصطناعيان «غريبان».

والبرنامج مفيد بشكل خاص للطلاب والباحثين والمحترفين الذين يحتاجون إلى معالجة كميات كبيرة من المحتوى المكتوب بكفاءة.

برنامج «تعرف على...»

محادثة طبيعية وموسيقى وصور

*«تعرف على... (...Learn About)» - تستخدم هذه الأداة الذكاء الاصطناعي لمساعدتك في استكشاف وفهم الموضوعات المعقدة من خلال المحادثات الطبيعية.

سواء كنت تتعمق في موضوع جديد أو تصقل معارفك الحالية، فإنها توفر لك تجربة تعليمية مخصصة. ابدأ ببساطة بموضوع تهتم به، وسترشدك عبر تجربة تعليمية تكيفية، إذ إنها تتكيّف مع مستوى معرفتك واهتماماتك أثناء تقدمك.

* «ميوزك إف إكس (MusicFX)» - أداة لإنشاء الموسيقى تعمل بالذكاء الاصطناعي وتسمح لأي شخص بإنشاء مقطوعات موسيقية أصلية من خلال وصف فكرة موسيقية وسماعها تنبض بالحياة.

يمكن للموسيقيين المخضرمين والمبتدئين على حد سواء إنشاء مقطوعات موسيقية فريدة من خلال وصف الأسلوب والمزاج والأدوات التي يريدونها. ثم يقوم الذكاء الاصطناعي بإنشاء الموسيقى بناءً على مواصفاتهم.

* "أميج إف إكس (ImageFX)» - على غرار مولدات الصور الأخرى التي تعمل بالذكاء الاصطناعي، يتيح لك البرنامج إنشاء صور مخصصة من أوصاف نصية.

يتميز بواحدة من واجهات المستخدم الأكثر سلاسة لأدوات إنشاء الصور الموجودة، ما يجعل من السهل إنشاء صور من أوصاف بسيطة مع تقديم خيارات تخصيص كافية لتلبية احتياجات المستخدمين ذوي الخبرة أيضاً.

أبجديات رسومية وعناوين نصّية جذابة

* «جين تايب (GenType)» - مولد خطوط تجريبي يستخدم الذكاء الاصطناعي لإنشاء أبجديات رسومية مخصصة بناءً على مواصفاتك.

يمكن نسخ الحروف المولدة أو تنزيلها بشكل فردي، أو تنزيلها مجموعةً كاملةً في مجلد مضغوط مليء بملفات PNG.

* «تكست إف إكس (TextFX)» - هو مساعد كتابة إبداعي يساعدك على إنشاء وتحرير وتحسين محتوى النص. يمكنه المساعدة في كل شيء من صياغة عناوين جذابة إلى تطوير أفكار قصصية إبداعية.

تقدم هذه الأداة «تأثيرات» مختلفة يمكنك تطبيقها على نصك، مثل تغيير النغمة أو الأسلوب أو التنسيق.

«إليومينت (Illuminate)» - يساعدك، وهو قريب من«نوتبوك إل إم»، على تحويل الموضوعات الجافة المحتملة إلى مناقشات صوتية جذابة يتم إنشاؤها بواسطة الذكاء الاصطناعي تبدو وكأنها حلقات بودكاست قصيرة ترويها أصوات واقعية بشكل مدهش.

ابحث عن موضوع معين أو الصق عنوان URL في ملف PDF وسيقوم بإخراج شيء أكثر قابلية للهضم بالنسبة لك للاستماع إليه.

* مجلة «فاست كومباني»، خدمات «تريبيون ميديا».