تصميم صوت كومبيوتري.. يروق للناس

نظم التفاعل الصوتي تدخل في السيارات واللعب والمستلزمات المنزلية

باحث في مختبر «واطسون» في شركة «آي بي إم»
باحث في مختبر «واطسون» في شركة «آي بي إم»
TT

تصميم صوت كومبيوتري.. يروق للناس

باحث في مختبر «واطسون» في شركة «آي بي إم»
باحث في مختبر «واطسون» في شركة «آي بي إم»

إذ كان من الممكن لأجهزة الكومبيوتر أن تتكلم، فلأي مدى سيكون الصوت قريبا من صوت البشر؟
حاول ستة من اللغويين والمهندسين والمسوقين بشركة «آي بي إم» عام 2009 الإجابة عن هذا السؤال عندما شرعوا في مهمة تحويل النص المكتوب إلى صوت، وكان ذلك خصيصا لنظام «واطسون» للذكاء الصناعي.
* تفاعل صوتي
وبعد ذلك بثمانية عشر شهرا، أنتجت الشركة صوتا متقنا، قد لا يتطابق كليا مع الصوت البشري، لكنه ليس مثل صوت الشخصية الخيالية «هال 9000» الذي سمعناه في فيلم «سبيس أوديسي 2001» (ملحمة الأوديسا الفضائية)، بيد أن الصوت عبّرَ عن الشخصية الصناعية لنظام «واطسون».
تمثل التحدي لإنتاج «شخصية» عبر الكومبيوتر في أنه الآن وفي ظل انتشار أجهزة الكومبيوتر المحمولة، وبعدما أصبحت أيادي الناس وعيونهم مشغولة دوما، فإن عددا من مصممي البرامج أصبحوا يتصارعون لإنتاج كومبيوتر يعتمد على التفاعل الصوتي.
بمقدور الماكينات أن تسمع وتفهم وتتحدث، فالأمر ليس مقتصرا على أجهزة الكومبيوتر أو الهواتف الذكية، حيث أضيف الصوت إلى كثير من الأجهزة التي نستخدمها يوميا مثل السيارات واللعب والمستلزمات المنزلية التي تعتمد على المعلومات مثل أدوات المطبخ، والروبوت المنزلي «جبو»، وتطبيق أمازون الصوتي «أليكسا» الذي يحاكي صوت مستخدمه.
ظهر علم تصميم جديد يهدف إلى تطوير برامج للمحادثة بالكومبيوتر بمقدورها فهم اللغات والأحاديث البشرية، وتستطيع الاستجابة للأوامر الصوتية للإنسان. غير أن إنتاج تلك الأنظمة، بواسطة باحثين في مجال يعرف بتصميم تفاعل الكومبيوتر البشري، لا يزال يعد مجرد فن أو علم غير مطبق.
ولا يزال من غير الممكن إنتاج صوت كومبيوتري لا يمكن تمييزه عن الصوت البشري، باستثناء ذلك الصوت المستخدم في العبارات المختصرة مثل النشرة الجوية أو تعليمات قيادة السيارة.
وقد اعترف أغلب مصممي البرامج أنهم ما زالوا يواجهون مشكلة تخطي ما يعرف بـ«وادي العجائب»، حيث تبدو الأصوات منفرة ومزعجة، رغم أنها تشبه إلى حد بعيد الأصوات البشرية. وتعود عبارة «وادي العجائب» إلى صانع أجهزة الروبوت الياباني «ماشيرو موري» التي استحدثها عام 1970، حيث لاحظ المبتكر الياباني اقتراب الرسوم من محاكاة النماذج الآدمية إلى حد بعيد، إلا أن هناك نقطة معينة تتشوه عندها تلك الصور ثم تتحسن، بحيث لا يمكن تمييزها عن المقاطع المصورة للبشر الحقيقيين.
* سمات بشرية
والشيء نفسه ينطبق على المقاطع الصوتية. وقال بريان لانغر، كبير خبراء الصوت بأحد معاهد التكنولوجيا في ولاية سان فرنسيسكو التي أنتجت برامج صوتية رقمية لمنتجات مثل دمية «باربي»، إن «كلمة مزعج هي الأنسب»، مضيفا: «عندما تجيد الماكينات إنتاج بعض هذه الأصوات، يعتقد الناس أنها سوف تنجح في إنتاج جميع الأصوات بالجودة نفسها».
وبغض النظر عن النطق الصحيح، يكمن التحدي الأكبر في إضافة السمات البشرية بشكل صحيح مثل علم الصرف والانفعال إلى الحديث. يؤكد اللغويون أهمية إضافة «علم العروض» للحديث بوضع «شدة» في المكان الصحيح واستخدام النغمة والعاطفة في الكلام المنطوق.
اليوم ورغم التقدم الذي تحقق فلا يزال من غير الممكن إضافة المشاعر الثرية بشكل كامل إلى الأحاديث البشرية من خلال الذكاء الصناعي. فبعد استخدام خوارزميات تعليم الكومبيوتر وبعد اللجوء إلى قاعدة ضخمة من بيانات المشاعر الإنسانية التي توظف في الحديث، أصبحت أول نتائج الأبحاث التجريبية جاهزة لخبراء الأحاديث الصوتية.

* خدمة «نيويورك تايمز»



أحدث نزعات الذكاء الاصطناعي المقبلة من مؤتمر «مايكروسوفت إغنايت 2024»

يستعرض مؤتمر «مايكروسوفت إغنايت 2024» أبرز تقنيات الذكاء الاصطناعي المقبلة
يستعرض مؤتمر «مايكروسوفت إغنايت 2024» أبرز تقنيات الذكاء الاصطناعي المقبلة
TT

أحدث نزعات الذكاء الاصطناعي المقبلة من مؤتمر «مايكروسوفت إغنايت 2024»

يستعرض مؤتمر «مايكروسوفت إغنايت 2024» أبرز تقنيات الذكاء الاصطناعي المقبلة
يستعرض مؤتمر «مايكروسوفت إغنايت 2024» أبرز تقنيات الذكاء الاصطناعي المقبلة

انطلقت قبل قليل فعاليات مؤتمر «مايكروسوفت إغنايت 2024» Microsoft Ignite 2024 من مدينة شيكاغو الأميركية، الذي يستمر إلى نهاية الخميس 21 نوفمبر (تشرين الثاني). وحصلت «الشرق الأوسط» على نظرة استباقية حول «عملاء الذكاء الاصطناعي» AI Agents، ونذكرها في هذا الموضوع.

بداية، تتوجه «مايكروسوفت» نحو تبني الذكاء الاصطناعي على صعيد أوسع في جميع خدماتها، وذلك من خلال ما يعرف بـ«عملاء الذكاء الاصطناعي» و«كوبايلوت» Copilot لتسريع عمليات الشركات والموظفين وتطوير البرامج والتحول إلى الذكاء الاصطناعي على جميع الصعد.

يمكن إيجاد «عميل ذكي» بكل سهولة باستخدام اللغة البشرية

مَن هم «عملاء الذكاء الاصطناعي»؟

«عملاء الذكاء الاصطناعي» هي أدوات لأتمتة الأعمال اليومية بذكاء باستخدام تقنيات الذكاء الاصطناعي، يمكن تطويرها بسهولة كبيرة وباستخدام النصوص البشرية وليس البرمجية. ويمكن لـ«العملاء» الرد على استفسارات الزبائن عبر الإنترنت بشكل آلي طوال الوقت وتنظيم الجداول المالية والبحث في آلاف الوثائق عن إجابة محددة للزبون، ومن ثم اتخاذ الإجراءات التالية آلياً أو رفعها إلى المستخدم ليعالج الحالات الخاصة يدويا. ويمكن تلخيص تعريف هذه الأدوات على أنها تطبيقات المستقبل المعتمدة على الذكاء الاصطناعي.

قدرات فائقة

ويستطيع «العملاء الأذكياء» مراجعة سجل منتجات الشركة وتحليلها وتلخيصها للمهتمين الذين يرسلون رسائل البريد الإلكتروني إلى الشركة للاستفسار عن منتج أو خدمة محددة، أو الذين يسألون عن ذلك عبر نظام الدردشة في موقع الشركة. ويمكنها كذلك إكمال سلسلة العمل لدى طلب منتج ما وإصدار وإرسال فاتورة الشراء إلى الزبون وطلب استلام المنتج من شركة التوصيل ومتابعة حالة الطلب، دون أي تدخل من المستخدم.

كما يمكنهم البحث في ملفات الشركة الموجودة في SharePoint أو في مجلدات خاصة فيها، والإجابة عن أسئلة الموظفين أنفسهم، مثل سؤال موظف: «ما عدد المنتجات التي تم تسليمها في آخر أسبوعين؟» أو «ما هو إجراء طلب نقل موظف إلى فرع آخر؟»، ليجيب «العميل الذكي» وكأن المتحدث يدردش مع خدمة ذكاء اصطناعي تقليدية، وبالأسلوب نفسه.

تحويل النصوص لغاتٍ مختلفة

ويستطيع بعض «العملاء» تحويل النصوص بين اللغات المختلفة في اجتماعات برنامج «تيمز» ومحاكاة صوت المستخدم ونبرته وتحويلها لغة أخرى بشكل مباشر دون أن يشعر أي شخص بذلك، ليستطيع المشاركون التحدث بلغات العالم وكسر حواجز اللغة بينهم خلال الاجتماعات والتركيز على المسائل المهمة في كل اجتماع. ويستطيع البعض الآخر حل المشاكل التقنية في كومبيوترات المستخدمين. ويستطيع البعض الآخر مساعدة المستخدم في ترتيب جدول أعماله، حيث يمكنه ملاحظة أن اجتماعاً ما قد تجاوز مدته المطلوبة، ليقوم بإعادة جدولة الاجتماع التالي آلياً، أو تلخيص رسائل البريد الإلكتروني غير المقروءة التي وصلت المستخدم خلال اجتماعه وذكر نقاط العمل التالية لكل رسالة.

هذا، وتمت إضافة «العملاء الأذكياء» إلى شبكة «لينكدإن» LinkedIn لمساعدة مديري التوظيف في العثور على الموظفين ذوي المهارات المناسبة وبكل سهولة.

كيفية إعداد «عميل ذكي»

ويمكن إعداد «عميل ذكي» جديد بشكل سهل وباستخدام اللغة البشرية، مع وضع تسلسل العمليات المطلوبة («مثل البحث عن المعلومة، ومن ثم الإجابة عن السؤال، ومن ثم إرسال بريد إلكتروني في حال طلب المستخدم ذلك، أو تحويل الطلب إلى شخص محدد في حال عدم العثور على المعلومة»، وغيرها) وتفعيل «العميل الذكي» فوراً.

ولا يحتاج المستخدم إلى أي خبرة برمجية لإعداد «عميل ذكي» جديد، وكأنه وثيقة نصية جديدة في برنامج «وورد» أو جدول حسابات في «إكسل». يكفي إعداد آلية العمل وكتابة ما الذي ينبغي القيام به في «مايكروسوفت 360 كوبايلوت» لبدء العمل.

برامج «تفهم» المستقبل الذكي

ويمكن للمطورين استخدام خدمة «أزور إيه آي إغنايت» Azure AI Agent Service لدمج «العملاء الأذكياء» مع نصوصهم البرمجية للحصول على برامج متقدمة مدعمة بالذكاء الاصطناعي دون الحاجة إلى كتابة نصوص برمجية معقدة مرتبطة بلغات الذكاء الاصطناعي، حيث يستطيع «العملاء الأذكياء» فهم وإدراك السياق الذي تعمل فيه وتقوم بتقسيم العمل أجزاء وخطوات عدّة والعمل على كل منها وإكمالها بشكل سريع وأكثر كفاءة مما سابق.

كما سيستطيع «العملاء الأذكياء» تقييم المخاطر وخفضها أو تجاوزها وتقديم تقارير الأداء ومتابعة تنفيذ التوصيات، مع وجود الإشراف البشري على الخطوات الأخيرة للتأكد من دقتها وصحتها وضمان عدم حدوث أي خطأ قد يتسبب بضرر على سير العمل.