تقنيات تحويل الأصوات إلى نصوص تزداد انتشاراً

ميزة «من الفم إلى الشاشة» تؤمن خدمات للطلاب والأطباء ورجال الأعمال

تقنيات تحويل الأصوات إلى نصوص تزداد انتشاراً
TT

تقنيات تحويل الأصوات إلى نصوص تزداد انتشاراً

تقنيات تحويل الأصوات إلى نصوص تزداد انتشاراً

يشتاق سام ليانغ لوالدته ويتمنّى لو أنّه يستطيع استعادة الأشياء التي كانت تقولها له عندما كان طالباً في المدرسة الثانوية. وعندما توفيت عام 2001 قال: «حقّاً أشتاق لها. لقد كانت لحظات ثمينة في حياتي».
هذا الأمر دفع بليانغ، الرئيس التنفيذي والشريك المؤسس في «أوتر»، إحدى شركات وادي السيليكون الناشئة، إلى وضع خطّة للتعامل مع هذه الأوضاع في المستقبل. وتقدّم شركته اليوم خدمة تساعد على تحويل الكلام إلى نص أوتوماتيكياً وبدقّة عالية. وقد بدأت هذه الخدمة باكتساب شعبية واسعة بين الصحافيين، والطلّاب، والمدوّنين الإلكترونيين، وموظفي الشركات.
تخزين الكلام
ساهم التحسّن الذي شهدته تقنية البرمجة الإلكترونية في تحويل تقنية نسخ الكلام إلى نص إلى حقيقة. فمن خلال تخزين كمّ هائل من الكلام البشري، أصبح بالإمكان تدريب برامج شبكات عصبية للتعرّف على اللغة المحكية بدقّة عالية تقارب 95 في المائة في أفضل الظروف. أضف إلى ذلك، يتيح تراجع تكلفة تخزين البيانات اليوم استخدام اللغة البشرية بطرق لم تخطر على بال أحد.
وشرح ليانغ، خرّيج الهندسة الكهربائية من جامعة ستانفورد وعضو الفريق الأساسي الذي صمم تطبيق «غوغل مابس»، أنّ «عمليات ضغط البيانات عزّزت إمكانية الاحتفاظ بالمحادثات الكلامية لشخص طوال حياته ودمجها في سعة 2 ترابايت، أي مدمجة بالقدر الكافي الذي يتيح وضعها على جهاز تخزين لا يتجاوز سعره 50 دولاراً».
خلال العقد الماضي، ساهم التقدّم السريع الذي شهدته تقنية التعرّف إلى الصوت في تطوير وانتشار أجهزة المساعدة الصوتية الافتراضية كـ«سيري» من آبل، و«أليكسا» من أمازون، و«غوغل فويس» و«كورتانا» من مايكروسوفت، وغيرها الكثير. هذا التقدّم نفسه يتوسّع اليوم ليشمل مجالات جديدة بدأت بالتأثير بشكل واضح على مجالات العمل.
ولكنّ هذه الأجهزة الصوتية المحمولة المصنوعة للاستهلاك تسببت في تصاعد مخاوف جديّة حول الخصوصية، فقد اعتبر مارك روتنبرغ، الرئيس والمدير التنفيذي في مركز معلومات الخصوصية الإلكترونية في واشنطن أنّ أجهزة الكومبيوتر تتمتّع بقدرة على تنظيم، واستغلال، وتقييم التواصل البشري أكبر بكثير من قدرة البشر. وقد عمد المركز عام 2015 إلى التقدّم بشكوى أمام هيئة التجارة الفيدرالية ضدّ سامسونغ، ادعى فيها أنّ تسجيل وتخزين المحادثات الذي تقوم به تلفزيوناتها الذكية يمثّل تهديداً جدياً للخصوصية. وأضاف روتنبرغ أنّ نسخ الكلام والمحادثات ينقل مخاوف الخصوصية إلى مجالات جديدة في المنزل والعمل على حدّ سواء.
من الصوت إلى النص
إنّ التطوّرات السريعة التي تحقّقت في سوق التحويل الآلي للصوت في السنة الأخيرة، تعكس احتمالات مذهلة وقريبة المدى على استخدامه في مجموعة جديدة وكبيرة من التطبيقات. فقد انطلقت مثلاً مع بداية الخريف حملة لتجهيز طلّاب جامعة كاليفورنيا - لوس أنجليس، الذين يحتاجون إلى مساعدة لتدوين الملاحظات (كأولئك الذين يعانون من مشاكل في السمع) بخدمة شركة «أوتر». وتمّ تصميم هذا النظام لاستبدال عملية تدوين الملاحظات الحالية التي يستخدمها الطلاب لتسجيل الملاحظات ونشرها لاحقاً.
وفي مايو (أيار)، عندما زارت ميشيل أوباما، السيّدة الأولى السابقة، حرم الجامعة على هامش احتفال بيوم التوقيع الوطني، تمّ تزويد الطلّاب الصمّ بنصّ آني لخطابها من إنتاج خدمة النسخ نفسها.
يقدّم «زوم»، نظام المؤتمرات المصوّرة، خيار نسخ الكلام إلى نص الذي تشغّله خدمة شركة «أوتر» لتزويد مستخدميه بنصٍّ آني لاجتماعات العمل، إلى جانب تسهيل تخزينها والبحث عنها عبر الإنترنت. تقدّم «أوتر» وغيرها من الشركات الكثير من الميّزات في خدماتها، وأهمّها إمكانية فصل وتسمية مختلف المتحدّثين في نسخة نصيّة واحدة.
وتعمد شركات أخرى كـ«ريف»، التي بدأت عام 2010 بتقديم نصوص مكتوبة من قبل موظفين للمحادثات بدولار للدقيقة، إلى تقديم خدمة نسخ آلية للمحادثات والخطابات بعشرة سنتات للدقيقة. في النتيجة، يبدو أنّ خدمة نسخ النصوص تتوسّع لتشمل مجالات جديدة، كعنونة محطّات اليوتيوب، وفيديوهات التدريب في الشركات، وشركات البحث السوقية التي تحتاج إلى نصوص من مجموعات التركيز.
يتيح نظام «ريف» لمستخدميه الاختيار بين ما إذا كانوا يريدون دقّة أعلى أو تحوّل سريع بتكلفة أقلّ، بحسب ما أفاد جايسن شيكولا، مؤسس الشركة ورئيسها التنفيذي، لافتاً إلى أنّ زبائنه يعتمدون أكثر فأكثر على النصوص التي تنتجها الآلات بدل نسخ أي خطاب أو محادثات من البداية. وقال شيكولا إنّه لم يعتقد يوماً أنّ خدمة النسخ الآلي للكلام ستؤدي يوماً إلى تقليص عدد القوى العاملة لديه، على الرغم من أنّ شركته تضمّ اليوم 40000 موظف ناسخ.
خدمات طبية
في المجال الطبي، تستخدم خدمة النسخ الآلي اليوم لتغيير الطريقة التي يسجّل بها الأطباء ملاحظاتهم. في السنوات الأخيرة، أصبحت أنظمة التسجيل الصحي الإلكترونية جزءاً من الزيارة الروتينية في أي عيادة، مما عرّض الأطباء للنقد بسبب تركيزهم على الشاشات والطباعة بدل الحفاظ على التواصل البصري مع المريض. ولكنّ شركات ناشئة كثيرة تقدّم اليوم خدمات نسخ تحفظ النصّ، وربّما الفيديو، من غرفة الفحص وتستخدم ناسخا بشريا أو كاتبا موجودا في مكان آخر، لتصحيح النصّ الآلي وإنتاج مجموعة «مرتّبة» من الملاحظات المسجّلة خلال زيارة المريض.
تعمل «روبين هيلث كير» واحدة من هذه الشركات في بيركلي - كاليفورنيا، على تسجيل زيارات العيادات بواسطة نظام نسخ آلي متصل بفريق عمل من «الكتبة» البشريين الذين يعملون في الولايات المتحدة، بحسب ما أفاد نواه أورهان، الرئيس التنفيذي للشركة. ومعظم هؤلاء الكتبة هم طلّاب السنوات الأولى في كليّة الطبّ، مهمتهم الإنصات لمحادثة الطبيب لإنتاج سجلّ كامل حول المريض خلال ساعتين من زيارته. يستخدم نظام «روبين هيلث كير» في جامعة كاليفورنيا - سان فرنسيسكو، وجامعة سان دييغو.
تعتمد شركة أخرى منافسة تعرف باسم «ديب سكرايب» في بيركلي أيضاً، مقاربة أكثر آلية لصناعة سجلّات صحية إلكترونية. إذ تستخدم الشركة محرّكات كلام كثيرة من تطوير شركات تقنية عملاقة كغوغل و«آي بي إم». لتسجيل المحادثات ووضع ملخّص للمعاينة، تتمّ مراجعته لاحقاً من قبل موظفين مختصّين.
افتقار إلى الدقة
من جهتهم، يؤكّد خبراء الكلام على أنّ أنظمة النسخ الآلية تزال بعيدة كلّ البعد عن المثالية رغم التقدّم الذي شهدته. صحيح أنّ النسخ الآلي قد يقدّم دقّة عالية تصل نسبتها إلى 95 في المائة، ولكن هذا الأمر لا يمكن تحقيقه إلّا في أفضل الظروف وأكثرها وضوحاً، لأنّ هذه الدقّة قد تنهار بسبب لكنة مختلفة، أو سوء في وضعية ميكروفون، أو أي ضجّة في الخلفية.
تراهن الآمال المستقبلية في هذا المجال على بروز تقنية خطابية أخرى تُعرف بالمعالجة الطبيعية للغة، والتي تهدف إلى التقاط معنى الكلمات والجمل لتساهم في تعزيز دقّة أجهزة الكومبيوتر حتّى تصبح موازية للقدرات البشرية. ولكن في الوقت الحالي، لا تزال معالجة اللغة الطبيعية تمثّل واحداً من أكبر التحديات والعوائق في عالم الذكاء الصناعي.

- خدمة «نيويورك تايمز».



مؤتمر «مايكروسوفت إغنايت 2024» يكشف عن أبرز نزعات الذكاء الاصطناعي المقبلة

يستعرض مؤتمر «مايكروسوفت إغنايت 2024» أبرز تقنيات الذكاء الاصطناعي المقبلة
يستعرض مؤتمر «مايكروسوفت إغنايت 2024» أبرز تقنيات الذكاء الاصطناعي المقبلة
TT

مؤتمر «مايكروسوفت إغنايت 2024» يكشف عن أبرز نزعات الذكاء الاصطناعي المقبلة

يستعرض مؤتمر «مايكروسوفت إغنايت 2024» أبرز تقنيات الذكاء الاصطناعي المقبلة
يستعرض مؤتمر «مايكروسوفت إغنايت 2024» أبرز تقنيات الذكاء الاصطناعي المقبلة

تنتهي اليوم فعاليات مؤتمر «مايكروسوفت إغنايت 2024» (Microsoft Ignite) السنوي في مدينة شيكاغو الأميركية، بحضور تجاوز 14 ألف زائر، الذي استعرضت «مايكروسوفت» خلال أيامه الثلاثة أكثر من 80 خدمة ومنتجاً وميزة مرتبطة بالذكاء الاصطناعي.

الذكاء الاصطناعي بخدمة الموظفين

طوّرت الشركة خدمة «مايكروسوفت 365 كوبايلوت» (Microsoft 365 Copilot) الخاصة بالشركات، مقدمة «أفعال كوبايلوت» (Copilot Actions) التي تسمح بأتمتة المهام اليومية في مجال العمل بأوامر بسيطة، مثل الحصول على ملخص اجتماعات «تيمز» (Teams) في ذلك اليوم أو إعداد التقارير الأسبوعية أو تلخيص ما الذي يجب القيام به حسب الرسائل الواردة إلى بريد المستخدم والاجتماعات التي حدثت قبل عودته من إجازته السنوية، وغيرها.

 

 

«عملاء مايكروسوفت»

كشفت الشركة كذلك ميزة «عملاء مايكروسوفت» (Microsoft Agents) التي تسمح بالبحث في ملفات الشركة وتحليلها والإجابة على أسئلة الموظفين أو العملاء بكل خصوصية، وتلخيص النتائج بهدف تسريع اتخاذ قرارات العمل. وتعمل هذه الميزة في خدمة «شيربوينت» (SharePoint) لكل شركة.

 

 

 

المترجم الفوري

ويمكن لعميل ذكاء اصطناعي اسمه «المترجم الفوري» (Interpreter) ترجمة محادثات الاجتماعات المرئية في «تيمز» بهدف كسر الحواجز اللغوية والتركيز على جوهر الاجتماع، مع القدرة على محاكاة صوت المستخدم بلغة الطرف الثاني. ويمكن لعميل ذكي آخر اسمه «المُيَسِّر» (Facilitator) تلخيص اجتماعات «تيمز» وأتمتة إدارة المشاريع عبر جميع مراحلها. كما يستطيع بعض عملاء الذكاء الاصطناعي مساعدة الموظفين على حلّ مشاكلهم التقنية دون الحاجة للعودة إلى قسم الدعم الفني، والإجابة على أسئلتهم المتعلقة بسياسات الشركة والموارد البشرية والمشتريات، وغيرها.

الذكاء الاصطناعي رفيق المبرمجين

ولتسهيل تضمين تقنيات الذكاء الاصطناعي في برامج الشركات والأفراد، تقدم «مايكروسوفت» ما تسميه بـ«مسبك آجور للذكاء الاصطناعي» (Azure AI Foundry) الذي يوفر مجموعة برمجية للذكاء الاصطناعي وبوابة لتطوير عملاء الذكاء الاصطناعي.

وتوفر هذه المجموعة البرمجية أكثر من 25 قالباً مسبق الإعداد (Template) للذكاء الاصطناعي تسمح بتطوير تطبيقات مدعومة بهذه التقنية وتبسيط عملية البرمجة ونشرها عبر منصات «غيتهاب» (Github) و«فيجوال ستوديو» (Visual Studio) و«كوبايلوت ستوديو» (Copilot Studio). وتسمح البوابة للمبرمجين اكتشاف خدمات وأدوات ونماذج ذكاء اصطناعي تناسب احتياجاتهم واحتياجات الشركات التي يعملون لديها.

حماية المستخدمين

حذّرت «مايكروسوفت» أن عدد الهجمات الإلكترونية التي تستهدف سرقة كلمات السرّ قد ارتفع خلال آخر 3 أعوام من 579 إلى أكثر من 7000 هجمة في كل ثانية، مع مضاعفة العدد في آخر سنة، ما يضع سبل الحماية التقليدية في موضع لا يسمح لها اللحاق بتقدم القراصنة.

مبادرة المستقبل الآمن

هذا الأمر يتطلب إعادة تطوير عملية حماية المستخدمين، ما دفع الشركة إلى إطلاق «مبادرة المستقبل الآمن» (Secure Future Initiative) التي طلبت من 34000 مهندس العمل على أكبر مشروع للأمن الرقمي بتاريخ البشرية وتطوير مقاومة البرامج ونظم التشغيل وأجهزة المستخدمين لطوفان الهجمات الرقمية الذي تتسارع وتيرته في كل يوم.

وكشفت كذلك عن عملها على تطوير «مايكروسوفت سيكيوريتي إكسبوجر مانجمنت» (Microsoft Security Exposure Management) الذي يقوم بتحليل آلية تواصل الأجهزة المختلفة والبيانات والهوية الرقمية والشبكات، بعضها مع بعض، داخل بيئة العمل واكتشاف العلاقات بينها وعرض مسار الاختراقات الممكنة لأي قرصان إلكتروني، وذلك لاكتشاف نقطة الضعف في البيئة المعقدة التي يمكن للقراصنة الدخول منها، وتوقع هدفهم وتتبع المسار المفترض لهم عبر الأجهزة المختلفة للوصول إلى الهوية الرقمية أو البيانات الحساسة، ومن ثم حماية ذلك المسار بشكل استباقي على صعيد سدّ الثغرات في الأجهزة أو البرامج أو نظام التشغيل أو الشبكة، وغيرها من العوامل الأخرى. كما يستطيع هذا المشروع التأكد من سلامة الاحتياطات الأمنية للفريق التقني داخل الشركة.

وأطلقت الشركة نظام «مايكروسوفت سيكيوريتي كوبايلوت» (Microsoft Security Copilot) المدعوم بالذكاء الاصطناعي للقيام بالوظائف الأمنية باستخدام الذكاء الاصطناعي بكل سلاسة وسهولة، حيث أظهرت الدراسات انخفاض معدل مدة حلّ المشاكل الأمنية لدى استخدام هذا النظام بنحو 30 في المائة.

أجهزة الذكاء الاصطناعي

واستعرضت الشركة أول جهاز من فئته، مصنوع خصيصاً للاتصال بأمان مع خدمة «ويندوز 365» السحابية، اسمه «ويندوز 365 لينك» (Windows 365 Link).

الجهاز بسيط وآمن، وسيتم إطلاقه في أبريل (نيسان) 2025 المقبل، بسعر 349 دولاراً أميركياً، ويسمح للمستخدمين بالعمل بأمان مع نظام التشغيل «ويندوز» السحابي بكل سرعة وموثوقية.

ولا يقوم الجهاز بتخزين أي بيانات داخله، ولا يقوم بتثبيت أي برامج فيه، مع تقديم وحدة معالجة للذكاء الاصطناعي مدمجة فيه لتسريع التفاعل مع البيانات والحصول على النتائج بكل سلاسة.

 

تحليل علوم الأرض

وعلى الصعيد نفسه، تعاونت وكالة الفضاء الأميركية «ناسا» مع «مايكروسوفت» لتطوير أداة مدعومة بالذكاء الاصطناعي اسمها «كوبايلوت الأرض» (Earth Copilot) تهدف إلى تبسيط عملية تحليل البيانات المرتبطة بعلوم الأرض التي تجمعها الأقمار الاصطناعية الخاصة بـ«ناسا». وسيتم نشر هذه البيانات المعقدة للجميع بهدف مشاركة المعلومات المهمة مع العلماء والباحثين والطلاب والمدرسين وصناع السياسات وعموم الناس.

وستستخدم الوكالة خدمة «آجور أوبين إيه آي» (Azure OpenAI Service) لتذليل العقبات التقنية وتمكين المجموعات المختلفة للمستخدمين من التفاعل مع البيانات العلمية لكوكب الأرض، ما يدل على الأبواب التي يفتحها الذكاء الاصطناعي لتسهيل وتبسيط عملية التعليم والبحث وتحليل مجموعات البيانات الضخمة في المجالات العلمية وسنّ السياسات، وفي مجالات الزراعة والتخطيط الحضري والاستجابة في حالات الكوارث، وغيرها.

ويمكن زيارة الموقع من هذا الرابط: www.earthdata.nasa.gov/dashboard