تقنية جديدة تحوّل إشارات الدماغ إلى كلام طبيعي في أقل من ثانية

إنجاز يعيد الأمل لفاقدي القدرة على النطق

التقنية تستخدم الذكاء الاصطناعي لتقليل زمن الاستجابة إلى أقل من ثانية واحدة (Noah Berger)
التقنية تستخدم الذكاء الاصطناعي لتقليل زمن الاستجابة إلى أقل من ثانية واحدة (Noah Berger)
TT
20

تقنية جديدة تحوّل إشارات الدماغ إلى كلام طبيعي في أقل من ثانية

التقنية تستخدم الذكاء الاصطناعي لتقليل زمن الاستجابة إلى أقل من ثانية واحدة (Noah Berger)
التقنية تستخدم الذكاء الاصطناعي لتقليل زمن الاستجابة إلى أقل من ثانية واحدة (Noah Berger)

في إنجاز علمي بارز يجمع بين علوم الأعصاب والذكاء الاصطناعي، تمكَّن باحثون من جامعتيْ كاليفورنيا في بيركلي وسان فرنسيسكو من تطوير واجهة دماغ-حاسوب (BCI) قادرة على استعادة القدرة على الكلام الطبيعي للأشخاص المصابين بشلل حاد. وقد نُشرت نتائج الدراسة، هذا الأسبوع، في مجلة «نيتشور نيوروساينس (Nature Neuroscience)» مُشكّلة خطوة كبيرة نحو التواصل الصوتي الفوري عبر إشارات الدماغ، مما يعيد الأمل والاستقلالية لأولئك الذين فقدوا القدرة على الحديث.

تقنية بلا تأخير

تعتمد هذه التكنولوجيا المتقدمة على نظام مدعوم بالذكاء الاصطناعي قادر على تحويل الإشارات الدماغية إلى كلام مسموع في الوقت شبه الحقيقي، وهو ما يشكّل نقلة نوعية في حل مشكلة التأخير الزمني التي طالما عانى منها هذا النوع من التقنيات. يقول الدكتور جوبالا أنومانشيباللي، أستاذ مساعد بقسم الهندسة الكهربائية وعلوم الحاسوب بجامعة كاليفورنيا-بيركلي والمحقق الرئيسي المشارك في الدراسة، إن النهج الذي جرى اعتماده في البث اللحظي يقدم قدرة فك شفرة الكلام بسرعة مشابِهة لتلك التي نراها في أجهزة مثل (أليكسا) و(سيري)، ولكن في خدمة المرضى.

ولطالما شكّل التأخير بين المتحدث والكلام الناتج عن واجهات الدماغ والحاسوب عائقاً كبيراً أمام التواصل الطبيعي. ففي التجارب السابقة، كان على المستخدم الانتظار نحو 8 ثوانٍ لسماع جملة واحدة. أما النظام الجديد فقد قلّص هذه المدة إلى أقل من ثانية واحدة، ما سمح بتدفق الكلام بشكل طبيعي ومتواصل.

التقنية الجديدة تحوّل إشارات الدماغ إلى كلام مسموع في الوقت الحقيقي (كاليفورنيا بيركلي)
التقنية الجديدة تحوّل إشارات الدماغ إلى كلام مسموع في الوقت الحقيقي (كاليفورنيا بيركلي)

تحسين جودة الحياة

يُعد الدكتور إدوارد تشانغ، جرّاح الأعصاب في «UCSF» والمحقق الرئيسي الآخر في الدراسة، أن التكنولوجيا الجديدة قد تُحدث فرقاً جذرياً في حياة المرضى. ويشرح أن هذه التقنية تحمل إمكانات هائلة لتحسين جودة حياة الأشخاص المصابين بشللٍ يؤثر على الكلام. ويرى أنه من المثير كيف تُسهم تطورات الذكاء الاصطناعي المتسارعة في جعل هذه الواجهات أقرب إلى الواقع. مِن أبرز نقاط القوة في هذا الابتكار هو مرونته، فقد أثبت الباحثون أن التقنية لا تقتصر على نوع واحد من الأجهزة، بل تعمل بكفاءة مع واجهات دماغية متعددة، مثل الأقطاب الدقيقة المزروعة داخل الدماغ، أو الأجهزة غير التوغلية مثل أجهزة الاستشعار على الوجه التي تقيس النشاط العضلي. يوضح كايلو ليتلجون، طالب الدكتوراه في بيركلي والمؤلف المشارك في الدراسة، أن الخوارزمية نفسها يمكن تطبيقها على تقنيات مختلفة، ما دام توفرت إشارات دماغية واضحة.

ترجمة إشارات الدماغ

تبدأ عملية التحويل من منطقة القشرة الحركية في الدماغ، المسؤولة عن التحكم في عضلات النطق. هناك يجري التقاط الإشارات العصبية وفك تشفيرها باستخدام نماذج ذكية مدرَّبة مسبقاً لفهم أنماط معينة مرتبطة بالكلام. ويشرح شاول جون تشو، المؤلف المشارك في الدراسة، أنه تجري ترجمة الإشارات التي تأتي بعد أن يقرر الشخص ما يريد قوله، وبعد أن يختار الكلمات والحركات اللازمة للنطق.

لتدريب النموذج، تعاوَنَ الباحثون مع مريضة فقدت القدرة على الكلام بعد إصابتها بسكتة دماغية. في جلسات التدريب، كانت المريضة تنظر إلى شاشة تعرض جملة مثل: «مرحباً، كيف حالك؟»، وتحاول قولها بصمت. وعلى الرغم من عدم قدرتها على إصدار أي صوت، تمكَّن النظام من ربط نشاطها العصبي بالجملة المقصودة.

النظام يعمل بدقة عالية ويمكن تطبيقه على أنواع مختلفة من واجهات الدماغ والحاسوب
النظام يعمل بدقة عالية ويمكن تطبيقه على أنواع مختلفة من واجهات الدماغ والحاسوب

محاكاة الصوت الأصلي

ولأن المريضة لا تملك قدرة على النطق الفعلي، لم يكن لدى الباحثين تسجيلات صوتية حديثة للمقارنة. لذلك، استعانوا بنموذج ذكاء اصطناعي مسبق التدريب لإنشاء صوت اصطناعي يحاكي صوتها قبل الإصابة. ووفق أنومانشيباللي، أدى سماعها صوتها القديم في الزمن الحقيقي إلى جعل التجربة أكثر شعوراً بالتحكم والاندماج. وللتأكد من قدرة النظام على تجاوز حدود البيانات التي تدرَّب عليها، اختبر الباحثون النموذج باستخدام كلمات جديدة مثل أسماء حروف الناتو الصوتية «ألفا، برافو، تشارلي»، فنجح في توليد أصوات مفهومة بدقة، ما يدل على أن النموذج لا يكرر فحسب، بل يتعلم فعلياً بناء الصوت.

المثير أيضاً أن النظام حافظ على دقته العالية رغم السرعة الكبيرة. يقول ليتلجون: «لقد كان من غير المعروف سابقاً ما إذا كان بالإمكان بث كلام واضح في الزمن الحقيقي مباشرة من الدماغ... لكن الآن لدينا هذا الإثبات».

لغة تحمل العاطفة

وفي حين يتطلع الفريق إلى المستقبل، يعمل الباحثون على تحسين الجوانب العاطفية والتعبيرية للكلام، مثل النبرة والحِدّة ومستوى الصوت، بما يعكس المشاعر أو الانفعالات الطبيعية في الحديث.

ففي عالمٍ يزداد فيه اندماج الدماغ مع التكنولوجيا، تمثل هذه الخطوة نقطة تحول في استعادة القدرة على التعبير الصوتي، مما يعيد ربط الإنسان بعالمه، من خلال إحدى أكثر أدوات التواصل أساسية؛ وهي الصوت.


مقالات ذات صلة

تكنولوجيا أكثر من 50 شركة مصنعة للأجهزة تدعم هذا المعيار حالياً

الصين تتفوق مجدداً: معيار «GPMI» الجديد للهيمنة على قطاع التلفزيونات والكمبيوترات وأجهزة الألعاب

في خطوة استراتيجية تهدف إلى إعادة تشكيل مستقبل الفيديو والصوتيات في التلفزيونات والكمبيوترات وأجهزة الألعاب المقبلة،

خلدون غسان سعيد (جدة)
صحتك تؤثر اضطرابات الشبكية مثل التنكس البقعي والتهاب الشبكية الصباغي على ملايين الأشخاص حول العالم (موقع أخبار علوم الأعصاب)

حَقن العين بجزئيات الذهب يبشر بثورة في علاج مشكلات البصر

أظهرت دراسة جديدة أجراها باحثون من جامعة «براون» أن جزيئات الذهب النانوية قد تُستخدم يوماً ما للمساعدة في استعادة البصر.

«الشرق الأوسط» (واشنطن)
الاقتصاد صورة جوية للعاصمة السعودية الرياض (واس)

أداء مؤشرات «رؤية 2030» يُسرّع من نمو الاقتصاد السعودي

أسهم انعكاس أداء المؤشرات الرئيسية والفرعية في تعزيز النمو الاقتصادي السعودي، مع اقتراب «رؤية المملكة 2030» من اختتام مرحلتها الثانية الممتدة من (2021 - 2025).

«الشرق الأوسط» (الرياض)
خاص تحول «يوتيوب» من منصة ترفيهية إلى مساحة للتعليم والتغيير الاجتماعي والتمكين الاقتصادي ما جعله جزءاً حيوياً من المشهد الرقمي العربي

خاص «يوتيوب» في عيده العشرين... ثورة ثقافية واقتصادية غيرت المحتوى الرقمي

«يوتيوب» يحتفل بمرور 20 عاماً على انطلاقه، مؤكداً دوره المحوري في تمكين صناع المحتوى، خصوصاً في السعودية عبر أدوات، ودعم وفرص دخل متنامية.

نسيم رمضان (سان فرانسيسكو - الولايات المتحدة)

«مُحسِّن صوت» مجاني… سيُحدث ثورةً في مذكراتك الصوتية

«مُحسِّن صوت» مجاني… سيُحدث ثورةً في مذكراتك الصوتية
TT
20

«مُحسِّن صوت» مجاني… سيُحدث ثورةً في مذكراتك الصوتية

«مُحسِّن صوت» مجاني… سيُحدث ثورةً في مذكراتك الصوتية

بين الحين والآخر، قد تجد أداةً تُبهرك حقاً... وهذا نادر، خاصةً في هذه الأيام، حيث يُقدم الجميع هراءً مُبالغاً فيه مُركزاً على الذكاء الاصطناعي الذي غالباً ما يكون أكثر إثارة للإعجاب نظرياً منه عملياً.

وهذا، في رأيي، ما يجعل الأمر أكثر إرضاءً عندما تعثر على أداة تُبهرك حقاً.

مُحسِّن الصوت الفوري

أداتنا لهذا اليوم من شركةٍ سمعتَ عنها بالتأكيد. لكنني على يقينٍ من أنك لم تكن تعلم أنها تُقدم هذه الأداة الفريدة. والجوهرة التي نتحدث عنها هي تطبيق ويب بسيط صغير يُدعى، على نحوٍ ملائم، «الكلام المحسّن» Enhance Speech من «آدوبي» Adobe، كما كتب جيه آر رافائيل(*).

تطبيق لأصحاب البودكاست

تتيح لك أداة Enhance Speech تحميل أي تسجيل صوتي لشخص يتحدث.

وصُمم هذا التطبيق تقنياً لمُنشئي البودكاست، ولكنه قد يكون مفيداً لأي شيء تقريباً -مذكرة صوتية، محادثة مسجلة، حتى مكالمة هاتفية مسجلة.

يأخذ الموقع الإنترنتي أي تسجيل تُدخله إليه، ويُحسّن جودة الصوت فوراً -بإزالة ضوضاء الخلفية، وتحسين صوت المتحدث ليصبح واضحاً، ونقياً، وسهل الاستماع قدر الإمكان، بغض النظر عن مدى إهمال التسجيل، أو نوع البيئة التي سُجّل فيها.

خطوات الاستخدام

سيستغرق الأمر دقيقتين تقريباً لإجراء التحسين.

ولست بحاجة إلى إنشاء حساب، أو أي شيء:

- ما عليك سوى فتح موقع Adobe Enhance Speech في أي متصفح، على أي جهاز أمامك.

- انقر أو اضغط على زر «اختيار الملفات» -أو اسحب، أو حول ملفاً صوتياً مباشرةً من جهازك إلى الصفحة، إذا كنت تستخدم جهاز كمبيوتر.

يعمل التطبيق مع معظم صيغ ملفات الصوت الشائعة، بما في ذلك WAV، وMP3، وAAC، وFLAC، وM4A.

وفي غضون لحظات، سيقدم الموقع نسخة مُحسّنة من تسجيلك، يمكنك تشغيلها على الصفحة، أو تنزيلها.

كما يمكنك أيضاً الاطلاع على العينة المُدمجة في الصفحة الرئيسة للموقع لترى الفرق المذهل الذي تُحدثه تحسيناته. إنه حقاً مُميز.

تطبيق إنترنتي مجاني

تطبيق Enhance Speech مُتاح بالكامل على الويب -لا يتطلب تنزيلات، أو تثبيتات. واستخدامه مجاني مع تسجيلات تصل مدتها إلى 30 دقيقة، وسعتها 500 ميغابايت، مع حد تحميل ساعة واحدة يومياً.

ويمكنك تجاوز هذه الحدود والاستفادة من مجموعة متنوعة من الميزات المتقدمة من خلال الاشتراك المميز، ولكن هذا ليس ضرورياً على الإطلاق للميزات الأساسية للخدمة -والحدود سخية جداً لمعظم الاستخدامات العادية.

ويتوافق تطبيق Enhance Speech مع سياسة الخصوصية القياسية لشركة «آدوبي» التي تضمن عدم مشاركة أي بيانات شخصية، أو استخدامها بأي شكل من الأشكال غير المرغوب فيها.

* مجلة «فاست كومباني» خدمات «تريبيون ميديا»