تقنية جديدة تحوّل إشارات الدماغ إلى كلام طبيعي في أقل من ثانية

إنجاز يعيد الأمل لفاقدي القدرة على النطق

التقنية تستخدم الذكاء الاصطناعي لتقليل زمن الاستجابة إلى أقل من ثانية واحدة (Noah Berger)
التقنية تستخدم الذكاء الاصطناعي لتقليل زمن الاستجابة إلى أقل من ثانية واحدة (Noah Berger)
TT

تقنية جديدة تحوّل إشارات الدماغ إلى كلام طبيعي في أقل من ثانية

التقنية تستخدم الذكاء الاصطناعي لتقليل زمن الاستجابة إلى أقل من ثانية واحدة (Noah Berger)
التقنية تستخدم الذكاء الاصطناعي لتقليل زمن الاستجابة إلى أقل من ثانية واحدة (Noah Berger)

في إنجاز علمي بارز يجمع بين علوم الأعصاب والذكاء الاصطناعي، تمكَّن باحثون من جامعتيْ كاليفورنيا في بيركلي وسان فرنسيسكو من تطوير واجهة دماغ-حاسوب (BCI) قادرة على استعادة القدرة على الكلام الطبيعي للأشخاص المصابين بشلل حاد. وقد نُشرت نتائج الدراسة، هذا الأسبوع، في مجلة «نيتشور نيوروساينس (Nature Neuroscience)» مُشكّلة خطوة كبيرة نحو التواصل الصوتي الفوري عبر إشارات الدماغ، مما يعيد الأمل والاستقلالية لأولئك الذين فقدوا القدرة على الحديث.

تقنية بلا تأخير

تعتمد هذه التكنولوجيا المتقدمة على نظام مدعوم بالذكاء الاصطناعي قادر على تحويل الإشارات الدماغية إلى كلام مسموع في الوقت شبه الحقيقي، وهو ما يشكّل نقلة نوعية في حل مشكلة التأخير الزمني التي طالما عانى منها هذا النوع من التقنيات. يقول الدكتور جوبالا أنومانشيباللي، أستاذ مساعد بقسم الهندسة الكهربائية وعلوم الحاسوب بجامعة كاليفورنيا-بيركلي والمحقق الرئيسي المشارك في الدراسة، إن النهج الذي جرى اعتماده في البث اللحظي يقدم قدرة فك شفرة الكلام بسرعة مشابِهة لتلك التي نراها في أجهزة مثل (أليكسا) و(سيري)، ولكن في خدمة المرضى.

ولطالما شكّل التأخير بين المتحدث والكلام الناتج عن واجهات الدماغ والحاسوب عائقاً كبيراً أمام التواصل الطبيعي. ففي التجارب السابقة، كان على المستخدم الانتظار نحو 8 ثوانٍ لسماع جملة واحدة. أما النظام الجديد فقد قلّص هذه المدة إلى أقل من ثانية واحدة، ما سمح بتدفق الكلام بشكل طبيعي ومتواصل.

التقنية الجديدة تحوّل إشارات الدماغ إلى كلام مسموع في الوقت الحقيقي (كاليفورنيا بيركلي)

تحسين جودة الحياة

يُعد الدكتور إدوارد تشانغ، جرّاح الأعصاب في «UCSF» والمحقق الرئيسي الآخر في الدراسة، أن التكنولوجيا الجديدة قد تُحدث فرقاً جذرياً في حياة المرضى. ويشرح أن هذه التقنية تحمل إمكانات هائلة لتحسين جودة حياة الأشخاص المصابين بشللٍ يؤثر على الكلام. ويرى أنه من المثير كيف تُسهم تطورات الذكاء الاصطناعي المتسارعة في جعل هذه الواجهات أقرب إلى الواقع. مِن أبرز نقاط القوة في هذا الابتكار هو مرونته، فقد أثبت الباحثون أن التقنية لا تقتصر على نوع واحد من الأجهزة، بل تعمل بكفاءة مع واجهات دماغية متعددة، مثل الأقطاب الدقيقة المزروعة داخل الدماغ، أو الأجهزة غير التوغلية مثل أجهزة الاستشعار على الوجه التي تقيس النشاط العضلي. يوضح كايلو ليتلجون، طالب الدكتوراه في بيركلي والمؤلف المشارك في الدراسة، أن الخوارزمية نفسها يمكن تطبيقها على تقنيات مختلفة، ما دام توفرت إشارات دماغية واضحة.

ترجمة إشارات الدماغ

تبدأ عملية التحويل من منطقة القشرة الحركية في الدماغ، المسؤولة عن التحكم في عضلات النطق. هناك يجري التقاط الإشارات العصبية وفك تشفيرها باستخدام نماذج ذكية مدرَّبة مسبقاً لفهم أنماط معينة مرتبطة بالكلام. ويشرح شاول جون تشو، المؤلف المشارك في الدراسة، أنه تجري ترجمة الإشارات التي تأتي بعد أن يقرر الشخص ما يريد قوله، وبعد أن يختار الكلمات والحركات اللازمة للنطق.

لتدريب النموذج، تعاوَنَ الباحثون مع مريضة فقدت القدرة على الكلام بعد إصابتها بسكتة دماغية. في جلسات التدريب، كانت المريضة تنظر إلى شاشة تعرض جملة مثل: «مرحباً، كيف حالك؟»، وتحاول قولها بصمت. وعلى الرغم من عدم قدرتها على إصدار أي صوت، تمكَّن النظام من ربط نشاطها العصبي بالجملة المقصودة.

النظام يعمل بدقة عالية ويمكن تطبيقه على أنواع مختلفة من واجهات الدماغ والحاسوب

محاكاة الصوت الأصلي

ولأن المريضة لا تملك قدرة على النطق الفعلي، لم يكن لدى الباحثين تسجيلات صوتية حديثة للمقارنة. لذلك، استعانوا بنموذج ذكاء اصطناعي مسبق التدريب لإنشاء صوت اصطناعي يحاكي صوتها قبل الإصابة. ووفق أنومانشيباللي، أدى سماعها صوتها القديم في الزمن الحقيقي إلى جعل التجربة أكثر شعوراً بالتحكم والاندماج. وللتأكد من قدرة النظام على تجاوز حدود البيانات التي تدرَّب عليها، اختبر الباحثون النموذج باستخدام كلمات جديدة مثل أسماء حروف الناتو الصوتية «ألفا، برافو، تشارلي»، فنجح في توليد أصوات مفهومة بدقة، ما يدل على أن النموذج لا يكرر فحسب، بل يتعلم فعلياً بناء الصوت.

المثير أيضاً أن النظام حافظ على دقته العالية رغم السرعة الكبيرة. يقول ليتلجون: «لقد كان من غير المعروف سابقاً ما إذا كان بالإمكان بث كلام واضح في الزمن الحقيقي مباشرة من الدماغ... لكن الآن لدينا هذا الإثبات».

لغة تحمل العاطفة

وفي حين يتطلع الفريق إلى المستقبل، يعمل الباحثون على تحسين الجوانب العاطفية والتعبيرية للكلام، مثل النبرة والحِدّة ومستوى الصوت، بما يعكس المشاعر أو الانفعالات الطبيعية في الحديث.

ففي عالمٍ يزداد فيه اندماج الدماغ مع التكنولوجيا، تمثل هذه الخطوة نقطة تحول في استعادة القدرة على التعبير الصوتي، مما يعيد ربط الإنسان بعالمه، من خلال إحدى أكثر أدوات التواصل أساسية؛ وهي الصوت.


مقالات ذات صلة

«غوغل» تطلق تجربة بحث صوتية مدعومة بالذكاء الاصطناعي

تكنولوجيا ميزة «Search Live» تتيح للمستخدمين إجراء محادثات صوتية فورية مع محرك البحث... ما يقدّم تجربة بحث أكثر ذكاءً وتفاعلاً وواقعية (غوغل)

«غوغل» تطلق تجربة بحث صوتية مدعومة بالذكاء الاصطناعي

ميزة «Search Live» تتيح للمستخدمين إجراء محادثات صوتية فورية مع محرك البحث؛ ما يقدّم تجربة بحث أكثر ذكاءً وتفاعلاً وواقعية.

نسيم رمضان (لندن)
خاص يؤكد الخبراء أن الأمن السيبراني الفعّال يبدأ من السلوك والوعي ويشمل اعتماد ممارسات استباقية مثل «الأمن من التصميم» وتحديث الأنظمة باستمرار (غيتي)

خاص كيف غيّر الذكاء الاصطناعي ملامح الهجمات السيبرانية على الهواتف الذكية؟

يرى خبراء «كاسبرسكي» أن الشرق الأوسط يشهد تصاعد الهجمات السيبرانية على الهواتف المحمولة المدفوعة بتقنيات ذكاء اصطناعي متطورة، مما يستدعي وعياً وسلوكاً دفاعياً.

نسيم رمضان (جزيرة بوكيت - تايلاند)
تكنولوجيا تطبيق «أدوبي فايرفلاي» يتيح تحويل الأوامر النصية صوراً وتصاميم مذهلة باستخدام الذكاء الاصطناعي الآن على iOS و«أندرويد» مجاناً

«أدوبي» تطلق تطبيق «فايرفلاي» على جميع الهواتف الذكية

يتيح النظام إنشاء صور وتأثيرات وتصميمات متكاملة بالاعتماد فقط على الأوامر النصية.

عبد العزيز الرشيد (الرياض)
تكنولوجيا «كيندريل»: معظم المؤسسات استثمرت في الذكاء الاصطناعي لكنّ عدداً قليلاً فقط نجح في مواءمة استراتيجياته مع جاهزية القوى العاملة (غيتي)

الذكاء الاصطناعي في الشرق الأوسط جاهز تقنياً... فهل الموظفون كذلك؟

تكشف دراسة من «كيندريل» عن أن معظم الشركات تستثمر في الذكاء الاصطناعي، لكن ضعف جاهزية القوى العاملة يعوق تحقيق العائد، خصوصاً في الشرق الأوسط.

نسيم رمضان (لندن)
تكنولوجيا استراتيجية «ميتا» تعتمد على تقديم الإعلانات بشكل غير مزعج من خلال ترويج القنوات وحالات إعلانية واشتراكات مدفوعة للمحتوى الحصري (واتساب)

«واتساب» يبدأ عرض الإعلانات لأول مرة في تبويب «التحديثات»

«واتساب» يبدأ بعرض الإعلانات لأول مرة في تبويب «التحديثات» دون المساس بالرسائل الخاصة ضمن استراتيجية تهدف إلى تحقيق دخل مع الحفاظ على الخصوصية.

نسيم رمضان (لندن)

«غوغل» تطلق تجربة بحث صوتية مدعومة بالذكاء الاصطناعي

ميزة «Search Live» تتيح للمستخدمين إجراء محادثات صوتية فورية مع محرك البحث... ما يقدّم تجربة بحث أكثر ذكاءً وتفاعلاً وواقعية (غوغل)
ميزة «Search Live» تتيح للمستخدمين إجراء محادثات صوتية فورية مع محرك البحث... ما يقدّم تجربة بحث أكثر ذكاءً وتفاعلاً وواقعية (غوغل)
TT

«غوغل» تطلق تجربة بحث صوتية مدعومة بالذكاء الاصطناعي

ميزة «Search Live» تتيح للمستخدمين إجراء محادثات صوتية فورية مع محرك البحث... ما يقدّم تجربة بحث أكثر ذكاءً وتفاعلاً وواقعية (غوغل)
ميزة «Search Live» تتيح للمستخدمين إجراء محادثات صوتية فورية مع محرك البحث... ما يقدّم تجربة بحث أكثر ذكاءً وتفاعلاً وواقعية (غوغل)

تُعيد «غوغل» تعريف طريقة تفاعلنا مع البحث مجدداً من خلال ميزة جديدة تحمل اسم «Search Live»، تتيح للمستخدمين إجراء محادثات صوتية مباشرة مع محرك بحث «غوغل» من خلال «وضع الذكاء الاصطناعي» (AI Mode)، وذلك عبر تطبيق «غوغل» على نظامَي «أندرويد» و«iOS».

الميزة متاحة حالياً في الولايات المتحدة للمستخدمين المسجّلين في تجربة «AI Mode» ضمن «مختبرات غوغل» (Google Labs)، وهي تحوّل البحث الصوتي التقليدي إلى تجربة تفاعلية مستمرة. وتم تصميمها خصيصاً لمن هم في حالة تنقّل أو انشغال، أو ببساطة لمن يفضّلون الحديث بدلاً من الكتابة.

كيف تعمل؟

بمجرد فتح تطبيق «غوغل» يمكن للمستخدمين النقر على أيقونة «Live» الجديدة أسفل شريط البحث، ثم يُطرح السؤال صوتياً، مثل: «ما أفضل طريقة لمنع تجعّد فستان من الكتان داخل حقيبة السفر؟»، وسيرد الذكاء الاصطناعي بإجابة صوتية مباشرة وموجزة.

الميزة اللافتة هنا أن المحادثة لا تتوقف عند سؤال واحد. فمثلاً، يمكن متابعة السؤال بسؤال: «وماذا لو تجعّد بالفعل؟»، على سبيل المثال دون الحاجة لإعادة السياق.

إلى جانب الإجابة الصوتية، تظهر روابط مفيدة على الشاشة تمكّن المستخدم من التعمّق أكثر في نتائج من مختلف مواقع الويب.

تجربة سلسة تدعم تعدد المهام

من أبرز مزايا «Search Live» أنها تعمل في الخلفية، مما يعني إمكانية استمرار المحادثة حتى أثناء استخدام تطبيقات أخرى. وسواء كنت تراسل أو تطالع التقويم أو تتسوق، لا حاجة للتوقف. كما يمكن للمستخدمين الاستفادة من وضع النص (transcript) الذي يحوّل الحوار الصوتي إلى نص مكتوب؛ ما يتيح التبديل بين التحدث والكتابة بسهولة. ويمكن أيضاً الرجوع إلى المحادثات السابقة عبر سجل «AI Mode».

مدعومة بنموذج «جيميناي»

تعتمد «Search Live» على إصدار مخصص من نموذج الذكاء الاصطناعي «جيميناي» من «غوغل» المُصمم لتحسين التفاعل الصوتي. ويستند إلى منظومة معلومات قوية ومجربة لضمان جودة ودقة الردود. كما تستخدم «غوغل» تقنية تُعرف باسم «تفرّع الاستعلامات» (query fan-out)، والتي تتيح عرض نتائج أوسع وأكثر تنوعاً من محتوى الويب، بحيث لا تقتصر الردود على الذكاء الاصطناعي فقط، بل تشمل أيضاً مقالات وروابط موثوقة من مصادر بشرية.

ما التالي؟

رغم أن التفاعل الصوتي هو نجم هذا الإطلاق، فإن «غوغل» تلمّح إلى إمكانات مستقبلية أكثر تطوراً مثل التحدث إلى البحث باستخدام الكاميرا؛ أي تمكين المستخدم من عرض ما يراه أمامه ومناقشته مع محرك البحث مباشرة. هذه الخطوة تعكس توجّه «غوغل» نحو تجربة بحث متعددة الوسائط، أكثر طبيعية وسلاسة، وتُشبه الطريقة التي يتفاعل بها الإنسان مع العالم من حوله.

ومع ميزة «Search Live» تواصل «غوغل» إعادة تصور تجربة البحث. فمن خلال الجمع بين التفاعل الصوتي الفوري والمتابعة السياقية وإمكانية تعدد المهام، تضع الشركة معياراً جديداً لما يمكن أن تكون عليه تجربة البحث في عصر الذكاء الاصطناعي. وتدفعنا الميزة إلى التفكير في سؤال واحد: هل هذا هو الشكل القادم للبحث الذي سنعتمد عليه قريباً جميعاً؟