سمّاعات ذكية تترجم لعدة متحدثين في وقت واحد

النظام الجديد يمكن توسيعه ليشمل نحو 100 لغة (جامعة ماكاو)
النظام الجديد يمكن توسيعه ليشمل نحو 100 لغة (جامعة ماكاو)
TT

سمّاعات ذكية تترجم لعدة متحدثين في وقت واحد

النظام الجديد يمكن توسيعه ليشمل نحو 100 لغة (جامعة ماكاو)
النظام الجديد يمكن توسيعه ليشمل نحو 100 لغة (جامعة ماكاو)

طوّر باحثون من جامعة واشنطن الأميركية نظام سماعات رأس ذكية يمكنها ترجمة حديث عدة أشخاص في الوقت نفسه، مع الحفاظ على نبرة صوت كل متحدث واتجاه صوته بدقة ثلاثية الأبعاد، حتى أثناء حركته.

وأوضح الباحثون أن النظام، الذي أُطلق عليه «الترجمة الصوتية المكانية» قد يُحدث نقلة نوعية في مجال الترجمة الفورية. ونُشرت النتائج، الجمعة، في دورية «جمعية الحوسبة الأميركية (ACM)».

وعلى الرغم من ظهور تقنيات واعدة في مجال الترجمة الفورية مؤخراً، فإن أياً منها لم يوفر حلاً فعّالاً في الأماكن العامة. فعلى سبيل المثال، تعمل نظارات شركة ميتا الجديدة فقط عند وجود متحدث واحد، وتعرض الترجمة الصوتية الآلية بعد انتهاء المتحدث من الكلام. لكن الفريق المصمم للنظام الجديد ابتكر حلاً يُترجم كلام عدة متحدثين في الوقت نسه مع الحفاظ على الاتجاه وخصائص كل صوت.

ويعتمد النظام على سماعات مانعة للضوضاء مُزوّدة بميكروفونات، وتعمل خوارزميات النظام المستندة إلى الذكاء الاصطناعي على فصل أصوات المتحدثين وتتبعهم داخل المكان، ثم ترجمة كلامهم وإعادة تشغيله بصوت يشبه صوتهم الأصلي مع تأخير بسيط يتراوح بين 2 و4 ثوانٍ.

ويتميز النظام بثلاثة ابتكارات رئيسية، أولها قدرته على اكتشاف عدد المتحدثين تلقائياً داخل أي مساحة مغلقة أو مفتوحة، من خلال مسح محيطي بزاوية 360 درجة، وترجمة الكلام مع الحفاظ على تعبيرات الصوت ومستوى ارتفاعه، باستخدام معالجات داخلية مثل شريحة (Apple M2)، دون الاعتماد على الحوسبة السحابية لحماية الخصوصية، بالإضافة إلى متابعة تحركات رؤوس المتحدثين، مع تعديل اتجاه الصوت تبعاً لحركتهم.

وبمشاركة 29 متطوعاً، اختُبر النظام في 10 بيئات مختلفة داخلية وخارجية، مثل الشوارع، والمقاهي، والمتاحف، وأماكن عامة، وأثبت فاعليته في هذه البيئات الواقعية، حتى مع وجود ضوضاء خلفية. وركزت التجربة على 3 لغات هي الإسبانية، والألمانية، والفرنسية، وأظهر النظام أداء جيداً في الترجمة من هذه اللغات إلى الإنجليزية، والعكس.

وأظهرت النتائج أن معظم المستخدمين فضّلوا نظام الترجمة الجديد على الأنظمة التقليدية؛ لما وفره من دقة عالية في الترجمة وتجربة سمعية طبيعية تُحاكي الواقع. كذلك أثبت النظام كفاءته العالية في تتبُّع المتحدثين وتحديد عددهم بدقة، حتى مع تحركهم، مع الحفاظ على اتجاه كل صوت وخصائصه التعبيرية بشكل منفصل.

وقال الباحثون إن النظام يمكّن المستخدمين من فهم ما يقوله عدة أشخاص في الوقت نفسه بلغات مختلفة، في بيئة مزدحمة، مع الحفاظ على أصواتهم الأصلية وتحديد مَن قال ماذا، بما يفتح آفاقاً جديدة للسياحة، والتعليم، والتفاعل الثقافي. ويأمل الفريق بأن يسهم هذا الابتكار، الذي يمكن توسيعه ليشمل نحو 100 لغة، في كسر الحواجز اللغوية بين الثقافات، ليتمكن المستخدم من فهم ما يدور حوله بلغته.


مقالات ذات صلة

«أوبن إيه آي» تطلق «تشات جي بي تي» الجديد... يتصفح ويحلل ويقرر

تكنولوجيا النسخة الجديدة من «ChatGPT» مزوّدة بوكيل ذكي قادر على تنفيذ مهام معقّدة من البداية إلى النهاية باستخدام حاسوب افتراضي (شاترستوك)

«أوبن إيه آي» تطلق «تشات جي بي تي» الجديد... يتصفح ويحلل ويقرر

أطلقت " OpenAI "وكيلًا ذكيًا جديدًا ضمن " ChatGPT" قادرًا على تنفيذ مهام معقدة تلقائيًا باستخدام أدوات متعددة مع ضمانات أمان وتحكّم كامل للمستخدم.

نسيم رمضان (لندن)
تكنولوجيا تم تطوير الحاسوب من قِبَل جامعة بريستول بالشراكة مع جامعة كامبريدج ومختبر الذكاء الاصطناعي الوطني (جامعة بريستول)

بريطانيا تطلق أقوى حاسوب للذكاء الاصطناعي في تاريخها

«إيزامبارد-AI» هو أقوى حاسوب ذكاء اصطناعي في بريطانيا أطلقته جامعة بريستول لدعم الأبحاث في مجالات الصحة والمناخ والأمن باستخدام تقنيات متقدمة.

نسيم رمضان (لندن)
تكنولوجيا مشروع «الحديقة الذكية» يستخدم الذكاء الاصطناعي لتمكين الأشجار من التعبير عن حالتها واحتياجاتها عبر تطبيق «تري توك» (مايكروسوفت)

ليس خيالاً علمياً... الآن يمكنك التحدث مع الأشجار عبر الذكاء الاصطناعي

مشروع «الحديقة الذكية» يمكّن الأشجار من «التحدث» عبر الذكاء الاصطناعي لتحسين استدامة المدن والتخطيط البيئي ورعاية النباتات استباقياً وفق بيانات حيوية.

نسيم رمضان (لندن)
تكنولوجيا يساعد التشخيص على الوصول إلى خيارات الإنجاب الأفضل للوقاية من حدوث الأمراض في حالات الحمل المستقبلية (جامعة ملبورن)

السباق نحو «الأطفال الخارقين» يُشعل وادي السيليكون

قدّمت نور صديقي، مؤسسة شركة «أوركيد» الناشئة، عرضاً عن مستقبل قد يتيح للآباء تحسين صفات أطفالهم قبل ولادتهم.

«الشرق الأوسط» (سان فرنسيسكو (الولايات المتحدة))
خاص يتطلب عمل «وكلاء الذكاء الاصطناعي» بنية تقنية جديدة تشمل الذاكرة طويلة الأمد والنماذج اللغوية والعرض الفوري وواجهة متعددة الوسائط (شاترستوك)

خاص ذكاء اصطناعي يفهم ويتذكر ويخطط... هل تجاوزنا زمن الأوامر؟

يشهد الذكاء الاصطناعي تحولاً من أدوات تستجيب للأوامر إلى وكلاء مستقلين يفهمون السياق، ويخططون، وينفذون بذكاء، ما يُعيد تشكيل التفاعل الرقمي بالكامل.

نسيم رمضان (لندن)

«أوبن إيه آي» تطلق «تشات جي بي تي» الجديد... يتصفح ويحلل ويقرر

النسخة الجديدة من «ChatGPT» مزوّدة بوكيل ذكي قادر على تنفيذ مهام معقّدة من البداية إلى النهاية باستخدام حاسوب افتراضي (شاترستوك)
النسخة الجديدة من «ChatGPT» مزوّدة بوكيل ذكي قادر على تنفيذ مهام معقّدة من البداية إلى النهاية باستخدام حاسوب افتراضي (شاترستوك)
TT

«أوبن إيه آي» تطلق «تشات جي بي تي» الجديد... يتصفح ويحلل ويقرر

النسخة الجديدة من «ChatGPT» مزوّدة بوكيل ذكي قادر على تنفيذ مهام معقّدة من البداية إلى النهاية باستخدام حاسوب افتراضي (شاترستوك)
النسخة الجديدة من «ChatGPT» مزوّدة بوكيل ذكي قادر على تنفيذ مهام معقّدة من البداية إلى النهاية باستخدام حاسوب افتراضي (شاترستوك)

في خطوة جديدة تشير إلى تحول عميق في مشهد الذكاء الاصطناعي، كشفت «أوبن إيه آي (OpenAI)»، اليوم الجمعة، عن نسخة رائدة من نموذجها «تشات جي بي تي (ChatGPT)»، مزودة الآن بقدرات وكيلية متطورة. الأمر لا يقتصر على المحادثات الأكثر ذكاءً؛ بل يتعلق بذكاء اصطناعي يمكنه اتخاذ المبادرة، وتنفيذ المهام المعقدة من البداية إلى النهاية، والتفاعل مع العالم الرقمي باستخدام حاسوبه الافتراضي الخاص به. تمثل هذه التطورات خطوةً مهمةً نحو أنظمة الذكاء الاصطناعي المستقلة، والتخطيط الاستراتيجي داخل صناعة التكنولوجيا.

يُدمج النظام الجديد بسلاسة قدرات «المشغل (Operator)»، وهي أداة معروفة بالتفاعل الآلي مع صفحات الويب، مع مهارات «البحث العميق» المُصمَّمة لتحليل البيانات وتلخيصها بشكل متعمق. والأهم من ذلك، أنه يدمج هذه الإمكانات مع الذكاء التفاعلي لجوهر «ChatGPT» في المحادثة.

والنتيجة هي نظام وكيل متكامل قادر على تنفيذ مهام متعددة ومتصلة بشكل مستقل، والتنقل بمرونة بين التفكير والعمل بناءً على تعليمات المستخدم فقط. وصف سام ألتمان، الرئيس التنفيذي لشركة «OpenAI» الإعلان بأنه لحظة «تشبه الذكاء الاصطناعي العام (AGI)»، في تلميح إلى مستقبل؛ حيث يقوم الذكاء الاصطناعي «بأشياء في العالم الحقيقي من أجلك».

النظام يدمج بين أدوات متعددة مثل «المشغل» و«البحث العميق» والذكاء التفاعلي للمحادثة لإنجاز المهام تلقائياً (شاترستوك)

كيف يعمل الوكيل الجديد؟

في قلب هذا الابتكار يوجد نموذج جديد وقوي مدرب خصيصاً على المهام متعددة الأدوات. وهذا يسمح لوكيل «ChatGPT» باختيار مجموعة من الأدوات واستخدامها بذكاء، بما في ذلك متصفح بصري للواجهات الرسومية، ومتصفح قائم على النصوص لاستعلامات الويب التي تتطلب تفكيراً عميقاً، وطرفية لتنفيذ التعليمات البرمجية، ووصول مباشر إلى واجهة برمجة التطبيقات (API). من خلال دمج هذه الوظائف التي كانت متميزة سابقاً، أطلقت «OpenAI» العنان لقدرات جديدة تماماً. على سبيل المثال، يمكن للوكيل الآن التفاعل بنشاط مع مواقع الويب كالنقر والتصفية وجمع معلومات دقيقة، وحتى التعامل الآمن مع عمليات تسجيل الدخول تحت إشراف المستخدم.

يتميز هذا الوكيل بقدرته على العمل داخل بيئته الحاسوبية الافتراضية الخاصة به. وهذا يعني أنه يمكنه الحفاظ على السياق عبر أدوات مختلفة، وفتح صفحات في متصفحات متنوعة، وتنزيل الملفات ومعالجتها عبر أوامر الطرفية، ثم عرض النتائج بتنسيق سهل القراءة والتعديل، مثل جداول البيانات أو العروض التقديمية.

التأثير في العالم الحقيقي

الآثار المترتبة على الإنتاجية الشخصية والمهنية هائلة. تم تصميم وكيل «تشات جي بي تي» لأتمتة مجموعة واسعة من الأنشطة التي تتطلب عادةً التبديل بين تطبيقات متعددة وعلامات تبويب المتصفح والعمليات اليدوية. تتضمن الأمثلة على ما يمكنه التعامل معه الآن بسهولة:

- إدارة التقويم: قراءته،وإطلاعك على اجتماعات العملاء المقبلة، والربط بالاستخبارات الحديثة أو المستندات ذات الصلة.

- التخطيط والمشتريات: تخطيط وجبة، وتصميم حفل عشاء وحتى شراء المكونات الضرورية عبر الإنترنت.

- تحليل الأعمال: تحليل المنافسين المتعددين وتجميع عرض تقديمي شامل، أو تعديل جداول البيانات ببيانات مأخوذة مباشرة من الويب.

- تجميع المعلومات: تلخيص صناديق البريد الوارد، وإيجاد أوقات فراغ للاجتماعات، وتوليد تقارير من مصادر بيانات متباينة.

رغم المزايا فإن الإطلاق يشير إلى تحديات أمنية جديدة تتطلب ضمانات مشددة لحماية البيانات ومنع الاستخدامات الضارة (شاترستوك)

التوفر والتحكم للمستخدم

تطرح «OpenAI» وكيل «ChatGPT» تدريجياً، بدءاً بمستخدمي الخطط «برو (Pro)»، و«بلس (Plus)»، و«تيم (Team)» عالمياً. ومن المقرر أن يحصل عملاء «إنتربرايس (Enterprise)»، و«إديوكايشون (Education)» على الوصول في الأسابيع المقبلة. والأهم من ذلك أن «OpenAI» شدَّدت على تحكم المستخدم والسلامة. يمكن للمستخدمين تفعيل «وضع الوكيل» مباشرة داخل أي محادثة في «ChatGPT». يقوم الوكيل بسرد أنشطته على الشاشة، مما يوفر رؤيةً كاملةً لأفعاله. يمكن للمستخدمين مقاطعة الوكيل في أي وقت لتوضيح التعليمات، أو تقديم تفاصيل إضافية، أو حتى التحكم المباشر في المتصفح الافتراضي، مما يضمن بقاءهم مسيطرين.

معالجة المخاطر الجديدة والضمانات

إن إطلاق ذكاء اصطناعي قادر على اتخاذ إجراءات في العالم الحقيقي يثير بشكل طبيعي اعتبارات أمان جديدة ومعقدة. تقر «أوبن إيه آي» بهذه «المخاطر الجديدة»، خصوصاً فيما يتعلق بمعالجة المعلومات الحساسة على الويب المباشر والنطاق الأوسع للوكيل. وتذكر الشركة أنها عزَّزت بشكل كبير الضوابط الحالية، ونفَّذت ضمانات جديدة تشمل:

- تأكيد المستخدم الصريح للإجراءات ذات العواقب الحقيقية (مثل إجراء عملية شراء).

- متطلبات الإشراف النشط للمهام الحرجة مثل إرسال رسائل البريد الإلكتروني.

- تدريب رفض استباقي للأنشطة عالية المخاطر، مثل التحويلات المصرفية، والتي تم تصميم الوكيل لرفضها تماماً.

-حماية قوية ضد هجمات «حقن الأوامر (prompt injection)»، حيث يمكن لتعليمات ضارة مخبأة داخل صفحات الويب أن تخدع الوكيل لارتكاب أفعال غير مقصودة أو مشاركة بيانات خاصة.

- ضوابط خصوصية تسمح للمستخدمين بحذف جميع بيانات التصفح وتسجيل الخروج من جلسات مواقع الويب النشطة بنقرة واحدة.

نقلة نوعية... ومخاوف أمنية

وقد صنفت «أوبن إيه آي» وكيل «تشات جي بي تي» على أنه يمتلك «قدرات بيولوجية وكيميائية عالية» بموجب إطار عمل الجاهزية الخاص بها، وقامت بتفعيل الضمانات المرتبطة به والعمل مع خبراء الأمن البيولوجي، مما يدل على نهج حذر للتخفيف من مخاطر الاستخدام المزدوج المحتملة، حتى في غياب دليل قاطع على احتمالية وقوع أضرار جسيمة.

يرى البعض أن هذا الإطلاق هو أكثر من مجرد تحديث لميزة؛ إنه لحظة محورية في تطور الذكاء الاصطناعي. إنه يمثل انتقالاً من الذكاء الاصطناعي بوصفه أداةً تفاعليةً إلى كيان مستقل وفعال. ويقول كيفن ويل، كبير مسؤولي المنتجات في «OpenAI»، سابقاً، إن عام 2025 هو العام الذي ننتقل فيه من «ChatGPT» بوصفه شيئاً ذكياً للغاية يمكنه الإجابة عن أي سؤال تطرحه إلى «ChatGPT» الذي يقوم بأشياء في العالم الحقيقي من أجلك.