وسائل جديدة للكشف عن التسجيلات الصوتية المزيفة بإتقان

عالما كومبيوتر يرصدان أنماط إنتاجها صناعياً أو بشرياً

وسائل جديدة للكشف عن التسجيلات الصوتية المزيفة بإتقان
TT

وسائل جديدة للكشف عن التسجيلات الصوتية المزيفة بإتقان

وسائل جديدة للكشف عن التسجيلات الصوتية المزيفة بإتقان

تخيّلوا السيناريو التالي: يرنّ الهاتف، فيجيب الموظف ويسمع صوت مديرته في العمل وهي تبلغه بقلقٍ شديد بأنّها نسيت أن تحوّل المال للمتعاقد الجديد قبل مغادرتها، وتريده أن يقوم بالتحويل، فتزوّده بالمعلومات اللازمة... لتبدأ الأزمة الحقيقية بعد إتمام العملية.
بعدها، يجلس الموظف في كرسيّه ويأخذ نفساً عميقاً ثمّ يرى مديرته تدخل من الباب لأنّ الصوت الذي سمعه على الهاتف لم يكن صوتها، حتّى أنّه لم يكن بشرياً، بل إنه تسجيل صوتي مزيّف باحترافية شديدة بواسطة تقنية «ديب فيك»، وهو عبارة عن نموذج صوتي صممته آلات ليبدو تماماً كصوت المديرة.

تزييف متقن
هذه ليست المرّة الأولى التي تحصل فيها اعتداءات باستخدام تسجيلات صوتية، حتّى أنّ المحادثات الصوتية المصنوعة بتقنية «ديب فيك» deepfake قد لا تكون بعيدة جداً عنّا.
وُلدت مواد «ديب فيك»، سواء التسجيلات الصوتية أو الفيديوهات، بفضل تطوّر تقنيات التعلّم الآلي المعقّدة، ولكنّها ولّدت معها مستوى جديداً من الشكّ بالوسائط الرقمية. ولرصد التزييف الاحترافي أو الـ«ديب فيك»، لجأ الباحثون إلى تحليل الآثار البصرية – كالأخطاء الدقيقة والتناقضات – الموجودة في الفيديوهات المصنوعة بتقنية التزييف».
أما التسجيلات الصوتية المزيّفة باحترافية (مقاطع «ديب فيك» الصوتية) فتشكل تهديداً أكبر لأنّ النّاس غالباً يتواصلون شفهياً دون تصوير – مثلاً، عبر الاتصالات الهاتفية والراديو والتسجيلات الصوتية. وهكذا، توسّع وسائل التواصل المحصورة بالصوت احتمالات استخدام المعتدين لمواد «ديب فيك».
ولرصد هذه المواد، عمدنا مع زملائنا الباحثين في جامعة فلوريدا، إلى تطوير تقنية تقيس الاختلافات الصوتية وسيلان الموائع بين نماذج صوتية عضوية لمتحدّثين بشر وأخرى صناعية فبركتها أجهزة كومبيوتر.

صوت طبيعي وصناعي
ينطق البشر من خلال دفع الهواء فوق مختلف تشكيلات المسالك الصوتية التي تضمّ الأحبال الصوتية واللسان والشفتين. وبتعديل ترتيب هذه التشكيلات، يغيّر الإنسان الخصائص الصوتية للمسالك الصوتية ما يتيح له ابتكار 200 صوت مختلف أو ما يُعرف بالصوت اللغوي. ولكنّ التركيب البنيوي البشري يحدّد السلوك الصوتي لهذه الأصوات اللغوية المختلفة؛ ما ينتج مجموعة صغيرة نسبياً من الأصوات الصحيحة لكلّ واحدٍ منها.
في المقابل، تُصمم المواد الصوتية المزيّفة باحترافية من خلال السماح للكومبيوتر بالاستماع إلى تسجيلات صوتية للمتكلّم الضحية. قد يحتاج الكومبيوتر إلى الاستماع لعشر أو عشرين ثانية من المقطع بحسب التقنية المستخدمة، ويُستخدم المقطع الصوتي لاستخراج معلومات أساسية عن الأنماط الفريدة في صوت الضحية.
يختار المعتدي جملة لتقنية «ديب فيك» ومن ثمّ يستخدم خوارزمية تحوّل النص إلى كلام لإنتاج نموذج صوتي يشبه صوت الضحية وهو يقول الجملة المختارة. تتمّ عملية صناعة نموذج التسجيل الصوتي المزيّف بهذه التقنية في ثوانٍ؛ ما يمنح المتعقّب المرونة الكافية لاستخدام صوت مزيّف في أي محادثة.

كشف التسجيلات المزيفة
إنّ الخطوة الأولى للتمييز بين كلام البشر والكلام المفبرك بتقنية «ديب فيك» هو فهم كيفية صناعة نموذج للمسالك الصوتية لدى الإنسان. لحسن الحظ، يملك العلماء تقنيات لتقدير ما قد يبدو عليه صوت أحدهم – أو أي مخلوق حي من ماضٍ ساحق، كالديناصور مثلاً – بناءً على قياسات تشريحية للمجرى الصوتي.
ولكننا قمنا بالعكس، فقد عمدنا إلى عكس الكثير من هذه التقنيات وتمكّنا من استخراج تقدير تقريبي للمسالك الصوتية للمتحدّث خلال مقطع كلامي له. ويتيح لنا هذا الأمر التدقيق بفاعلية بالتركيب البنيوي للمتحدّث الذي صنع النموذج الصوتي. ومن هنا، افترضنا أنّ النماذج الصوتية المزيفة باحترافية ستفشل أمام قيود الضوابط البنيوية التي يملكها البشر. بمعنى آخر، ساهم تحليل النماذج الصوتية المزيفة في محاكاة أشكال المسالك الصوتية غير الموجودة لدى الأشخاص الحقيقيين.
وجاءت نتائج اختبارنا ليس لتؤكّد نظريتنا فحسب، بل لتكشف أيضاً أمراً مثيراً للاهتمام. إذ وعند استخراج تقديرات المسالك الصوتية من التسجيلات الصوتية المزيفة، وجدنا أنّها كانت غالباً غير صحيحة. على سبيل المثال، وجدنا أنّ التسجيلات الصوتية المزيفة أنتجتها مسالك صوتية بنفس قطر وتركيبة انبوبة شفط المشروبات، في حين أنّ المسالك الصوتية البشرية تتميّز بالاتساع والمزيد من التنوّع في الشكل.
تثبت هذه الحقيقة أنّ التسجيلات المزيفة باحترافية، حتّى عندما تقنع المستمعين البشر، لا تتمتع بأي مصداقية؛ لأنها تظل متميزة عن الكلام البشري. ويمكننا، من خلال تقدير التركيب البنيوي المسؤول عن ابتكار أي حديث، أن نحدّد ما إذا كان التسجيل الصوتي بشرياً أو من صنع الكومبيوتر.

*باحثان في علوم الكومبيوتر بجامعة فلوريدا «فاست كومباني»
- خدمات «تريبيون ميديا»


مقالات ذات صلة

رئيس «أبل» للمطورين الشباب في المنطقة: احتضنوا العملية... وابحثوا عن المتعة في الرحلة

تكنولوجيا تيم كوك في صورة جماعية مع طالبات أكاديمية «أبل» في العاصمة السعودية الرياض (الشرق الأوسط)

رئيس «أبل» للمطورين الشباب في المنطقة: احتضنوا العملية... وابحثوا عن المتعة في الرحلة

نصح تيم كوك، الرئيس التنفيذي لشركة «أبل»، مطوري التطبيقات في المنطقة باحتضان العملية بدلاً من التركيز على النتائج.

مساعد الزياني (دبي)
تكنولوجيا خوارزمية «تيك توك» تُحدث ثورة في تجربة المستخدم مقدمة محتوى مخصصاً بدقة عالية بفضل الذكاء الاصطناعي (أ.ف.ب)

خوارزمية «تيك توك» سر نجاح التطبيق وتحدياته المستقبلية

بينما تواجه «تيك توك» (TikTok) معركة قانونية مع الحكومة الأميركية، يظل العنصر الأبرز الذي ساهم في نجاح التطبيق عالمياً هو خوارزميته العبقرية. هذه الخوارزمية…

عبد العزيز الرشيد (الرياض)
خاص تم تحسين هذه النماذج لمحاكاة سيناريوهات المناخ مثل توقع مسارات الأعاصير مما يسهم في تعزيز الاستعداد للكوارث (شاترستوك)

خاص «آي بي إم» و«ناسا» تسخّران نماذج الذكاء الاصطناعي لمواجهة التحديات المناخية

«الشرق الأوسط» تزور مختبرات أبحاث «IBM» في زيوريخ وتطلع على أحدث نماذج الذكاء الاصطناعي لفهم ديناميكيات المناخ والتنبؤ به.

نسيم رمضان (زيوريخ)
خاص يمثل تحول الترميز الطبي في السعودية خطوة حاسمة نحو تحسين كفاءة النظام الصحي ودقته (شاترستوك)

خاص ما دور «الترميز الطبي» في تحقيق «رؤية 2030» لنظام صحي مستدام؟

من معالجة اللغة الطبيعية إلى التطبيب عن بُعد، يشكل «الترميز الطبي» عامل تغيير مهماً نحو قطاع طبي متطور ومستدام في السعودية.

نسيم رمضان (لندن)
خاص من خلال الاستثمارات الاستراتيجية والشراكات وتطوير البنية التحتية ترسم السعودية مساراً نحو أن تصبح قائداً عالمياً في التكنولوجيا (شاترستوك)

خاص كيف يحقق «الاستقلال في الذكاء الاصطناعي» رؤية السعودية للمستقبل؟

يُعد «استقلال الذكاء الاصطناعي» ركيزة أساسية في استراتيجية المملكة مستفيدة من قوتها الاقتصادية والمبادرات المستقبلية لتوطين إنتاج رقائق الذكاء الاصطناعي.

نسيم رمضان (لندن)

«غوغل» تطلق نظام «أندرويد إكس آر» المصمم لتعزيز تجارب الواقع المختلط

صورة ملتقطة 12 مايو 2023 في الولايات المتحدة تظهر شعار «غوغل» على أحد المباني في المقر الرئيسي للشركة (د.ب.أ)
صورة ملتقطة 12 مايو 2023 في الولايات المتحدة تظهر شعار «غوغل» على أحد المباني في المقر الرئيسي للشركة (د.ب.أ)
TT

«غوغل» تطلق نظام «أندرويد إكس آر» المصمم لتعزيز تجارب الواقع المختلط

صورة ملتقطة 12 مايو 2023 في الولايات المتحدة تظهر شعار «غوغل» على أحد المباني في المقر الرئيسي للشركة (د.ب.أ)
صورة ملتقطة 12 مايو 2023 في الولايات المتحدة تظهر شعار «غوغل» على أحد المباني في المقر الرئيسي للشركة (د.ب.أ)

عرضت شركة «غوغل»، الخميس، تطوّراتها في تكنولوجيا الواقع المختلط، مع إطلاقها نظام تشغيل جديداً لنظارات وخِوَذ الواقعَيْن الافتراضي والمعزَّز، وهو مجال حققت فيه «ميتا» و«أبل» تقدماً كبيراً.

وأطلقت الشركة الأميركية العملاقة «أندرويد إكس آر» المعادل لأجهزتها القائمة على نظام «أندوريد»، وهو نظامها لتشغيل الهواتف المهيمن إلى حد كبير على الهواتف الذكية في العالم، وفق «وكالة الصحافة الفرنسية».

وقالت «غوغل»، في بيان: «سيُطلق نظام (أندرويد إكس آر) في مرحلة أولى على خِوَذ رأس تغيّر طريقة مشاهدتكم لمقاطع الفيديو، وكيفية عملكم واستكشافكم لمحيطكم».

ويُفترض نشر نظام التشغيل الذي ابتكرته «غوغل»، بالتعاون مع «سامسونغ»، على جهاز من تصنيع المجموعة الكورية الجنوبية، سُمي مؤقتاً بـ«بروجكت موهان»، وسيُباع في العام المقبل.

أما راهناً، فستوفر «غوغلاندرويد اكس آر» بهدف المعاينة للمطورين الراغبين في ابتكار تطبيقات وألعاب في الواقعين الافتراضي والمعزز.

وأكّدت «غوغل» أنّ «خوذ الرأس ستتيح لمستخدمها الانتقال بسهولة من الانغماس التام في بيئة افتراضية إلى الوجود في العالم الحقيقي».

وأشارت الشركة الأميركية إلى استخدامات عدة لها، كمشاهدة مقاطع فيديو أو صور تغطي مجال الرؤية بالكامل أو إظهار جسم ما على الكاميرا وإجراء بحث عبر الإنترنت، بفضل الذكاء الاصطناعي.

وأضافت: «يمكنكم ملء المساحة من حولكم بالتطبيقات والمحتوى، ومع (جيميناي)، المساعد القائم على الذكاء الاصطناعي، يمكنكم أيضاً إجراء محادثات بشأن ما ترونه، أو التحكم بأجهزتكم».

يُفترض أن يعمل «أندرويد إكس آر» أيضاً على نظارات الواقع المعزز التي سيكون «جيميناي» متاحاً باستمرار فيها «لتوفير معلومات مفيدة عندما يحتاج المستخدم إليها، مثل الترجمات أو ملخصات الرسائل، من دون الحاجة إلى استخدام الهاتف. كل شيء سيكون مرئياً أو مسموعاً».

تهيمن شركة «ميتا» حالياً على سوق الواقع المختلط من خلال خوذ «كويست» ونظارات «راي بان»، وكلتاهما تباع بأسعار معقولة مقارنة بخوذ «فيجن برو» من «أبل»، التي يبلغ سعرها 3500 دولار.

وقبل 10 سنوات، أطلقت «غوغل» نظارات «غوغل غلاس» المتصلة، التي لم تلقَ استحسان المستهلكين، مما دفع الشركة للتخلي عنها في النهاية.