وسائل جديدة للكشف عن التسجيلات الصوتية المزيفة بإتقان

عالما كومبيوتر يرصدان أنماط إنتاجها صناعياً أو بشرياً

وسائل جديدة للكشف عن التسجيلات الصوتية المزيفة بإتقان
TT

وسائل جديدة للكشف عن التسجيلات الصوتية المزيفة بإتقان

وسائل جديدة للكشف عن التسجيلات الصوتية المزيفة بإتقان

تخيّلوا السيناريو التالي: يرنّ الهاتف، فيجيب الموظف ويسمع صوت مديرته في العمل وهي تبلغه بقلقٍ شديد بأنّها نسيت أن تحوّل المال للمتعاقد الجديد قبل مغادرتها، وتريده أن يقوم بالتحويل، فتزوّده بالمعلومات اللازمة... لتبدأ الأزمة الحقيقية بعد إتمام العملية.
بعدها، يجلس الموظف في كرسيّه ويأخذ نفساً عميقاً ثمّ يرى مديرته تدخل من الباب لأنّ الصوت الذي سمعه على الهاتف لم يكن صوتها، حتّى أنّه لم يكن بشرياً، بل إنه تسجيل صوتي مزيّف باحترافية شديدة بواسطة تقنية «ديب فيك»، وهو عبارة عن نموذج صوتي صممته آلات ليبدو تماماً كصوت المديرة.

تزييف متقن
هذه ليست المرّة الأولى التي تحصل فيها اعتداءات باستخدام تسجيلات صوتية، حتّى أنّ المحادثات الصوتية المصنوعة بتقنية «ديب فيك» deepfake قد لا تكون بعيدة جداً عنّا.
وُلدت مواد «ديب فيك»، سواء التسجيلات الصوتية أو الفيديوهات، بفضل تطوّر تقنيات التعلّم الآلي المعقّدة، ولكنّها ولّدت معها مستوى جديداً من الشكّ بالوسائط الرقمية. ولرصد التزييف الاحترافي أو الـ«ديب فيك»، لجأ الباحثون إلى تحليل الآثار البصرية – كالأخطاء الدقيقة والتناقضات – الموجودة في الفيديوهات المصنوعة بتقنية التزييف».
أما التسجيلات الصوتية المزيّفة باحترافية (مقاطع «ديب فيك» الصوتية) فتشكل تهديداً أكبر لأنّ النّاس غالباً يتواصلون شفهياً دون تصوير – مثلاً، عبر الاتصالات الهاتفية والراديو والتسجيلات الصوتية. وهكذا، توسّع وسائل التواصل المحصورة بالصوت احتمالات استخدام المعتدين لمواد «ديب فيك».
ولرصد هذه المواد، عمدنا مع زملائنا الباحثين في جامعة فلوريدا، إلى تطوير تقنية تقيس الاختلافات الصوتية وسيلان الموائع بين نماذج صوتية عضوية لمتحدّثين بشر وأخرى صناعية فبركتها أجهزة كومبيوتر.

صوت طبيعي وصناعي
ينطق البشر من خلال دفع الهواء فوق مختلف تشكيلات المسالك الصوتية التي تضمّ الأحبال الصوتية واللسان والشفتين. وبتعديل ترتيب هذه التشكيلات، يغيّر الإنسان الخصائص الصوتية للمسالك الصوتية ما يتيح له ابتكار 200 صوت مختلف أو ما يُعرف بالصوت اللغوي. ولكنّ التركيب البنيوي البشري يحدّد السلوك الصوتي لهذه الأصوات اللغوية المختلفة؛ ما ينتج مجموعة صغيرة نسبياً من الأصوات الصحيحة لكلّ واحدٍ منها.
في المقابل، تُصمم المواد الصوتية المزيّفة باحترافية من خلال السماح للكومبيوتر بالاستماع إلى تسجيلات صوتية للمتكلّم الضحية. قد يحتاج الكومبيوتر إلى الاستماع لعشر أو عشرين ثانية من المقطع بحسب التقنية المستخدمة، ويُستخدم المقطع الصوتي لاستخراج معلومات أساسية عن الأنماط الفريدة في صوت الضحية.
يختار المعتدي جملة لتقنية «ديب فيك» ومن ثمّ يستخدم خوارزمية تحوّل النص إلى كلام لإنتاج نموذج صوتي يشبه صوت الضحية وهو يقول الجملة المختارة. تتمّ عملية صناعة نموذج التسجيل الصوتي المزيّف بهذه التقنية في ثوانٍ؛ ما يمنح المتعقّب المرونة الكافية لاستخدام صوت مزيّف في أي محادثة.

كشف التسجيلات المزيفة
إنّ الخطوة الأولى للتمييز بين كلام البشر والكلام المفبرك بتقنية «ديب فيك» هو فهم كيفية صناعة نموذج للمسالك الصوتية لدى الإنسان. لحسن الحظ، يملك العلماء تقنيات لتقدير ما قد يبدو عليه صوت أحدهم – أو أي مخلوق حي من ماضٍ ساحق، كالديناصور مثلاً – بناءً على قياسات تشريحية للمجرى الصوتي.
ولكننا قمنا بالعكس، فقد عمدنا إلى عكس الكثير من هذه التقنيات وتمكّنا من استخراج تقدير تقريبي للمسالك الصوتية للمتحدّث خلال مقطع كلامي له. ويتيح لنا هذا الأمر التدقيق بفاعلية بالتركيب البنيوي للمتحدّث الذي صنع النموذج الصوتي. ومن هنا، افترضنا أنّ النماذج الصوتية المزيفة باحترافية ستفشل أمام قيود الضوابط البنيوية التي يملكها البشر. بمعنى آخر، ساهم تحليل النماذج الصوتية المزيفة في محاكاة أشكال المسالك الصوتية غير الموجودة لدى الأشخاص الحقيقيين.
وجاءت نتائج اختبارنا ليس لتؤكّد نظريتنا فحسب، بل لتكشف أيضاً أمراً مثيراً للاهتمام. إذ وعند استخراج تقديرات المسالك الصوتية من التسجيلات الصوتية المزيفة، وجدنا أنّها كانت غالباً غير صحيحة. على سبيل المثال، وجدنا أنّ التسجيلات الصوتية المزيفة أنتجتها مسالك صوتية بنفس قطر وتركيبة انبوبة شفط المشروبات، في حين أنّ المسالك الصوتية البشرية تتميّز بالاتساع والمزيد من التنوّع في الشكل.
تثبت هذه الحقيقة أنّ التسجيلات المزيفة باحترافية، حتّى عندما تقنع المستمعين البشر، لا تتمتع بأي مصداقية؛ لأنها تظل متميزة عن الكلام البشري. ويمكننا، من خلال تقدير التركيب البنيوي المسؤول عن ابتكار أي حديث، أن نحدّد ما إذا كان التسجيل الصوتي بشرياً أو من صنع الكومبيوتر.

*باحثان في علوم الكومبيوتر بجامعة فلوريدا «فاست كومباني»
- خدمات «تريبيون ميديا»


مقالات ذات صلة

المدير التنفيذي لـ«سيسكو» السعودية: استثماراتنا بالمملكة مستمرة لدعم جهودها في التحول الرقمي

الاقتصاد المدير التنفيذي لشركة «سيسكو السعودية» سلمان فقيه (تصوير: تركي العقيلي) play-circle 01:37

المدير التنفيذي لـ«سيسكو» السعودية: استثماراتنا بالمملكة مستمرة لدعم جهودها في التحول الرقمي

في ظل ما يشهده قطاع التقنية السعودي من تطور، حقَّقت «سيسكو» أداءً قوياً ومتسقاً مع الفرص المتاحة وقرَّرت مواصلة استثماراتها لدعم جهود السعودية في التحول الرقمي.

زينب علي (الرياض)
عالم الاعمال «بلاك هات» تعود إلى الرياض بنسختها الثالثة

«بلاك هات» تعود إلى الرياض بنسختها الثالثة

تعود فعالية الأمن السيبراني الأبرز عالمياً «بلاك هات» في نسختها الثالثة إلى «مركز الرياض للمعارض والمؤتمرات» ببلدة ملهم شمال العاصمة السعودية الرياض.

تكنولوجيا «غوغل» تطلق النسخة الأولية من آندرويد 16 للمطورين مع ميزات جديدة لتعزيز الخصوصية ومشاركة البيانات الصحية (غوغل)

«غوغل» تطلق النسخة الأولية من آندرويد 16 للمطورين مع ميزات جديدة

أطلقت «غوغل» النسخة التجريبية الأولية من آندرويد 16 للمطورين، وهي خطوة تمهد الطريق للتحديثات الكبيرة المقبلة في هذا النظام.

عبد العزيز الرشيد (الرياض)
تكنولوجيا «أبل» تؤكد مشكلة اختفاء الملاحظات بسبب خلل بمزامنة (iCloud) وتوضح خطوات استعادتها مع توقع تحديث (iOS) قريب (أبل)

اختفاء الملاحظات في أجهزة آيفون... المشكلة والحلول

وفقاً لتقرير رسمي من «أبل»، فإن المشكلة تتعلق بإعدادات مزامنة الآيكلاود (iCloud).

عبد العزيز الرشيد (الرياض)
تكنولوجيا تمكنك «دورا» من تصميم مواقع ثلاثية الأبعاد مذهلة بسهولة تامة باستخدام الذكاء الاصطناعي دون الحاجة لأي معرفة برمجية (دورا)

صمم موقعك ثلاثي الأبعاد بخطوات بسيطة ودون «كود»

تتيح «دورا» للمستخدمين إنشاء مواقع مخصصة باستخدام الذكاء الاصطناعي عبر إدخال وصف نصي بسيط.

عبد العزيز الرشيد (الرياض)

«واتساب» يطلق خاصية تحويل الرسائل الصوتية إلى نصوص

شعار تطبيق «واتساب» (د.ب.أ)
شعار تطبيق «واتساب» (د.ب.أ)
TT

«واتساب» يطلق خاصية تحويل الرسائل الصوتية إلى نصوص

شعار تطبيق «واتساب» (د.ب.أ)
شعار تطبيق «واتساب» (د.ب.أ)

أعلنت شركة تطبيق التواصل الاجتماعي «واتساب» إطلاق خاصية تحويل الرسائل الصوتية إلى نصوص مكتوبة. وقالت الشركة المملوكة لمجموعة «ميتا بلاتفورمس» إن الخاصية الجديدة ستكون مفيدة عند وجود المستخدم وسط ضوضاء أو يتحرك ولا يستطيع سماع الرسالة الصوتية.

وأشار موقع «تك كرانش» المتخصص في موضوعات التكنولوجيا إلى أن «أبل» أطلقت خاصية مماثلة لتطبيق «ماسج» الخاص بها، مع تحديث نظام تشغيل أجهزة «أبل» الذكية (آي أو إس 17).

وللوصول إلى الخاصية الجديدة في «واتساب»، يحتاج المستخدم إلى الدخول لإعدادات التطبيق واختيار قسم «محادثات» ثم النقر على خيار «تحويل الرسالة الصوتية إلى نص»، ثم تفعيل الخاصية. ويمكن للمستخدم من هذا الجزء اختيار لغة الكتابة المطلوبة.

وبمجرد تفعيل الخاصية، يمكن للمستخدم تحويل الرسالة الصوتية إلى نص من خلال النقر المستمر عليها ثم اختيار خيار «تحويل إلى نص». ولن يقوم التطبيق بتحويل الرسائل الصوتية إلى نصوص بطريقة آلية في كل مرة تصل فيها رسالة صوتية.

وقالت الشركة إنها ستتيح الخاصية الجديدة للمستخدمين في مختلف أنحاء العالم بلغات محددة خلال الأسابيع المقبلة.

في الوقت نفسه، تتحدد اللغات التي تدعمها الخاصية بالنسبة للأجهزة التي تعمل بنظام التشغيل «آي أو إس» على الإصدار؛ فإذا كان المستخدم يستخدم الإصدار «آي أو إس 16» فأعلى، فإنه يدعم لغات الإنجليزية والفرنسية والإسبانية والألمانية والإيطالية واليابانية والكورية والبرتغالية والروسية والتركية والصينية والعربية. أما إذا كان الإصدار «آي أو إس 17» فأعلى، فإن قاعدة اللغات تتسع لتشمل الدنماركية والفنلندية والنرويجية والهولندية والسويدية والعربية والتايلاندية.

أما الأجهزة التي تعمل بنظام التشغيل «أندرويد»، فتدعم اللغات الإنجليزية والبرتغالية والإسبانية والروسية فقط في الوقت الحالي.