سباق محموم لترويج الفيديوهات المزيفة والتلاعب بالتسجيلات

برامج مضادة مطورة ترصد سلوك الشخصيات المنتحلة

سباق محموم لترويج الفيديوهات المزيفة والتلاعب بالتسجيلات
TT

سباق محموم لترويج الفيديوهات المزيفة والتلاعب بالتسجيلات

سباق محموم لترويج الفيديوهات المزيفة والتلاعب بالتسجيلات

في الماضي، كان تزوير مقاطع الفيديو بشكل يجعلها تبدو واقعية، يتطلب كثيراً من الوقت والخبرات، ولكنّه اليوم لم يعد كذلك.
طوال عقود مضت، كانت مقاطع الفيديو المزيّفة والمقنعة تظهر في أفلام الخيال العلمي، كـ«حرب النجوم» فقط. ولكن بفضل تصاعد تطبيقات الذكاء الصناعي، أصبح تزوير مقاطع الفيديو أسهل من أي وقت مضى. وهو ما يعرِّض - برأي الباحثين - الأمن القومي لمخاطر جمّة.
رأى هاني فريد - وهو أستاذ محاضر بعلوم الكومبيوتر في جامعة «دارتموث كوليدج» - أنّه «وحتى وقت ليس ببعيد، كنّا نستطيع الوثوق بالتسجيلات الصوتية ومقاطع الفيديو، إلا أنّ التطور الذي شهدته تقنية التعلم الآلي، أتاح أدوات صناعة الفيديوهات والتسجيلات الصوتية المعقدة والمقنعة للجميع». وأضاف فريد في حديث نقلته «يو إس إي توداي» أنّ «معرفة كيفية استخدام هذه الفيديوهات المزيفة للتلاعب بالانتخابات، أو زرع الاضطرابات المدنية، أو حتى ارتكاب عمليات الاحتيال لا يتطلب مخيّلة واسعة».
مع اقتراب انتخابات 2020 في الولايات المتحدة، والقلق المتنامي لدى وكالات الدفاع الأميركية من الفيديوهات المضللة للناخبين، يتسابق المشرعون والمؤسسات التعليمية نحو تطوير برامج رقمية قادرة على رصد وحظر ما يعرف بالـ«ديب فيكس» حتى قبل وصولها إلى الإنترنت.
التزييف العميق
في أواخر عام 2017، أخذت المخاوف من فكرة تزوير الفيديوهات تتصدر عناوين الصحف، عندما بدأ استخدام برامج الكومبيوتر لدس صور المشاهير في المواد الإباحية.
من أهمّ الأمثلة على هذا التلاعب كان تسجيلاً ابتكرته شركة الإنتاج التي يملكها المخرج جوردن بيلي في 2018، وفيه يظهر الرئيس السابق باراك أوباما وهو يحذّر الناس من تصديق كلّ ما يشاهدونه على الإنترنت.
ولكنّ الحقيقة هي أنّ المتكلّم لم يكن أوباما؛ بل بيلي نفسه، مستخدماً صوت أوباما.
ومنذ ذلك الحين، بدأت وزارة الدفاع في تطوير وسائل لرصد مقاطع الفيديو التي تدخل في فئة «ديب فيكس» (التزييف العميق) عبر وكالة مشروعات الأبحاث الدفاعية المتقدمة (داربا).
في مارس (آذار) الماضي، قال متحدّث باسم الوكالة، إنّ كثيراً من هذه الفيديوهات تتمّ صناعتها بهدف المرح، ولكنّ مقاطع أخرى تشكّل خطراً كبيراً، بسبب احتمال استخدامها لنشر البروباغندا والتضليل.
برامج مضادة

تسعى المنظمة اليوم إلى تطوير إشعارات وفلترات إلكترونية تمنع المحتوى المزيّف من الوجود على الإنترنت.
يشرح سيوي ليو - وهو باحث يعمل حالياً مع وزارة الدفاع على تطوير برنامج إلكتروني لرصد وتفادي انتشار المقاطع المعدّلة «ديب فيكس» - أنّ «صناعة فيديو مزيف بشكل عميق حقيقي ومقنع تتطلّب نحو 500 صورة ومقطع فيديو مدّته 10 ثوانٍ فقط»، محذّراً من أنّ «أي شخص ينشر صوراً على مواقع التواصل الاجتماعي، مثل «إنستغرام» معرّض للاستغلال في صناعة الـ«ديب فيكس».
يعمل البرنامج الأوّل الذي طوّره ليو وفريقه البحثي من جامعة ألباني العام الماضي، على رصد فيديوهات الـ«ديب فيكس» بغمضة عين، حرفياً، من خلال تحليل عدد المرّات التي تطرف فيها عينا الوجه الظاهر في المقطع، أو لا تطرف.
من جهته، قال ليو: «اكتشفنا أنّ عيني أبطال فيديوهات (ديب فيكس) لا تطرف كثيراً، وأحياناً لا تطرف أبداً. ومن ثمّ تساءلنا: لمَ لا يحصل هذا الأمر».
ووجد الباحثون أنّ البرنامج المستخدم لصناعة فيديوهات «ديب فيكس» يعتمد غالباً على الصور الموجودة على الإنترنت. ولفت ليو إلى أنّ صور المشاهير المنتشرة على الإنترنت التي يظهرون فيها مغمضي العينين ليست كثيرة، وبالتالي، فإنّ عيني الشخصيات الظاهرة في الفيديوهات المزيفة لن تطرف.
ومع مواجهة صناع الـ«ديب فيكس» لطريقة عمل البرنامج الجديد، طور الباحثون وسائل جديدة لرصد هذه الفيديوهات المعدلة، باستخدام خوارزميات ترصد حركات غير طبيعية بين الوجوه والرؤوس، بالإضافة إلى برنامج يحلّل غياب أصغر التفاصيل عن مقطع الفيديو.
وشرح ليو أنّ «البشرة في الوجوه المستخدمة في مقاطع (ديب فيكس) تكون غالباً أكثر نقاوة، وأنّ بعض التفاصيل المتعلّقة بالشعر والأسنان لا تكون موجودة. إذا نظرتم إلى الأسنان عن قرب، فسترون كتلة بيضاء واحدة، وليست أسناناً طبيعية منفصلة».
يعمل باحثون من جامعة واشنطن أيضاً على اختبار تقنيات الـ«ديب فيكس»، ونجحوا عام 2017 في التوصّل إلى وسيلة لتحويل المقاطع الصوتية إلى مقاطع فيديو، تتزامن فيها حركة شفاه الشخص الظاهر فيها مع الشخص الذي نطق بهذه الكلمات.
يشكّك ليو بقدرة فيديوهات الـ«ديب فيكس» على التسبب في حرب، ويستبعد احتمال تمتّعها بتأثير طويل الأمد على المجتمع، في ظلّ تنامي وعي الناس بهذه الظاهرة. كما رجّح تراجع حساسية الناس تجاه هذه المقاطع المعدّلة.
توليد الصوت والصورة
استخدمت تقنية تعديل الإدراك في أبريل (نيسان) لكسر الحواجز اللغوية، في حملة توعية عالمية حول «الملاريا»، بطلها لاعب الكرة البريطاني ديفيد بيكهام. وكانت منظمة «مالاريا نو مور» قد نشرت مقطع فيديو على «يوتيوب» يسلّط الضوء على كيفية استخدامها لتقنية «ديب فيكس» لمزامنة حركة شفتي ديفيد بيكهام بدقّة، مع أصوات عدّة أشخاص آخرين.
استخدمت الجمعية غير الربحية تقنية التعديل الصوتي والبصري، لإنتاج إعلان مصوّر مدّته 55 ثانية، يظهر بيكهام وهو يتكلّم بعدّة لغات. يبدأ خطابه باللغة الإنجليزية، ومن ثمّ ينتقل للكلام بثماني لغات أخرى، بواسطة الدبلجة. نعيش اليوم في عالم يتابع فيه ملايين الأشخاص الحقيقيين نوعين من المؤثرات المركبة اللذين يولدهما الكومبيوتر على مواقع التواصل الاجتماعي، ولكن دون أن يعوا ذلك، في الوقت الذي تعمل فيه الحكومات على تطوير مقدّمي أخبار متحرّكين أشبه بالبشر. تعتبر ليل ماكيلا، الفتاة الرقمية التي يتابعها 1.5 مليون شخص على «إنستغرام»، ويتفاعلون معها عبر الرسائل المباشرة، واحداً من أوضح الأمثلة على تعوّد البشر الحقيقيين على التعامل مع شخصيات مطوّرة يولدها الكومبيوتر. الحقيقة هي أنّ ليل ماكيلا ليست فتاة حالمة، ولا تحتفل في مهرجان «كوتشيلا» على الرغم من العبارات المرفقة بصورها؛ لأنّها مزيّفة. ولكنّ متابعيها لا يكترثون لزيفها؛ بل ويعجبون بصورها ويعلّقون عليها وكأنها شخص حقيقي. وكذلك أيضاً بدأ أشخاص تم تطويرهم عبر الذكاء الصناعي في الظهور على التلفزيون أيضاً. ففي عام 2018، شرعت وكالة الأنباء الصينية التابعة للحكومة، في اختبار مذيعي أخبار مدعومين بالذكاء الصناعي، في خطوة اعتبرت الأولى من نوعها في العالم.
للوهلة الأولى، يبدو مذيع الأخبار شخصاً عادياً بتعابير على وجهه، وحركات تتناسب مع صوته المتكلّم. ولكن بعد ثوانٍ من تشغيل مقطع الفيديو، ستعرفون أنه ليس حقيقياً. في مقدّمة مصوّرة، قال مذيع الأخبار الرقمي: «سأعمل دون كلل لإبقائكم على اطلاع بفضل النصوص التي ستتمّ طباعتها في نظامي دون توقف. إنّ التطوّر المستمرّ في عالم الإعلام يستدعي ابتكاراً متواصلاً واندماجاً عميقاً مع التقنيات العالمية المتقدّمة». وكانت الوكالة قد قدّمت مذيعتها المزيّفة الأولى في فبراير (شباط) الفائت، وبدت أكثر واقعية من المذيع الذي سبقها.
* خدمة «تريبيون ميديا»


مقالات ذات صلة

التقاط «السيمفونية الجينية» للدماغ البشري

علوم التقاط «السيمفونية الجينية» للدماغ البشري

التقاط «السيمفونية الجينية» للدماغ البشري

تمكن فريق من الباحثين لأول مرة من تحديد مجموعة محددة من الجينات التي تنشط في أثناء التواصل اللحظي بين خلايا الدماغ،

د. وفا جاسم الرجب (لندن)
علوم الدكتورة كريستينا أرغيسو تسعى لتطوير نباتات قادرة على مقاومة الآفات من دون أن تخسر إنتاجيتها (جامعة ولاية كولورادو)

ابتكار علمي يعزز إنتاج المحاصيل الزراعية من دون مبيدات

قبل نحو 6 عقود، أحدث عالم الوراثة الأميركي نورمان بورلاوغ، الملقب بـ«أبو الثورة الخضراء»، تحولاً جذرياً في تاريخ البشرية؛ فمن خلال تطوير أصناف قمح قصيرة القامة…

محمد السيد علي (القاهرة)
تحليل إخباري رواد الفضاء الأربعة في مهمة «أرتميس ‌2» (ناسا)

تحليل إخباري القمر مختبراً... كيف يشكّل «أرتميس» بروفة «ناسا» لرحلات المريخ؟

برنامج «أرتميس» يستخدم القمر لاختبار التقنيات والتحمل البشري واللوجيستيات تمهيداً لبعثات المريخ واستكشاف الفضاء العميق بشكل مستدام.

نسيم رمضان (لندن)
تكنولوجيا أطلقت «غوغل» نموذج «Gemma 4» بترخيص مفتوح يتيح الاستخدام والتعديل والنشر دون قيود كبيرة (رويترز)

«Gemma 4» من «غوغل»: ذكاء اصطناعي مفتوح يعمل على الأجهزة الشخصية

«غوغل» تطلق «Gemma 4» كنموذج مفتوح يعمل محلياً... ما يعزز الخصوصية ويقلل الاعتماد على السحابة ويدعم قدرات متقدمة للمطورين.

نسيم رمضان (لندن)
تكنولوجيا صاروخ «ناسا» العملاق أرتميس «إس إل إس» في مركز كينيدي الفضائي (أ.ف.ب)

ما وراء الإطلاق… التقنيات الخفية التي تقود مهمة «أرتميس 2»

مهمة «أرتميس 2» تختبر أنظمة دعم الحياة، والملاحة، والطاقة لإتاحة رحلات بشرية مستدامة إلى الفضاء العميق تمهيداً للمريخ.

نسيم رمضان (لندن)

رواد «أرتيميس 2» لتحطيم الرقم القياسي لأبعد مسافة يقطعها بشر في الفضاء

طاقم «أرتيميس 2» داخل الكبسولة «أوريون» (أ.ف.ب)
طاقم «أرتيميس 2» داخل الكبسولة «أوريون» (أ.ف.ب)
TT

رواد «أرتيميس 2» لتحطيم الرقم القياسي لأبعد مسافة يقطعها بشر في الفضاء

طاقم «أرتيميس 2» داخل الكبسولة «أوريون» (أ.ف.ب)
طاقم «أرتيميس 2» داخل الكبسولة «أوريون» (أ.ف.ب)

يصل رواد الفضاء الأربعة في مهمة «أرتيميس2»، الاثنين، إلى أبعد نقطة يبلغها البشر عن الأرض، متجاوزين بذلك أي مركبة فضائية سبقتهم، وذلك خلال أول تحليق بالقرب من القمر منذ عام 1972؛ ما سيقودهم إلى مناطق لم يسبق للبشر رؤيتها مباشرة.

بعد أكثر من 4 أيام على انطلاقهم من فلوريدا بالولايات المتحدة، يدخل رواد الفضاء الثلاثة التابعون لوكالة «ناسا»: كريستينا كوك، وفيكتور غلوفر، وريد وايزمان، وزميلهم الكندي جيريمي هانسن، «نطاق جاذبية القمر» منذ الساعة الـ04:42 بتوقيت غرينيتش، حيث جاذبية القمر تتخطى جاذبية الأرض.

في نحو الساعة الـ18:00 بتوقيت غرينيتش، سيحطمون الرقم القياسي لأبعد رحلة فضائية، الذي سجله طاقم «أبولو13» عام 1970. سيقطعون مسافة تصل إلى 406 آلاف كيلومتر بعيداً عن الأرض خلال النهار.

انطلاق مهمة «أرتيميس 2» إلى مدار القمر من «مركز كينيدي الفضائي» في فلوريدا بالولايات المتحدة (أ.ب)

ورغم أن الرواد الأربعة لن يهبطوا على سطح القمر، فإن ذلك يتضمن حدثاً تاريخياً؛ إذ لم يسبق لأي من مهام «أبولو» (1968 - 1972) أن ضمّت ضمن طواقمها نساء، أو رواد فضاء سوداً، أو رواد فضاء من غير الأميركيين.

في تاريخ استكشاف الفضاء، لم يغامر أي رائد فضاء روسي أو صيني بالتوغل إلى ما بعد 400 كيلومتر من الأرض، وهي المسافة إلى المحطات المدارية حول الأرض. وحدها المركبات الفضائية التي عادت إلى رصد القمر هي التي فعلت ذلك.

لمدة 7 ساعات، بدءاً من الساعة الـ18:45 بتوقيت غرينيتش، سيملأ القمر نافذة مركبة «أوريون» الفضائية. سيبدو القمر لهم بحجم «كرة سلة على طرف اليد»، وفق ما صرّح به نوح بيترو، رئيس مختبر الجيولوجيا الكوكبية التابع لـ«وكالة الفضاء الأميركية (ناسا)» لـ«وكالة الصحافة الفرنسية».

ومن الحقائق اللافتة الأخرى، كما أشار رئيس الوزراء الكندي، مارك كارني، أن جيريمي هانسن أصبح أول رائد فضاء في مهمة قمرية يتحدث الفرنسية، الأحد، خلال حوار مباشر شجع فيه الجميع على «اكتشاف شغفهم» ومشاركته.

وتدرب أفراد الطاقم الأربعة لأكثر من عامين على التعرف على التكوينات الجيولوجية ووصفها بدقة للعلماء على الأرض، لا سيما درجات اللونين البني والبيج للتربة. ومن شأن وصفهم الشفهي، إلى جانب ملاحظاتهم والصور التي يلتقطونها بواسطة الكاميرات الثلاث الموجودة على متن المركبة، أن يُتيح معرفة المزيد عن جيولوجيا القمر الطبيعي للأرض وتاريخه.

لكن وكالة «ناسا» تأمل أيضاً أن يُشعل ذلك حماسة المتابعين حول العالم؛ إذ ستبث الحدث مباشرةً على منصات متعددة مثل «نتفليكس» و«يوتيوب»، باستثناء 40 دقيقة ستُقطع خلالها الاتصالات بسبب حجب القمر. ووعدت كيلسي يونغ، كبيرة علماء المهمة، في مؤتمر صحافي عُقد نهاية الأسبوع الماضي، بأن «سماع هذا الطاقم وهو يصف سطح القمر سيُثير فيكم القشعريرة».

بعثة «أرتيميس 2» في طريقها إلى القمر (ناسا - أ.ف.ب)

بينما سبقهم رواد فضاء «أبولو» إلى هذا الإنجاز، قبل أكثر من 50 عاماً، فإن «معظمنا لم يكن قد وُلد بعد، لذا ستكون هذه تجربة فريدة من نوعها بالنسبة إلينا»، وفق ما قال ديريك بوزاسي، أستاذ علم الفلك والفيزياء الفلكية بجامعة شيكاغو، لـ«وكالة الصحافة الفرنسية».

وسيحلق رواد الفضاء خلف القمر ليكتشفوا جانبه البعيد الذي لا يُرى أبداً من الأرض. ومن المرجح أن يروا «مناطق من هذا الجانب البعيد لم يتمكن أي من رواد فضاء (أبولو) من رصدها»، وفق ما صرح به جايكوب بليتشر، رئيس قسم استكشاف العلوم في «ناسا»، لـ«وكالة الصحافة الفرنسية»، معرباً عن حماسته الشديدة لهذا الاحتمال.

وقد رصد الطاقم لمحة من «حوض أورينتال»، وهو فوهة بركانية عملاقة تُلقّب بـ«الوادي الكبير للقمر» ولم تُشاهَد بكاملها حتى الآن إلا عبر مركبات فضائية. وقال جيريمي هانسن: «الأمر يشبه تماماً التدريب، ولكن في 3 أبعاد، وهذا مذهل حقاً!».

وستُمكّنهم رحلتهم القمرية أيضاً من مشاهدة كسوف الشمس - حيث تختفي الشمس خلف القمر - و«شروق الأرض وغروبها خلف القمر».

يُذكّر هذا بصورة «شروق الأرض» الشهيرة التي أحدثت ثورة في نظرتنا إلى العالم عام 1968 خلال مهمة «أبولو8». إذا سارت هذه المهمة وتلك التي تليها العام المقبل على ما يُرام، فستُخطّط «ناسا» لإنزال رواد فضاء على سطح القمر عام 2028.


بشكل صحيح وآمن... ما أفضل طريقة لتنظيف سماعات «إيربودز»؟

شخص يحمل سماعات أذن «إيربودز» (رويترز)
شخص يحمل سماعات أذن «إيربودز» (رويترز)
TT

بشكل صحيح وآمن... ما أفضل طريقة لتنظيف سماعات «إيربودز»؟

شخص يحمل سماعات أذن «إيربودز» (رويترز)
شخص يحمل سماعات أذن «إيربودز» (رويترز)

يلاحظ كثير من مستخدمي سماعات الأذن، خاصة «إيربودز»، مع مرور الوقت تراكم طبقة صفراء أو بنية خفيفة على أطراف السيليكون، أو الشبكات المعدنية، بل وحتى داخل علبة الشحن. ورغم أن هذا الأمر قد يبدو مزعجاً، أو غير نظيف، فإنه في الواقع شائع، وطبيعي للغاية.

يوضح غوردون هاريسون، اختصاصي السمع، أن هذا التغيّر في اللون غالباً ما يكون نتيجة تراكم شمع الأذن، وهو أمر طبيعي لا يُسبب ضرراً بحد ذاته. ومع ذلك، فإن إهمال تنظيف السماعات قد يحوّلها إلى بيئة مناسبة لنمو البكتيريا، خاصةً مع احتباس الحرارة والرطوبة داخل قناة الأذن، ما قد يزيد من خطر التهابات الأذن، لا سيما خلال فصول البرد، والإنفلونزا، وفقاً لصحيفة «إندبندنت».

لذلك، لا يقتصر تنظيف سماعات «إيربودز»، من صنع شركة «أبل»، على الجانب الجمالي فحسب، بل يُعد خطوة مهمة للحفاظ على الصحة أيضاً.

كيفية تنظيف سماعات الأذن بشكل صحيح

الخبر الجيد أن تنظيف سماعات «إيربودز» لا يتطلب أدوات معقدة، أو باهظة الثمن، بل يمكن إنجازه بسهولة باستخدام أدوات بسيطة متوفرة في المنزل.

1. إزالة أطراف السيليكون وتنظيفها

إذا كنت تستخدم «إيربودز برو»، فابدأ بإزالة أطراف السيليكون برفق. توصي شركة «أبل» بشطف هذه الأطراف بالماء فقط، ثم تجفيفها باستخدام قطعة قماش ناعمة خالية من الوبر (يفضل أن تكون من الألياف الدقيقة). من المهم التأكد من جفافها تماماً قبل إعادة تركيبها، لأن أي رطوبة متبقية قد تُسبب تهيجاً داخل الأذن، خاصةً عند الاستخدام لفترات طويلة.

2. تنظيف جسم السماعة

بعد إزالة الأطراف، قم بتنظيف الجزء الخارجي من السماعات. يُنصح بمسحها بلطف باستخدام قطعة قماش مبللة قليلاً، مع الحرص على عدم تسرب الماء إلى الفتحات، أو الشبكات.كما يمكن استخدام مناديل مضادة للبكتيريا تحتوي على الكحول، أو قطعة قماش مبللة بالكحول الطبي، لإزالة الأوساخ، والعرق، والشمع المتراكم.

3. تنظيف الشبكة بحذر

تُعد الشبكة (فتحات الصوت) الجزء الأكثر حساسية، لذا يجب التعامل معها بعناية. توصي «أبل» باستخدام فرشاة ناعمة الشعيرات، مثل فرشاة أسنان نظيفة. يمكن ترطيب الفرشاة بكمية صغيرة من الماء الميسيلار (الذي يحتوي على PEG-6)، ثم تنظيف الشبكة بحركات دائرية خفيفة لمدة نحو 15 ثانية. بعد ذلك، اقلب السماعة، وامسحها بلطف بمنشفة ورقية، مع تجنب الضغط، أو استخدام أدوات حادة، واحرص على عدم دخول السوائل إلى داخل السماعة.

4. تنظيف الحواف والزوايا

في حال وجود أوساخ أو شمع عالق في الحواف، يمكن استخدام أعواد القطن، لكن برفق شديد، لتجنب دفع الأوساخ إلى داخل الفتحات.

5. التجفيف قبل الاستخدام

بعد الانتهاء من التنظيف، تأكد من أن جميع الأجزاء جافة تماماً، سواء أطراف السيليكون، أو جسم السماعة، قبل إعادة تركيبها، أو وضعها في علبة الشحن. وتنصح «أبل» بترك السماعات لتجف في الهواء لمدة لا تقل عن ساعتين.

كم مرة يجب تنظيف سماعات «إيربودز»؟

يعتمد ذلك على طبيعة استخدامك. إذا كنت تستخدم السماعات يومياً للمكالمات، أو الموسيقى، فإن تنظيفها مرة واحدة أسبوعياً يُعد كافياً للحفاظ على نظافتها. أما إذا كنت تستخدمها أثناء ممارسة الرياضة، أو في الأجواء الحارة، فمن الأفضل تنظيفها قبل أو بعد كل استخدام، لأن العرق والرطوبة يتراكمان بسرعة. كما يُنصح بزيادة وتيرة التنظيف خلال فصل الصيف، أو عند السفر إلى مناطق حارة، حيث تزداد احتمالية تراكم الرطوبة، والبكتيريا.


3 نماذج ذكاء اصطناعي جديدة من «مايكروسوفت» للصوت والصورة والنص

أطلقت «مايكروسوفت» 3 نماذج «MAI» جديدة تشمل تحويل الصوت إلى نص وتوليد الصوت وإنشاء الصور (مايكروسوفت)
أطلقت «مايكروسوفت» 3 نماذج «MAI» جديدة تشمل تحويل الصوت إلى نص وتوليد الصوت وإنشاء الصور (مايكروسوفت)
TT

3 نماذج ذكاء اصطناعي جديدة من «مايكروسوفت» للصوت والصورة والنص

أطلقت «مايكروسوفت» 3 نماذج «MAI» جديدة تشمل تحويل الصوت إلى نص وتوليد الصوت وإنشاء الصور (مايكروسوفت)
أطلقت «مايكروسوفت» 3 نماذج «MAI» جديدة تشمل تحويل الصوت إلى نص وتوليد الصوت وإنشاء الصور (مايكروسوفت)

أطلقت «مايكروسوفت» 3 نماذج جديدة من الذكاء الاصطناعي ضمن منصة «فاوندري (Foundry)» في خطوة تعكس توجهاً واضحاً نحو بناء منظومة متكاملة تدعم التطبيقات متعددة الوسائط، بدلاً من الاعتماد على نماذج منفصلة لكل استخدام. وبحسب ما ورد في مدونة رسمية للشركة، تشمل النماذج الجديدة «MAI-Transcribe-1» لتحويل الصوت إلى نص، و«MAI-Voice-1» لتوليد الصوت، و«MAI-Image-2» لإنشاء الصور، وهي متاحة حالياً للمطورين عبر «Foundry» وبيئة «MAI Playground».

من نماذج منفصلة إلى منظومة متكاملة

تعكس هذه الخطوة تحولاً في طريقة بناء تطبيقات الذكاء الاصطناعي. فبدلاً من الاعتماد على نموذج واحد شامل، تتجه «مايكروسوفت» نحو تطوير مجموعة من النماذج المتخصصة، كل منها يعالج نوعاً مختلفاً من بيانات الصوت والصورة والنص.

هذا النهج ينسجم مع الاتجاه الأوسع في الصناعة نحو ما يُعَرف بـ«الذكاء الاصطناعي متعدد الوسائط»، حيث يمكن للأنظمة التعامل مع أنواع مختلفة من المدخلات والمخرجات ضمن تجربة واحدة متكاملة.

أحد أبرز النماذج الجديدة هو «MAI-Transcribe-1»، المصمم لتحويل الكلام إلى نَصٍّ بدقة عالية، حتى في البيئات غير المثالية مثل الضوضاء أو تسجيلات الاجتماعات.

تشير «مايكروسوفت» إلى أنَّ النموذج يدعم 25 لغة من أكثر اللغات استخداماً، ويحقِّق أداءً متقدماً وفق معايير قياس معتمدة، مع سرعة معالجة أعلى مقارنة بأنظمة سابقة. كما تمَّ تصميمه للعمل في ظروف واقعية، مثل مراكز الاتصال أو الاجتماعات، حيث تتداخل الأصوات وتختلف جودة التسجيل. هذا التركيز على «البيئة الواقعية» يعكس تحولاً في تصميم النماذج، من الأداء في المختبرات إلى الأداء في الاستخدام الفعلي.

تركز النماذج على الأداء في البيئات الواقعية وسرعة المعالجة وليس فقط نتائج المختبر (مايكروسوفت)

الصوت الاصطناعي

يركز نموذج «MAI-Voice-1» على توليد الصوت، مع محاولة جعل النتائج أكثر واقعية من حيث النبرة والتعبير. ووفقاً للمدونة، يمكن للنموذج إنتاج صوت طبيعي يحافظ على هوية المتحدث حتى في المحتوى الطويل. كما يتيح إنشاء أصوات مخصصة باستخدام عينة قصيرة من التسجيل الصوتي. ويتميَّز كذلك بسرعة عالية، حيث يمكنه توليد دقيقة من الصوت خلال ثانية واحدة تقريباً، ما يفتح المجال أمام استخدامه في تطبيقات مثل المساعدات الصوتية، أو المحتوى الصوتي التفاعلي.

توليد الصور

أما النموذج الثالث الذي يدعى «MAI-Image-2» فيركز على إنشاء الصور مع تحسينات في السرعة والأداء. تشير «مايكروسوفت» إلى أنَّ النموذج يوفِّر سرعة توليد أعلى تصل إلى ضعفين مقارنة بالإصدارات السابقة، مع الحفاظ على جودة مناسبة للاستخدامات الإبداعية مثل التصميم والإعلانات. كما تمَّ تصميمه ليلبي احتياجات المُصمِّمين وصناع المحتوى، من خلال تحسين عناصر مثل الإضاءM، ودقة التفاصيل، والنصوص داخل الصور.

صور أنشأتها «WPP» باستخدام «MAI-Image-2» (مايكروسوفت)

السرعة والتكلفة... عاملان حاسمان

إلى جانب الأداء، تركز «مايكروسوفت» على جانب التكلفة الذي لا يقل أهمية. تشير الشركة إلى أنَّ النماذج الجديدة تقدِّم ما تصفه بـ«أفضل توازن بين السعر والأداء»، مع كفاءة أعلى في استخدام الموارد، بما في ذلك تقليل استهلاك وحدات المعالجة الرسومية (GPU). هذا الجانب يعكس واقعاً متزايد الأهمية في سوق الذكاء الاصطناعي، حيث لم يعد التحدي في بناء النماذج فقط، بل في تشغيلها على نطاق واسع بتكلفة مقبولة.

لا يمكن فصل هذا الإعلان عن استراتيجية «مايكروسوفت» الأوسع في مجال الذكاء الاصطناعي. فإطلاق نماذج داخلية يُعزِّز استقلالية الشركة، ويقلل اعتمادها على شركاء خارجيِّين، في ظلِّ منافسة متزايدة مع شركات مثل «غوغل»، و«أمازون». كما أنَّ دمج هذه النماذج داخل منتجات مثل «كوبايلوت (Copilot)»، و«تيمز (Teams)»، و«بينغ (Bing)» يشير إلى توجه نحو تحويل الذكاء الاصطناعي من ميزة إضافية إلى بنية أساسية داخل المنتجات الرقمية.

تسعى «مايكروسوفت» إلى تحقيق توازن بين الكفاءة والتكلفة في تشغيل نماذج الذكاء الاصطناعي (مايكروسوفت)

من النماذج إلى التطبيقات

رغم أنَّ الإعلان يركز على النماذج نفسها، فإنَّ القيمة الحقيقية تظهر في كيفية استخدامها. تَوفُّر هذه الأدوات للمطورين يعني إمكانية بناء تطبيقات تجمع بين الصوت والنص والصورة ضمن تجربة واحدة.

هذا قد يفتح المجال أمام تطبيقات جديدة، مثل أنظمة تحويل الاجتماعات إلى نصوص قابلة للبحث، ومساعدات صوتية أكثر واقعية، وأدوات تصميم مدعومة بالذكاء الاصطناعي.

في المجمل، يشير إطلاق هذه النماذج إلى مرحلة جديدة في تطور الذكاء الاصطناعي، حيث لم يعد التركيز على نموذج واحد قوي، بل على منظومة متكاملة من النماذج المتخصصة. وبينما لا تزال المنافسة في هذا المجال في مراحل متسارعة، فإنَّ ما يتضح هو أن الاتجاه العام يتجه نحو بناء بنى تحتية للذكاء الاصطناعي، وليس مجرد أدوات منفصلة.