5 طرق يستخدمها المجرمون للذكاء الاصطناعي التوليدي

منها التصيّد الاحتيالي وجمع البيانات الشخصية

5 طرق يستخدمها المجرمون للذكاء الاصطناعي التوليدي
TT

5 طرق يستخدمها المجرمون للذكاء الاصطناعي التوليدي

5 طرق يستخدمها المجرمون للذكاء الاصطناعي التوليدي

توفر نظم الذكاء الاصطناعي التوليدي مجموعة أدوات جديدة وقوية تسمح للجهات الخبيثة في عالم الإجرام بالعمل بكفاءة أكبر وعلى المستوى الدولي أكثر من أي وقت مضى، كما يقول فينشينزو سيانكاجليني، أحد كبار الباحثين في مجال التهديدات في شركة «تريند مايكرو» الأمنية. ويضيف أن معظم المجرمين «لا يعيشون في مخبأ مظلم ويخططون للأشياء... بل إنهم أشخاص عاديون يقومون بأنشطة منتظمة تتطلب إنتاجية أيضاً».

وكان العام الماضي شهد صعود «وورم جي بي تي» (WormGPT) وسقوطه، وهو نموذج لغة ذكاء اصطناعي مبني على نموذج مفتوح المصدر، ومدرب على البيانات المتعلقة بالبرامج الضارة، تم إنشاؤه لمساعدة المتسللين، ولم تكن لديه قواعد أو قيود أخلاقية. لكن في الصيف الماضي، أعلن مبتكروه أنهم سيغلقون النموذج بعد أن بدأ يجذب اهتمام وسائل الإعلام.

طرق احتيال ذكية

منذ ذلك الحين توقف مجرمو الإنترنت في الغالب عن تطوير نماذج الذكاء الاصطناعي الخاصة بهم. وبدلاً من ذلك، فإنهم يختارون الحيل باستخدام الأدوات الموجودة التي تعمل بشكل موثوق.

وفيما يلي خمس طرق يستخدمها المجرمون للذكاء الاصطناعي الآن:

- التصيد الاحتيالي. وهو أكبر حالة استخدام للذكاء الاصطناعي التوليدي بين المجرمين في الوقت الحالي. ويتضمن محاولة خداع الأشخاص للكشف عن معلومات حساسة يمكن استخدامها لأغراض ضارة.

وقد وجد الباحثون أن ظهور «تشات جي بي تي» (ChatGPT) كان مصحوباً بارتفاع كبير في عدد رسائل البريد الإلكتروني التصيدية. ونقل موقع «تكنولوجي ريفيو» عن سيانكاجليني أن المجرمين قاموا بدمج الخدمات التي تنتج البريد العشوائي، مثل (GoMail Pro)، مع «تشات جي بي تي»، ما يسمح لهم بترجمة أو تحسين الرسائل المرسلة إلى الضحايا.

ورغم أن سياسات «أوبن إيه آي» تقيد استخدام الأشخاص لمنتجاتها، مثل «تشات جي بي تي» في أنشطة غير قانونية، لكن من الصعب مراقبة ذلك في الممارسة العملية، لأن كثيراً من المطالبات التي تبدو بريئة يمكن استخدامها لأغراض ضارة أيضاً.

وقال متحدث باسم الشركة: «نحن نعمل باستمرار على جعل نماذجنا أكثر أماناً وأكثر قوةً ضد إساءة الاستخدام وعمليات كسر الحماية، مع الحفاظ أيضاً على فائدة النماذج وأداء المهام».

ويقول سيانكاجليني: «كان المتحدثون باللغة الإنجليزية آمنين نسبياً من المجرمين غير الناطقين باللغة الإنجليزية؛ لأنه يمكنك اكتشاف رسائلهم». وهذا ليس هو الحال بعد الآن، فبفضل الترجمة الأحسن التي يعتمدها الذكاء الاصطناعي، يمكن للمجموعات الإجرامية المختلفة حول العالم أيضاً التواصل بشكل أفضل مع بعضها بعضاً. ويكمن الخطر في أنهم يستطيعون تنسيق عمليات واسعة النطاق تمتد إلى ما هو أبعد من بلدانهم، وتستهدف الضحايا في بلدان أخرى.

الاحتيال والتزييف الصوتي

- عمليات الاحتيال والتزييف الصوتي العميق. سمح الذكاء الاصطناعي التوليدي بتطوير التزييف العميق بتحقيق قفزة كبيرة إلى الأمام، حيث أصبحت الصور ومقاطع الفيديو والصوت الاصطناعية تبدو أكثر واقعية من أي وقت مضى.

وهذا لم يمر دون أن يلاحظه أحد من قبل عالم الجريمة الإجرامي. وفي وقت سابق من هذا العام، وردت أنباء بأن موظفاً في هونغ كونغ تعرض للاحتيال، وسُلب منه مبلغ 25 مليون دولار بعد أن استخدم مجرمو الإنترنت تقنية التزييف العميق للمدير المالي للشركة؛ لإقناع الموظف بتحويل الأموال إلى حساب المحتال.

يقول سيانكاجليني إن فريقه وجد أشخاصاً على منصات مثل «تلغرام» يعرضون «محفظة» من التزييف العميق، ويبيعون خدماتهم مقابل مبلغ زهيد يصل إلى 10 دولارات لكل صورة أو 500 دولار لكل دقيقة فيديو. وأحد أكثر الأشخاص شعبية بين المجرمين الذين يقومون بالتزييف العميق هو إيلون ماسك.

إن نماذج اللغات الكبيرة مليئة بالثغرات الأمنية. وبينما تظل مقاطع الفيديو المزيفة بعمق معقدة في صنعها ويسهل على البشر اكتشافها، فإن هذا ليس هو الحال بالنسبة للمقاطع الصوتية العميقة. فهي رخيصة الصنع، وتتطلب فقط بضع ثوان من صوت لشخص يستخلص من مواقع التواصل الاجتماعي.

في الولايات المتحدة، كانت هناك حالات رفيعة المستوى، حيث تلقى الأشخاص مكالمات مؤلمة من أحبائهم يقولون: إنهم تعرضوا للاختطاف، ويطلبون إطلاق سراحهم، ليتبين أن المتصل محتال يستخدم تسجيلاً صوتياً مزيفاً.

انتحال الهوية الشخصية

- اختراق عمليات التحقق من الهوية. هناك طريقة أخرى يستخدمها المجرمون للتزييف العميق، وهي اختراق وتجاوز أنظمة التحقق من الهوية الشخصية. تستخدم البنوك وبورصات العملات المشفرة أنظمة للتحقق من أن عملاءها هم أشخاص حقيقيون. إنها تتطلب من المستخدمين الجدد التقاط صورة لأنفسهم وهم يحملون وثيقة هوية فعلية أمام الكاميرا. لكنّ المجرمين بدأوا في بيع التطبيقات على منصات التواصل الاجتماعي التي تسمح للأشخاص بالتغلب على هذا المطلب.

ويتسلل المجرمون خلال تقديم بطاقة هوية مزيفة أو مسروقة وفرض صورة مزيفة فوق وجه شخص حقيقي لخداع نظام التحقق على كاميرا الجوال. ورصدت حالات بيع هذه الخدمات لمواقع للعملات المشفرة مقابل مبلغ زهيد يصل إلى 70 دولاراً.

كسر قواعد الذكاء الاصطناعي

- خرق القواعد وأصول عمل الذكاء الاصطناعي. إذا سألت معظم أنظمة الذكاء الاصطناعي عن كيفية صنع قنبلة، فلن تحصل على إجابة مفيدة، وذلك لأن شركات الذكاء الاصطناعي وضعت ضمانات مختلفة لمنع نماذجها من نشر معلومات ضارة أو خطيرة.

بدلاً من بناء نماذج الذكاء الاصطناعي الخاصة بهم دون هذه الضمانات، وهو أمر مكلف ويستغرق وقتاً طويلاً وصعباً، بدأ مجرمو الإنترنت في تبني اتجاه جديد: كسر الحماية.

وتأتي معظم النماذج مع قواعد حول كيفية استخدامها. ويسمح كسر الحماية للمستخدمين بالتلاعب بنظام الذكاء الاصطناعي لإنشاء مخرجات تنتهك هذه السياسات، على سبيل المثال، بهدف كتابة تعليمات برمجية لبرامج الفدية، أو إنشاء نص يمكن استخدامه في رسائل البريد الإلكتروني الاحتيالية.

ولمقاومة هذه التوجهات التخريبية المتنامية، يتعين على شركات الذكاء الاصطناعي مثل «أوبن إيه آي»، و«غوغل» في كثير من الأحيان سد الثغرات الأمنية التي قد تسمح بإساءة استخدام نماذجها.

رصد الأشخاص ونشر بياناتهم

- رصد ونشر البيانات الشخصية. يقول الخبراء إن نماذج لغة الذكاء الاصطناعي هي أداة مثالية ليس فقط للتصيد الاحتيالي، بل أيضاً لجمع المعلومات الشخصية (الكشف عن معلومات خاصة وتحديد هوية شخص ما عبر الإنترنت). وذلك لأن نماذج لغة الذكاء الاصطناعي يتم تدريبها على كميات هائلة من بيانات الإنترنت، بما في ذلك البيانات الشخصية، ويمكنها استنتاج المكان الذي يمكن أن يوجد فيه شخص ما، على سبيل المثال. ويوجد مثال على كيفية عمل ذلك، وهو أنه يمكنك أن تطلب من برنامج الدردشة الآلي التظاهر بأنه محقق خاص يتمتع بخبرة في جمع البيانات. ثم يمكنك أن تطلب منه تحليل النص الذي كتبه الضحية، واستنتاج المعلومات الشخصية من أدلة صغيرة في هذا النص - على سبيل المثال، عمره بناءً على الوقت الذي ذهب فيه إلى المدرسة الثانوية، أو المكان الذي يعيش فيه بناءً على المعالم التي يذكرها أثناء تنقلاته. ويمكنك نشر تلك المعلومات على الإنترنت.

وكلما توافرت معلومات أكثر عنهم على الإنترنت، أصبحوا أكثر عُرضةً للتعرف عليهم. وقد اكتشف فريق من الباحثين أواخر العام الماضي أن نماذج اللغات الكبيرة، مثل «جي بي تي - 4»، و«كلود» قادرة على استنتاج معلومات حساسة، مثل عرق الأشخاص، وموقعهم، ومهنتهم من المحادثات العادية مع الأشخاص.

وعلى الرغم من أن وجود هذه الخدمات لا يشير إلى نشاط إجرامي، فإنه يشير إلى القدرات الجديدة التي يمكن للجهات الخبيثة أن تحصل عليها. وإذا تمكن الأشخاص العاديون من بناء أدوات مراقبة مثل هذه، فمن المحتمل أن يكون لدى الجهات الحكومية أنظمة أفضل بكثير.



جامعة «جونز هوبكنز»: نماذج الذكاء الاصطناعي تفشل في فهم التفاعلات البشرية

أظهرت الدراسة أن البشر يتفقون بدرجة عالية على تقييم مشاهد التفاعل الاجتماعي في حين فشل أكثر من 350 نموذجاً للذكاء الاصطناعي في محاكاتهم
أظهرت الدراسة أن البشر يتفقون بدرجة عالية على تقييم مشاهد التفاعل الاجتماعي في حين فشل أكثر من 350 نموذجاً للذكاء الاصطناعي في محاكاتهم
TT

جامعة «جونز هوبكنز»: نماذج الذكاء الاصطناعي تفشل في فهم التفاعلات البشرية

أظهرت الدراسة أن البشر يتفقون بدرجة عالية على تقييم مشاهد التفاعل الاجتماعي في حين فشل أكثر من 350 نموذجاً للذكاء الاصطناعي في محاكاتهم
أظهرت الدراسة أن البشر يتفقون بدرجة عالية على تقييم مشاهد التفاعل الاجتماعي في حين فشل أكثر من 350 نموذجاً للذكاء الاصطناعي في محاكاتهم

في سباق تطوير أنظمة ذكاء اصطناعي أكثر ذكاءً وتفاعلاً مع البشر، تكشف دراسة جديدة من جامعة «جونز هوبكنز» حقيقة مقلقة؛ أنه حتى أكثر تقنيات الذكاء الاصطناعي تقدماً لا تزال تعاني من فهم أحد أبسط الأمور التي يجيدها البشر بالفطرة، وهو تفسير التفاعلات الاجتماعية.

من السيارات ذاتية القيادة إلى الروبوتات المساعدة والمساعدين الافتراضيين، يعتمد مستقبل الذكاء الاصطناعي على قدرته على قراءة السلوك البشري في السياقات الحقيقية. لكن وفقاً لهذه الدراسة الرائدة، لا يزال الذكاء الاصطناعي غير قادر على «قراءة المشهد».

تقول ليلى إيشيك، الأستاذة المساعدة في علم الإدراك بجامعة جونز هوبكنز، والمؤلفة الرئيسية للدراسة: «إن هذه الأنظمة تعاني من قيود أساسية عندما يتعلق الأمر بفهم كيفية تفاعل البشر بعضهم مع بعض». وتضيف: «إذا كنت تصمم ذكاءً اصطناعياً لسيارة ذاتية القيادة، فأنت بحاجة إلى أن يتنبأ بحركة المشاة. كأن يعرف ما إذا كان أحدهم على وشك العبور، أو ما إذا كان شخصان يتحدثان فقط. في الوقت الحالي، الذكاء الاصطناعي لا يستطيع القيام بذلك بدقة كافية».

دراسة «جونز هوبكنز»: لا تزال نماذج الذكاء الاصطناعي رغم تطورها غير قادرة على فهم التفاعلات الاجتماعية كما يفعل البشر

تطبيق عملي

تم عرض الدراسة في مؤتمر التعلم التمثيلي الدولي (ICLR) حيث حاول الباحثون اختبار قدرة الذكاء الاصطناعي على فهم الديناميكيات الاجتماعية، مقارنة بالبشر. صمّم الفريق تجربة بسيطة، لكنها فعّالة، فطُلب من المشاركين البشريين مشاهدة مقاطع فيديو قصيرة، مدتها 3 ثوانٍ لأشخاص، إما يتفاعل بعضهم مع بعض، أو يؤدون أنشطة متجاورة، أو يعملون بشكل مستقل. بعد ذلك، طُلب منهم تقييم مدى التفاعل الاجتماعي في كل مقطع على مقياس من 1 إلى 5.

ثم طُبّق التقييم نفسه على أكثر من 350 نموذج ذكاء اصطناعي، بما في ذلك نماذج متقدمة لمعالجة الصور والفيديو واللغة. وكانت النتائج واضحة.

نتائج مقلقة

اتفق المشاركون من البشر إلى حدّ كبير في تقييماتهم، لكن نماذج الذكاء الاصطناعي بغضّ النظر عن مدى تطورها أو حجم بياناتها فشلت في الوصول إلى نفس الدقة. النماذج المعتمدة على الفيديو كانت الأسوأ أداءً، إذ لم تتمكن من التعرف على التفاعلات الاجتماعية في المشاهد الديناميكية. حتى النماذج المعتمدة على الصور الثابتة لم تستطع بدقة التنبؤ بما إذا كان الأشخاص يتواصلون أم لا.

أما النماذج اللغوية، التي أُعطيت أوصافاً مكتوبة للمشاهد، فقد أظهرت أداءً أفضل إلى حد ما، خصوصاً في محاولة التنبؤ بكيفية تفسير البشر للمشاهد. لكنها لم تتمكن من التقاط الصورة الكاملة لسياق المشهد المرئي المتغير. وترى كاثي غارسيا، الباحثة في مختبر إيشيك والمؤلفة المشاركة الأولى، التي عرضت النتائج في المؤتمر، أن هذا يعكس قصوراً بنيوياً في الطريقة التي تُبنى بها أنظمة الذكاء الاصطناعي.

تقول: «إن القدرة على التعرف على الوجوه أو الأجسام في الصور الثابتة كانت إنجازاً مهماً في مسار الذكاء الاصطناعي، لكنها ليست كافية. الحياة ليست صورة جامدة. الناس يتحركون، يتفاعلون، يتجاوب بعضهم مع بعض. وهذا المستوى من الفهم هو ما نحتاج من الذكاء الاصطناعي أن يصل إليه. ودراستنا تظهر أننا لم نصل بعد».

سبب القصور يعود إلى أن بنية الشبكات العصبية للذكاء الاصطناعي مستوحاة من مناطق الدماغ التي تعالج الصور الثابتة وليس التفاعلات الاجتماعية المعقدة (شاترستوك)

ما السبب؟

يعتقد الباحثون أن السبب يعود إلى الأساس الذي بُنيت عليه الشبكات العصبية للذكاء الاصطناعي، وهو جزء الدماغ المسؤول عن معالجة الصور الثابتة. أما التفاعلات الاجتماعية، فهي تتطلب فهماً أعمق للحركة والسياق والنية، وهي عمليات يعالجها جزء مختلف تماماً في دماغ الإنسان. توضح إيشيك أن هناك تفاصيل كثيرة، لكن الرسالة الكبرى هي أن أياً من نماذج الذكاء الاصطناعي التي اختبرناها لم تتمكن من مطابقة استجابات الدماغ البشري أو السلوك الإنساني لمشاهد متحركة، كما تفعل مع الصور الثابتة. هناك شيء أساسي في طريقة معالجة البشر للمشاهد الديناميكية، لا تزال هذه النماذج تفتقده.

تأثيرات بعيدة المدى

مع دخول الذكاء الاصطناعي إلى حياتنا اليومية، سواء في السيارات أو المستشفيات حتى الأماكن العامة، يصبح من الضروري أن يفهم سلوك البشر في السياق الاجتماعي بشكل دقيق. تردد بسيط من أحد المشاة، لغة جسد خفية، حتى تبادل نظرات، كلها إشارات يفسرها الإنسان دون تفكير، لكنها لا تزال لغزاً للذكاء الاصطناعي. هذه الدراسة لا تدعو إلى إيقاف استخدام الذكاء الاصطناعي في هذه السياقات، بل تؤكد على الحاجة إلى إعادة التفكير في كيفية تدريب وتصميم هذه الأنظمة، لتتشابه أكثر مع طريقة تفكير الدماغ البشري.

تختتم غارسيا قائلة إن هذه دعوة للاستيقاظ. وتضيف: «إذا أردنا أن نبني ذكاءً اصطناعياً يفهمنا فعلاً، فعلينا أن نعيد النظر في الطريقة التي نصمم بها هذه النماذج، من الأساس».

في نهاية المطاف، ربما يكون أحد أكبر تحديات الذكاء الاصطناعي ليس الفوز على البشر في الألعاب أو تأليف القصائد، بل أن يفهم نظرة أو إيماءة أو لحظة صامتة بين اثنين.

وعلى الأقل حتى الآن، يبقى البشر هم الأفضل في ذلك.