دراسة تختبر قدرة الذكاء الاصطناعي على تقليد البشر في المحادثة

لم يعد اختبار آلان تورينغ عام 1950 سؤالاً نظرياً من تاريخ علوم الحاسوب. تعيد دراسة جديدة منشورة في دورية «Proceedings of the National Academy of Sciences» اختبار الفكرة في سياق نماذج اللغة الكبيرة، وخلُصت إلى أن بعض هذه النماذج يمكن أن تبدو بشرية إلى درجة تجعل المشاركين يختارونها أحياناً على أنها الإنسان الحقيقي في المحادثة.

الفكرة الأصلية للاختبار تعود إلى آلان تورينغ: هل تستطيع آلة أن تقلد المحادثة البشرية بطريقة تجعل الشخص الذي يحاورها غير قادر على التمييز بينها وبين إنسان؟ الجديد هنا أن الباحثين لم يكتفوا بسؤال عام عن قدرة الذكاء الاصطناعي على الإجابة، بل اختبروا قدرته على الظهور على أنه بشر في محادثات قصيرة ومباشرة.

محادثة ثلاثية

اعتمدت الدراسة على نسخة ثلاثية من اختبار «تورينغ»، حيث كان المشارك يتحدث في كل تجربة وفي الوقت نفسه مع طرفين عبر واجهة نصية. أحدهما إنسان والآخر نموذج ذكاء اصطناعي. وبعد خمس دقائق من المحادثة، كان عليه أن يقرر أي الطرفين هو الإنسان. وفي تجربة تكرار منفصلة، امتدت بعض المحادثات إلى 15 دقيقة.

شارك في التجارب ما يقارب 500 شخص من مجموعتين مستقلتين. طلاب من جامعة كاليفورنيا في سان دييغو ومشاركون عبر منصة «بروليفيك» (Prolific) المخصصة للأبحاث المدفوعة. هذا التصميم كان مهماً لأنه حاول اختبار النتيجة عبر أكثر من عينة، لا داخل مجموعة واحدة فقط.

نماذج أكثر إقناعاً

اختبر الباحثون أربعة أنظمة منها «GPT - 4.5» و«LLaMa - 3.1 - 405B» على أنها نماذج حديثة، إلى جانب «GPT - 4o» و«ELIZA» كونها خطوط مقارنة أقدم. وكانت النتيجة الأبرز أن «GPT - 4.5» اختير على أنه الإنسان في 73 في المائة من الحالات عندما أُعطي تعليمات لتبني شخصية بشرية معينة. أما «LLaMa - 3.1 - 405B» فاختير على أنه الإنسان في 56 في المائة من الحالات، وهي نسبة عَدّها الباحثون غير قابلة للتمييز إحصائياً عن البشر الذين قورن بهم النموذج.

في المقابل، كانت نتائج الأنظمة الأقدم أضعف بكثير. فقد اختير «ELIZA» على أنه الإنسان في نحو 23 في المائة من الحالات، بينما بلغت النسبة لـ«GPT - 4» نحو 21 في المائة. وهذا يعني أن النجاح لم يكن عاماً لكل الأنظمة، بل ارتبط بنماذج محددة وبطريقة إعدادها للمحادثة.

نجاح النماذج ارتبط بتوجيهها لتبني شخصية بشرية لا بمجرد قدرتها العامة على الإجابة عن الأسئلة (أ.ف.ب)

قوة الشخصية المصطنعة

النقطة الحاسمة في الدراسة أن النماذج لم تنجح فقط لأنها تعرف معلومات كثيرة. النجاح جاء عندما طُلب منها تبني «شخصية» بشرية محددة، بأسلوب في الحديث ونبرة وتفاصيل اجتماعية تجعلها أقل مثالية وأكثر شبهاً بالبشر.

عندما أُزيلت هذه التعليمات التفصيلية، تراجعت قدرة النماذج على الظهور كبشر بوضوح. فقد انخفضت نسبة اختيار «GPT - 4.5» إلى 36 في المائة، و«LLaMa - 3.1» إلى 38 في المائة. وهذا يشير إلى أن القدرة موجودة، لكنها تحتاج غالباً إلى توجيه واضح حول كيفية التصرف كبشر، لا مجرد القدرة العامة على الإجابة.

بكلمات أخرى، ما جعل النموذج مقنعاً لم يكن التفوق في المنطق أو الرياضيات، بل محاكاة السلوك الاجتماعي على أنه نبرة طبيعية وقدر من الدعابة وإجابات غير كاملة أحياناً وتردد أو بساطة تشبه ما يحدث في محادثة بشرية عادية.

ماذا يقيس الاختبار؟

تطرح الدراسة سؤالاً مهماً حول معنى اختبار «تورينغ» اليوم. فقد كان يُنظر إليه تاريخياً كونه اختباراً لقدرة الآلة على مضاهاة الذكاء البشري. لكن مع نماذج تستطيع الإجابة بسرعة عن عدد كبير من الأسئلة، يصبح الاختبار أقرب إلى قياس «الشبه البشري» في المحادثة، لا الذكاء بالمعنى العميق أو الفهم الحقيقي.

هذا الفرق مهم لأن نجاح النموذج في إقناع شخص بأنه إنسان لا يعني بالضرورة أنه يفهم العالم كما يفهمه الإنسان، أو يمتلك وعياً أو نية. لكنه يعني أن قدرته على تقليد أنماط التفاعل البشري أصبحت قوية بما يكفي لإرباك المستخدمين في محادثة قصيرة.

الدراسة تفتح أسئلة مهمة حول الثقة والشفافية خصوصاً عندما لا يعرف المستخدم إن كان يتحدث مع إنسان أم نظام آلي

مخاطر الثقة والخداع

أهمية النتيجة لا تقف عند حدود المختبر. فإذا كان المستخدم العادي لا يستطيع دائماً التمييز بين الإنسان والنموذج، فإن ذلك يفتح أسئلة مباشرة حول الثقة على الإنترنت. فقد تُستخدم هذه القدرة في خدمة مفيدة، مثل دعم العملاء أو التعليم أو المساعدة الشخصية. لكنها قد تُستخدم أيضاً في الاحتيال، أو التلاعب، أو حملات الإقناع السياسي والتجاري، خصوصاً إذا لم يكن الطرف الآخر يعرف أنه يتحدث مع نظام آلي.

يشير الباحثون إلى أن نماذج اللغة الكبيرة يمكن دفعها بسهولة نسبية إلى الظهور على أنها بشر عندما تُعطى التعليمات المناسبة. وهذا يجعل الشفافية أكثر أهمية، خصوصاً في المنصات التي يتفاعل فيها المستخدمون مع حسابات لا يعرفون هويتها الحقيقية.

ما الذي لا تقوله الدراسة؟

لا تقول الدراسة إن الذكاء الاصطناعي أصبح مثل الإنسان، ولا أنها تثبت وجود وعي أو فهم داخلي لدى النماذج، بل إن بعض النماذج الحديثة، في ظروف اختبار محددة، استطاعت تقليد المحادثة البشرية بما يكفي لأن يخطئ المشاركون في تحديد الطرف البشري. لذلك، القيمة الحقيقية للبحث ليست في إعلان انتصار الآلة على الإنسان، بل في توضيح أن الحدود بين المحادثة البشرية والمحادثة الاصطناعية أصبحت أقل وضوحاً. وهذا يجعل الحاجة أكبر إلى قواعد إفصاح أوضح، وأدوات تحقق أفضل، ووعي عام بأن الطرف المقابل في المحادثة الرقمية قد لا يكون دائماً إنساناً.

دراسة تختبر قدرة الذكاء الاصطناعي على تقليد البشر في المحادثة

حدود جديدة بين الإنسان والآلة