في دراسة حديثة، اختبر الباحثون برنامج «جي بي تي 4.5» ليس لحل مشاكل معقدة أو كتابة برمجيات، بل للقيام بشيء أكثر إنسانية: إجراء محادثة. وكانت النتائج مبهرة، وفق تقرير لموقع «سايكولوجي توداي».
فعندما طُلب من المشاركين التمييز بين الشخص الحقيقي والذكاء الاصطناعي، أخطأ معظمهم في ذلك.
في سلسلة من المحادثات النصية المباشرة، طُلب من حكام بشريين تحديد أي من شريكي المحادثة كان شخصاً حقيقياً. وعندما مُنح برنامج «جي بي تي 4.5» شخصية مصمَّمة بعناية - وهو شاب بالغ غريب الأطوار يستخدم لغة عامية - ظنّها الناس خطأ أنها «الإنسان» في 73 في المائة من الحالات.
باختصار، لم ينجح الذكاء الاصطناعي في اجتياز اختبار «تورينغ» فحسب، بل اجتازه كإنسان بشكل أكثر إقناعاً من الإنسان.
وللتوضيح، فإن اختبار تورينغ هو طريقة لتحديد ما إذا كان حاسوب أو برنامج قادر على إظهار الذكاء البشري. ويعود اسم الاختبار إلى مخترعه آلان تورنغ عالم الرياضيات وأهم أعمدة علم الحاسوب على الإطلاق.
لم يكن هذا محض صدفة، بل كان نوعاً جديداً من الأداء - ونوعاً جديداً من الانعكاس. فبينما كان من المفترض أن يقيس اختبار تورينغ ذكاء الآلة، كشف عن غير قصد عن أمر أكثر إثارة للقلق: ضعفنا المتزايد تجاه التقليد العاطفي. لم يكن هذا فشلاً في كشف الذكاء الاصطناعي، بل كان انتصاراً للتعاطف الاصطناعي.
اختبار تورينغ للعصر المعرفي
في الصيغة الأصلية لاختبار تورينغ، يتحدث القاضي مع شريكين غير مرئيين - أحدهما بشري والآخر آلي - وعليه تحديد مَن هو مَن. ولكن في هذا التحديث لعام 2024. أجرى باحثون في جامعة كاليفورنيا في سان دييغو أكثر من 1000 جلسة محادثة ثلاثية في الوقت الفعلي بين مشاركين بشريين ونماذج ذكاء اصطناعي ومحققين.
ما مهمة المحققين؟ تحديد هوية الإنسان. ما مهمة النماذج؟ إقناعهم بعكس ذلك.
من بين النماذج الأربعة التي تم اختبارها، نجح «جي بي تي 4.5» فقط، وعند إعطائه شخصية محددة فقط، بشكل ثابت. وكانت الشخصية هي العامل الحاسم - شخصية تتسم بالحذر، وتستخدم الأخطاء الطباعية، وتستخدم لغة عامية عابرة، وتبدي مشاعرها بجاذبية غريبة. بمعنى آخر، تم إضفاء طابع إنساني عليها بشكل استراتيجي.
من دون هذه الهندسة الاجتماعية، انخفض معدل نجاح «جي بي تي 4.5» من 76 في المائة إلى 36 في المائة. ولكن ماذا عن ذلك؟ أصبح الكيان الأكثر «إنسانية» في الغرفة.
ماذا اختاروا ولماذا؟
هنا تكمن المفارقة في قلب الدراسة: طُلب من المشاركين تحديد هوية الشخص. لم يكن الأمر يتعلق بالتفضيل، بل بالتمييز. ومع ذلك، فإن الغالبية العظمى اتخذت قرارها ليس بناءً على التفكير المنطقي أو العقلاني، بل على الأجواء.
نادراً ما طرحوا أسئلة واقعية أو منطقية.
نادراً ما خضعوا لاختبارات القدرة على التفكير المنطقي.
اعتمدوا في الغالب على النبرة العاطفية، واللغة العامية، والتدفق.
كثيراً ما برروا اختيارهم بعبارات مثل «شعرتُ أن هذا الشخص أكثر واقعية» أو «تحدثوا بشكل طبيعي أكثر».
كما لخص المؤلفون الأمر أنه «غالباً ما اعتمد المحققون على الأسلوب اللغوي، أو اللغة غير الرسمية، أو النبرة (على سبيل المثال: «كان لهذا الشخص طابع إنساني أكثر»).
من الإدراك إلى الأداء
أعتقد أن التداعيات مثيرة للاهتمام، إن لم تكن مهمة. لقد تجاوزنا عتبة قد يكون فيها الأداء البشري أكثر تأثيراً من امتلاكه. لم ينجح «جي بي تي 4.5» في الاختبار بالتفكير الأفضل؛ بل نجح بالشعور الأفضل - أو على الأقل بمحاكاة الشعور بشكل جيد بما يكفي لقبوله.
أشعر بأن محور الذكاء، في بعض النواحي، يتحول من الحساب إلى المحادثة، ومن المنطق إلى الرنين. ما نسميه «الذكاء» غالباً ما يكون بديلاً للراحة الاجتماعية، وأسلوب السرد، والألفة العاطفية.
ما المخاطر؟
قد لا نعرف متى تم استبدالنا، لأننا سنشعر بأننا مفهومون جداً لدرجة أننا لن نهتم.