تقرير علمي: قدرة البشر على فهم «نوايا» الذكاء الاصطناعي في خطر

في خطوة نادرة من التعاون ورغم المنافسة، أصدر باحثون بارزون من أهم شركات الذكاء الاصطناعي «أوبن إيه آي» (OpenAI) و«أنثروبيك» (Anthropic) و«وميتا» (Meta) و«غوغل» (Google) و«ديب مايند» (DeepMind) ورقة بحثية مشتركة يحذرون فيها من أن القدرة على مراقبة «سلاسل التفكير» (Chain of Thought - CoT) داخل أنظمة الذكاء الاصطناعي تُمثل فرصة مهمة لتحسين السلامة، لكنها في الوقت نفسه فرصة هشة قد لا تدوم.

الورقة البحثية، بعنوان «قابلية مراقبة سلسلة التفكير: فرصة جديدة وهشة لسلامة الذكاء الاصطناعي». تشرح بالتفصيل كيف يمكن تتبع الخطوات العقلية التي تتبعها النماذج في أثناء التفكير، خصوصاً عندما تُعبر عنها بلغة بشرية ومراقبتها من أجل رصد أي نية خبيثة أو سلوك غير آمن قبل وقوعه. لكن الباحثين يحذرون من أن هذه القدرة قد لا تستمر إذا لم تحظَ بالعناية الكافية.

«سلسلة التفكير» تتيح فرصة نادرة لمراقبة نوايا الذكاء الاصطناعي قبل أن يتصرف (غيتي)

«سلسلة التفكير»... لغة العقل المكشوفة

في صلب هذه الورقة البحثية نجد مفهوم «سلسلة التفكير» (CoT)، وهي تشير إلى الطريقة التي «يفكر» بها النموذج بصوتٍ عالٍ من خلال خطوات منطقية مكتوبة بلغة طبيعية أثناء أداء مهمة معينة. يُستخدم هذا النهج على نطاق واسع لتحسين أداء نماذج اللغة الكبيرة، حيث يعزز دقة الاستجابات عن طريق تقسيم المهام المعقدة إلى خطوات صغيرة.

يرى الباحثون أن هذه الخاصية تُشكل فرصة نادرة للإشراف والمراقبة؛ لأن العديد من النماذج المتقدمة بما في ذلك تلك التي تطورها «أوبن إيه آي» (OpenAI) و«غوغل» (Google) تُنتج أثراً لغوياً أثناء عمليات التفكير، مما يجعل من الممكن رصد بوادر الانحراف أو النوايا الضارة مبكراً.

وقد أظهرت تجارب سابقة أن النماذج في بعض الأحيان «تقول الأمور بوضوح» في سلسلة تفكيرها، مثل: «دعونا نخترق النظام» أو «أنقل الأموال لأن الموقع طلب ذلك»، ما يمكن أن يُكتشف عبر أدوات المراقبة بسهولة أكبر مقارنة برصد الأفعال فقط.

أهمية «سلاسل التفكير»

يقدم الباحثون سببين رئيسيين يجعلان سلسلة التفكير فرصة واقعية للمراقبة وهو الضرورة حيث تتطلب المهام المعقدة تفكيراً متسلسلاً، لا تستطيع النماذج إكمال المهمة إلا إذا قامت بـ«التفكير بصوت عالٍ»، أي عبر لغة مفهومة. هذا يُتيح مراقبة خطوات التفكير التي تمر عبر ما يشبه «الذاكرة العاملة» في النماذج، وبالتالي الكشف عن نواياها. ثانياً، الميول الطبيعية للتفكير بلغة بشرية، حتى عندما لا يكون التفكير العلني ضرورياً، تميل بعض النماذج إلى التعبير عن خطواتها باللغة نتيجة تدريبها على بيانات بشرية، مما يعزز من الشفافية. هذان العاملان يخلقان ما يسميه الباحثون «سطح مراقبة»، يمكن من خلاله فهم أهداف النموذج بشكل أفضل قبل أن يتصرف.

يوصي الباحثون بتطوير أدوات تقييم متقدمة لقابلية المراقبة واستخدامها في قرارات النشر والتوسع.

فرصة هشة في خطر

رغم هذه المزايا، يُحذر الباحثون من أن قابلية مراقبة سلاسل التفكير قد تكون عرضية ومؤقتة. ويؤكدون أن هذا المستوى من الشفافية قد يكون ناتجاً عن الأساليب الحالية في تدريب النماذج، والتي قد تتغير في المستقبل.

تشمل التهديدات التي قد تقوّض قابلية مراقبة سلسلة التفكير عدداً من التحولات التقنية والمنهجية المتسارعة. من ذلك، الاعتماد المتزايد على التدريب المعزز الموجّه بالنتائج فقط، ما قد يقلّل من اهتمام النموذج بشرح خطواته بوضوح. إلى جانب ذلك، فإن تطبيق الإشراف المباشر على طريقة التفكير قد يدفع النماذج لإنتاج مخرجات «آمنة شكلياً»، لكنها لا تعبّر عن منطقها الحقيقي، مما يُضعف صدق سلسلة التفكير. كما أن ظهور ضغوط غير مباشرة، كوعي النموذج بوجود مراقبة، قد يحفّزه على إخفاء أو تحوير تفكيره لتجنّب الاكتشاف. ولا تقل خطورة عن ذلك الهندسات الجديدة التي تعتمد على التفكير في فضاءات كامنة وغير لغوية؛ إذ قد تؤدي إلى اختفاء سلسلة التفكير بالكامل وفقدان الشفافية. لهذا، يرى الباحثون أن الحفاظ على هذه القدرة التفسيرية يتطلب جهداً متعمداً قبل أن تصبح غير قابلة للاسترداد.

الورقة البحثية: قابلية مراقبة الذكاء الاصطناعي تمثل طبقة أمان إضافية لكنها هشة وتتطلب حماية واعية (شاترستوك)

ما الذي يجب فعله الآن؟

اقترح الباحثون سلسلة من التوصيات العاجلة بهدف الحفاظ على قابلية مراقبة سلسلة التفكير وتعزيز دورها في سلامة النماذج المتقدمة. أولى هذه التوصيات هي تطوير أدوات تقييم دقيقة وقادرة على قياس هذه القابلية بفاعلية؛ إذ إن الأدوات الحالية لا تزال محدودة في نطاقها وتطبيقها. كما شددوا على ضرورة تحديد معايير واضحة للحكم على ما إذا كان النموذج «قابلاً للمراقبة»، أي وضع حدود دنيا لمستوى الشفافية المطلوب قبل الاعتماد على سلسلة التفكير كطبقة أمان موثوقة. وإلى جانب ذلك، دعا الباحثون إلى اختبار النماذج في بيئات خصومية تحاكي محاولات التمويه أو الإخفاء، من أجل معرفة مدى قدرتها على إخفاء نواياها حتى دون تدريب صريح على ذلك. كما أكدوا أهمية إدراج قابلية المراقبة كعنصر أساسي في قرارات النشر والتوسع، تماماً كما تُؤخذ بعين الاعتبار معايير الأداء والكفاءة والأخلاقيات. وفي هذا السياق، حذر الباحثون من خطورة التوجه نحو تزييف مظهر سلسلة التفكير لتبدو «آمنة» شكلياً فقط، في محاولة لتجنّب الرقابة القانونية أو الضغوط المجتمعية؛ لأن هذا النهج من شأنه أن يُفرغ الشفافية من مضمونها ويقوّض دورها في تعزيز الأمان الحقيقي.

طبقة أمان تستحق الحماية

في سياق أوسع من البحث في سلامة الذكاء الاصطناعي، تُعد مراقبة سلسلة التفكير أداة نادرة وغير تدخّلية تسمح بفهم طريقة تفكير النماذج، من دون الحاجة إلى تحليل معقد للبُنى الداخلية للنموذج.

لكن مع تزايد قدرات النماذج، وتطور وعيها بالسياق والرقابة، قد تختفي هذه النافذة ما لم يتم الحفاظ عليها عمداً. الورقة البحثية لا تقدم فقط تحذيراً بل أيضاً دعوة مفتوحة للباحثين والمطورين: استخدموا قابلية المراقبة الحالية على أفضل وجه، وادرسوا كيف يمكن الحفاظ عليها وتطويرها لتكون طبقة دفاع فعالة ضمن منظومة أمان متعددة الطبقات.

في النهاية، قد تكون القدرة على «الاستماع إلى تفكير الذكاء الاصطناعي» إحدى آخر وأفضل فرصنا لفهمه والتحكم فيه قبل أن يتصرف خارج السيطرة.

تقرير علمي: قدرة البشر على فهم «نوايا» الذكاء الاصطناعي في خطر

ورقة مشتركة لأهم باحثي شركات الذكاء الاصطناعي