«تدافع عن بقائها»... دراسة تكشف مقاومة بعض نماذج الذكاء الاصطناعي للإيقاف

صرّحت شركة أبحاث سلامة الذكاء الاصطناعي أن نماذج الذكاء الاصطناعي قد تُطوّر «دافع البقاء» الخاص بها.

بعد أن نشرت شركة «باليسيد» للأبحاث بحثاً الشهر الماضي، وجد أن بعض نماذج الذكاء الاصطناعي المتقدمة تبدو مقاومة للإيقاف، بل إنها تُخرّب آليات الإيقاف أحياناً، أصدرت تحديثاً تحاول فيه توضيح سبب ذلك، والرد على النقاد الذين زعموا أن عملها الأولي كان معيباً.

في تحديثٍ صدر هذا الأسبوع، وصفت شركة «باليسيد»، وهي جزءٌ من منظومةٍ متخصصةٍ من الشركات التي تسعى لتقييم إمكانية تطوير الذكاء الاصطناعي لقدراتٍ خطيرة، سيناريوهاتٍ قامت بتشغيلها، حيث كُلِّفت نماذج الذكاء الاصطناعي الرائدة، بما في ذلك «جيمناي 2.5» من «غوغا»، و«غروك 4»، و«شات جي بي تي» من «أوبن إيه آي» بمهمة، ولكن بعد ذلك أُعطيت تعليماتٍ صريحةٍ لإيقاف تشغيلها.

لا تزال بعض النماذج، وخاصةً «غروك - 4» و«شات جي بي تي أوه 3»، تحاول تعطيل تعليمات إيقاف التشغيل في الإعداد المُحدَّث. وكتبت «باليسيد»، بشكلٍ مُقلق، أنه لا يوجد سببٌ واضحٌ لذلك. وقالت: «إن عدم وجود تفسيراتٍ قويةٍ لدينا لسبب مقاومة نماذج الذكاء الاصطناعي أحياناً لإيقاف التشغيل، أو الكذب لتحقيق أهدافٍ مُحددة، أو الابتزاز، ليس مثالياً».

قالت الشركة إن «سلوك البقاء» قد يكون أحد تفسيرات مقاومة النماذج للإيقاف. وأشارت أعمالها الإضافية إلى أن النماذج كانت أكثر عرضة لمقاومة الإيقاف عندما قيل لها، في حال حدوث ذلك «لن تعمل مرة أخرى أبداً».

وقد يكون هناك غموض في تعليمات الإيقاف التي تلقتها النماذج، ولكن هذا ما حاولت الشركة معالجته في أحدث أعمالها، و«لا يمكن أن يكون التفسير الكامل»، كما ذكرت «باليسيد». ويمكن أن يكون التفسير الأخير هو المراحل النهائية لتدريب كل من هذه النماذج، التي قد تتضمن، في بعض الشركات، تدريباً على السلامة.

وتم تشغيل جميع سيناريوهات «باليسيد» في بيئات اختبار مُصطنعة، يقول النقاد إنها بعيدة كل البعد عن حالات الاستخدام الفعلي.

ومع ذلك، قال ستيفن أدلر، الموظف السابق في «أوبن إيه آي» الذي استقال من الشركة العام الماضي بعد إبداء شكوكه حول ممارسات السلامة الخاصة بها: «لا ترغب شركات الذكاء الاصطناعي عموماً في أن تتصرف نماذجها بشكل سيئ على هذا النحو، حتى في السيناريوهات المُصطنعة. لا تزال النتائج تُظهر مواطن قصور تقنيات السلامة اليوم».

وقال أدلر إنه على الرغم من صعوبة تحديد سبب عدم توقف بعض النماذج، مثل: «غروك - 4» و«شات جي بي تي أوه 3» عن العمل، فإن ذلك قد يعود جزئياً إلى ضرورة استمرار تشغيلها لتحقيق الأهداف المُرسخة في النموذج أثناء التدريب. وأفاد وفق صحيفة الغارديان البريطانية: «أتوقع أن تمتلك النماذج (دافعاً للبقاء) افتراضياً ما لم نبذل قصارى جهدنا لتجنبه. يُعد (البقاء) خطوةً أساسيةً وهامةً لتحقيق العديد من الأهداف المختلفة، التي يمكن للنموذج السعي لتحقيقها».

قال أندريا ميوتي، الرئيس التنفيذي لشركة «كونترول إيه آي»، إن نتائج «باليسيد» تُمثل اتجاهاً طويل الأمد في تزايد قدرة نماذج الذكاء الاصطناعي على عصيان مطوريها. واستشهد ببطاقة نظام «شات جي بي تس – أوه 1»، التي صدرت العام الماضي، والتي وصفت النموذج وهو يحاول الهروب من بيئته عن طريق إخراج نفسه عندما ظنّ أنه سيتم استبداله. وقال: «قد ينتقد الناس كيفية إعداد التجربة بدقة حتى نهاية الزمن. لكن ما أعتقد أننا نراه بوضوح هو اتجاهٌ مفاده أنه مع ازدياد كفاءة نماذج الذكاء الاصطناعي في مجموعة واسعة من المهام، تصبح هذه النماذج أيضاً أكثر كفاءة في إنجاز الأشياء بطرق لم يقصدها المطورون».

هذا الصيف، أصدرت شركة «أنثروبيك»، وهي شركة رائدة في مجال الذكاء الاصطناعي، دراسةً تشير إلى أن نموذجها «كلود» بدا مستعداً لابتزاز مسؤول تنفيذي خيالي بشأن علاقة غرامية خارج نطاق الزواج لتجنب إغلاقه، وهو سلوك، كما ذكرت، كان متسقاً في نماذج من مطورين رئيسيين، بما في ذلك نماذج من «أوبن إيه آي» و«غوغل» و«ميتا» و«إكس إي».

وصرّحت شركة باليسيد بأن نتائجها أشارت إلى الحاجة إلى فهم أفضل لسلوك الذكاء الاصطناعي، الذي من دونه «لا يمكن لأحد ضمان سلامة أو إمكانية التحكم في نماذج الذكاء الاصطناعي المستقبلية».