تحيّزات خفية في أنظمة الذكاء الاصطناعي لفرز طلبات التوظيف

كشفت دراسة جديدة أن أدوات الذكاء الاصطناعي المستخدمة في فرز طلبات التوظيف قد تبدو عادلة عند تحليل نتائجها بصورة إجمالية، في حين تظهر أنماطاً من التحيز عند فحص كل وظيفة على حدة.

وحلل باحثون بيانات أكثر من 4.1 مليون طلب توظيف قدمها نحو 3.37 مليون شخص إلى 1746 وظيفة لدى 156 جهة عمل. واستخدمت جميع الطلبات أدوات تقييم طورتها شركة واحدة، ما أتاح للباحثين دراسة أثر اعتماد مؤسسات متعددة على أنظمة متشابهة في اتخاذ قرارات الفرز الأولي.

بعد التقدم للوظيفة، كان المرشحون يُحالون إلى اختبارات قائمة على الألعاب، صُممت لقياس صفات مثل التركيز وتحمّل المخاطر والسلوك الاجتماعي. وبناءً على طريقة أداء المتقدم، تصنف الخوارزمية الطلب ضمن فئتين، «موصى به» أو «غير موصى به».

وتستخدم الشركات هذه النتيجة لتحديد مَن ينتقل إلى مقابلة أو مرحلة لاحقة، ما يعني أن بعض الطلبات قد تُستبعد قبل أن يراجعها شخص.

وتوضح الدراسة أن أنظمة الفرز الخوارزمي أصبحت عنق زجاجة رئيسياً في التوظيف، خصوصاً مع ارتفاع أعداد الطلبات التي تتلقاها الشركات الكبرى. فإحدى الشركات، على سبيل المثال، تلقت أكثر من 3 ملايين طلب خلال عام واحد لشغل نحو 20 ألف وظيفة.

صورة مختلفة عند تفكيك البيانات

واستخدم الباحثون معيار «الأربعة أخماس» المعتمد في الولايات المتحدة لرصد الأثر المحتمل للتمييز. ويشير هذا المعيار إلى وجود علامة تحذير عندما تقل نسبة اختيار مجموعة معينة عن 80 في المائة من نسبة المجموعة الأعلى اختياراً. وعند تحليل جميع الطلبات لم تظهر النتائج مستوى واضحاً من التحيز يستدعي القلق وفق هذا المعيار.

لكن الصورة تغيّرت عند فحص كل وظيفة بصورة منفصلة. فقد وجد الباحثون أن 14.74 في المائة من طلبات المتقدمين الآسيويين، و25.87 في المائة من طلبات المتقدمين من ذوي البشرة الداكنة، قُدمت إلى وظائف أظهرت فيها الخوارزمية أثراً سلبياً على مجموعتهم. كما أظهرت الدراسة أن 10.62 في المائة من الوظائف التي شملها التحليل سجلت أثراً سلبياً ضد المتقدمين من ذوي البشرة الداكنة. وقدّر الباحثون أنه لو كانت معدلات التوصية متساوية بين المجموعات لكان نحو 40 ألف طلب إضافي لمتقدمين من ذوي البشرة الداكنة وآسيويين قد حصل على توصية بالانتقال إلى المرحلة التالية.

اعتماد شركات متعددة على الأداة نفسها قد يؤدي إلى تكرار أنماط الرفض عبر سوق العمل (غيتي)

لا حاجة لبيانات عرقية مباشرة

وتثير النتائج أسئلة حول الاعتقاد بأن الخوارزميات تصبح محايدة بمجرد حذف الاسم أو العرق أو غيرهما من البيانات الحساسة. فالاختبارات المستخدمة لا تعتمد صراحة على المعلومات الديموغرافية، كما أن الشركة المطورة تقول إنها صممت النماذج لتقليل الأثر غير المتوازن أثناء التدريب.

ومع ذلك، توصل الباحثون إلى أن التفاوت يمكن أن يظهر من خلال متغيرات أخرى ترتبط بصورة غير مباشرة بخلفية المتقدم. ويعرف ذلك أحياناً بالتمييز عبر المؤشرات البديلة؛ حيث تتعلم الخوارزمية أنماطاً تبدو محايدة، لكنها ترتبط عملياً بخصائص اجتماعية أو ديموغرافية.

«الثقافة الخوارزمية الواحدة»

ولا تقتصر المشكلة على أداء خوارزمية داخل شركة واحدة. فاعتماد جهات عديدة على المورد نفسه قد يجعل قرارات الرفض متشابهة عبر سوق العمل. ويطلق الباحثون على هذه الحالة اسم «الثقافة الخوارزمية الواحدة»، أي اعتماد عدد كبير من أصحاب القرار على النماذج نفسها أو على أنظمة متقاربة.

ووجدت الدراسة أن 4 في المائة من الأشخاص الذين تقدموا إلى 10 وظائف خضعت لهذه الاختبارات حصلوا على نتيجة «غير موصى به» في الوظائف العشر كلها. وكانت هذه النسبة أعلى مما كان متوقعاً لو اتخذت كل شركة قرارها بصورة مستقلة. ويعني ذلك أن المرشح الذي لا يناسب النمط الذي يفضله أحد النماذج قد يواجه الرفض مراراً لدى مؤسسات مختلفة، حتى عندما تتنوع الوظائف والشركات.

حللت الدراسة أكثر من 4.1 مليون طلب توظيف قُدمت إلى 1746 وظيفة لدى 156 جهة عمل (غيتي)

التقديم الواسع قد لا يحل المشكلة

استخدم الباحثون قابلية الخوارزميات لتكرار النتائج لمحاكاة ما قد يحدث لو تقدم المرشحون إلى عدد أكبر من الوظائف. وأظهرت المحاكاة أن كل متقدم تقريباً يمكن أن يحصل على توصية في وظيفة واحدة على الأقل إذا تقدم إلى جميع الوظائف المتاحة. لكن هذا السيناريو غير واقعي، لأن المتقدم لا يستطيع إرسال طلبات إلى مئات الوظائف. وحسب الدراسة، يحتاج الشخص إلى التقدم إلى نحو 25 وظيفة لتقليل احتمال الرفض الشامل إلى أقل من 0.1 في المائة، مقارنة بعشر وظائف فقط إذا كانت القرارات مستقلة تماماً.

التدقيق على مستوى كل وظيفة

وتوضح النتائج أن قياس العدالة على مستوى ملايين الطلبات مجتمعة قد يخفي تفاوتات مهمة في وظائف بعينها. لذلك يدعو الباحثون إلى تحليل النتائج بصورة مفصلة حسب الوظيفة والمجموعة، بدلاً من الاعتماد على متوسط عام يعطي انطباعاً بالحياد. كما يطالبون بمزيد من الشفافية وإتاحة البيانات للباحثين المستقلين، لأن معظم أنظمة التوظيف تعمل داخل بيئات مغلقة يصعب فحصها.

ولا تثبت الدراسة أن جميع أدوات التوظيف المعتمدة على الذكاء الاصطناعي متحيزة، لكنها تشير إلى أن استخدام الخوارزمية على نطاق واسع لا يضمن العدالة تلقائياً، وأن نظاماً واحداً قد يؤثر في فرص آلاف المتقدمين عبر شركات متعددة من دون أن يظهر ذلك بوضوح في التقارير الإجمالية.

تحيّزات خفية في أنظمة الذكاء الاصطناعي لفرز طلبات التوظيف