لماذا يتملّق «جي بي تي»… وما سرّ هوس «غروك» بالبيض في جنوب أفريقيا ؟

مقابلة مع ستيفن أدلر الباحث في سلامة وأمن الذكاء الاصطناعي

لماذا يتملّق «جي بي تي»… وما سرّ هوس «غروك» بالبيض في جنوب أفريقيا ؟
TT

لماذا يتملّق «جي بي تي»… وما سرّ هوس «غروك» بالبيض في جنوب أفريقيا ؟

لماذا يتملّق «جي بي تي»… وما سرّ هوس «غروك» بالبيض في جنوب أفريقيا ؟

شهدت أنظمة الذكاء الاصطناعي التوليدي أسابيع غريبة، حيث تحول «تشات جي بي تي» ChatGPT فجأةً إلى أداة للتملق، وأصبح «غروك» Grok، روبوت الدردشة التابع لـxAI، مهووساً بجنوب أفريقيا.

مقابلة لتفسير الأمور

تحدثت مجلة «فاست كومباني» مع ستيفن أدلر، وهو عالم أبحاث سابق في شركة «أوبن إيه آي» التي أنتجت «جي بي تي»، والذي قاد حتى نوفمبر (تشرين الثاني) 2024 أبحاثاً وبرامج متعلقة بالسلامة لإطلاق المنتجات لأول مرة، وأنظمة ذكاء اصطناعي طويلة الأجل أكثر تخميناً، حول كلا الأمرين، وما يعتقد بأنها أمور ربما حدثت خطأ.

صعوبات ضبط الذكاء الاصطناعي

*ما رأيك في هاتين الحادثتين اللتين وقعتا في الأسابيع الأخيرة: تملق «جي بي تي» المفاجئ، وهوس غروك بجنوب أفريقيا، هل خرجت نماذج الذكاء الاصطناعي عن السيطرة؟

- الأمر الأهم الذي أراه هو أن شركات الذكاء الاصطناعي لا تزال تواجه صعوبة في جعل أنظمة الذكاء الاصطناعي تتصرف بالطريقة التي نريدها، وأن هناك فجوة واسعة بين الطرق التي يحاول الناس اتباعها اليوم من جهة، سواءً كان ذلك بإعطاء تعليمات دقيقة للغاية في موجّه النظام، أو تغذية بيانات تدريب النموذج، أو ضبط البيانات التي نعتقد أنها يجب أن تُظهر السلوك المطلوب، وبين جعل النماذج تقوم بالأشياء التي نريدها بشكل موثوق، وتجنب الأشياء التي نريد تجنبها، من جهة أخرى.

السرعة والتنافس

* هل يمكن الوصول إلى هذه النقطة من اليقين؟

- لست متأكداً. هناك بعض الطرق التي أشعر بالتفاؤل بشأنها إذا ما أخذت الشركات وقتها (الطويل)، ولم تكن تحت ضغط لتسريع الاختبارات. إحدى الأفكار هي هذا النموذج الذي يرمز له بأنه يمارس التحكم control، بدلاً من أنه يمارس التوافق alignment.

لذا، فإن الفكرة هي أنه حتى لو «أراد» الذكاء الاصطناعي الخاص بك أشياءً مختلفة عما تريد، أو كانت لديه أهداف مختلفة عما تريد، فربما يمكنك إدراك ذلك بطريقة ما، ومنعه من اتخاذ إجراءات معينة، أو قول أو فعل أشياء معينة. لكن هذا النموذج غير مُعتمد على نطاق واسع حالياً، ولذلك أشعر بتشاؤم شديد حالياً.

* ما الذي يمنع اعتماده؟

-تتنافس الشركات على عدة جوانب، منها تجربة المستخدم، ويرغب الناس في استجابات أسرع. ومن المُرضي رؤية الذكاء الاصطناعي يبدأ في صياغة استجابته فوراً. لكن هناك تكلفة حقيقية على المستخدم نتيجةً لإجراءات تخفيف السلامة التي تُخالف ذلك.

وهناك جانب آخر، وهو أنني كتبتُ مقالاً عن أهمية أن تكون شركات الذكاء الاصطناعي حذرة للغاية بشأن طرق استخدام أنظمة الذكاء الاصطناعي الرائدة لديها داخل الشركة. فإذا كان لديك مهندسون يستخدمون أحدث نموذج «جي بي تي» لكتابة برمجيات لتحسين أمان الشركة، وإذا تبين أن أحد النماذج غير متوافق ويميل إلى الخروج عن إطار عمل الشركة، أو القيام بأي شيء آخر يُقوّض الأمان، فسيكون لدى العاملين إمكانية الوصول المباشر إليه إلى حد كبير.

شركات الذكاء الاصطناعي لا تفهم كيف يستخدمه موظفوها

لذا، فإن جزءاً من المشكلة اليوم هو أن شركات الذكاء الاصطناعي رغم استخدامها للذكاء الاصطناعي بطرق حساسة لم تستثمر فعلياً في مراقبة وفهم كيفية استخدام موظفيها لأنظمة الذكاء الاصطناعي هذه، لأن ذلك يزيد من صعوبة استخدام باحثيها لها في استخدامات إنتاجية أخرى.

* أعتقد أننا شهدنا نسخة أقل خطورة من ذلك مع شركة «أنثروبيك» Anthropic (حيث استخدم عالم بيانات يعمل لدى الشركة الذكاء الاصطناعي لدعم أدلته في قضية محكمة، ومنها دليل تضمن إشارة وهمية من هلوسات الذكاء الاصطناعي إلى مقال أكاديمي).

- لا أعرف التفاصيل. لكن من المدهش بالنسبة لي أن يقدم خبير ذكاء اصطناعي شهادة أو دليلاً يتضمن أدلة وهمية من الهلوسات في مسائل قضائية، دون التحقق منها. ليس من المستغرب بالنسبة لي أن يهلوس نظام الذكاء الاصطناعي بأشياء كهذه. هذه المشكلات بعيدة كل البعد عن الحل، وهو ما أعتقد أنه يشير إلى أهمية التحقق منها بعناية فائقة.

تملّق «جي بي تي»

* لقد كتبت مقالاً من آلاف الكلمات عن تملق «جي بي تي» وما حدث. ما الذي حدث فعلاً؟

-أود أن أفصل بين ما حدث في البداية، وبين وما وجدته ولا يزال يحدث من الأخطاء. في البداية، يبدو أن شركة «أوبن إيه آي» بدأت باستخدام إشارات جديدة (من تفاعل النظام مع المستخدمين) لتحديد الاتجاه الذي ستدفع إليه نظام ذكائها الاصطناعي، أو بشكل عام، عندما أعطى المستخدمون تحبيذهم لنتائج روبوت المحادثة، فقد استخدمت الشركة هذه البيانات لجعل النظام يتصرف بشكل أكثر انسجاماً مع هذا الاتجاه، وبذا عوقب المستخدمون عندما رفضوا تحبيذ نتائج النظام.

إطراء الذكاء الاصطناعي أدى إلى «نفاقه»

ويصادف أن بعض الناس يحبون الإطراء. في جرعات صغيرة، يكون هذا مقبولاً بما فيه الكفاية. لكن في المجمل، أنتج هذا روبوت محادثة أولياً يميل إلى النفاق.

تكمن المشكلة في كيفية نشره في أن حوكمة أوبن إيه آي لما يحدث، ولما تُجريه من تقييمات، ليست جيدة بما يكفي. وفي هذه الحالة، ورغم من أنها وضعت هدفاً لنماذجها ألا تكون مُتملقة، وهذا مكتوب في أهم وثائق الشركة حول كيفية سلوك نماذجها، فإنها لم تُجرِ أي اختبارات فعلية لذلك.

ما وجدته بعد ذلك هو أنه حتى هذا الإصدار المُصلَّح لا يزال يتصرف بطرق غريبة، وغير متوقعة. في بعض الأحيان لا يزال يُعاني من هذه المشكلات السلوكية. هذا ما يُسمى بالتملق. في أحيان أخرى أصبح الوضع متناقضاً للغاية. لقد انقلب الوضع رأساً على عقب.

ما أفهمه من هذا هو صعوبة التنبؤ بما سيفعله نظام الذكاء الاصطناعي. ولذلك، بالنسبة لي، فإن الدرس المستفاد هو أهمية إجراء اختبارات تجريبية دقيقة، وشاملة.

انحياز «غروك» العنصري

* ماذا عن حادثة «غروك»؟

-ما أود فهمه لتقييم ذلك هو مصادر تعليقات المستخدمين التي يجمعها غروك، وكيف تُستخدم هذه التعليقات، إن وُجدت، باعتبار أنها جزء من عملية التدريب. وعلى وجه الخصوص، في حالة تصريحات جنوب أفريقيا الشبيهة بالإبادة الجماعية البيضاء، هل يطرحها المستخدمون؟ ثم يوافق عليها النموذج؟ أو إلى أي مدى يُطلقها النموذج من تلقاء نفسه دون أن يُمسّ من قبل المستخدمين؟

يبدو أن هذه التغييرات الصغيرة يمكن أن تتفاقم، وتتفاقم.

أعتقد أن المشكلات اليوم حقيقية، ومهمة. بل أعتقد أنها ستزداد صعوبة مع بدء استخدام الذكاء الاصطناعي في مجالات أكثر أهمية. لذا، كما تعلمون، فإن هذا الأمر مُقلق. خصوصاً عندما تقرأ روايات لأشخاصٍ عزّز نظام «جي بي تي» أوهامهم، فهم أشخاصٌ حقيقيون. قد يكون هذا ضاراً جداً لهم، خصوصاً أن «جي بي تي» يُستخدم على نطاق واسع من قِبل الكثيرين.

* مجلة «فاست كومباني»، خدمات «تريبيون ميديا»


مقالات ذات صلة

رئيس «دافوس»: الخليج مؤهّل لدور رئيسي في منظومة الذكاء الاصطناعي

خاص رئيس المنتدى الاقتصادي العالمي بورغه برنده لدى حضوره إحدى جلسات «منتدى دافوس الصيفي» في مدينة تيانجين الصينية يونيو 2025 (أ.ف.ب)

رئيس «دافوس»: الخليج مؤهّل لدور رئيسي في منظومة الذكاء الاصطناعي

قال رئيس «دافوس» لـ«الشرق الأوسط» إن العالم يمُرّ بلحظة مفصلية في تطوير الذكاء الاصطناعي المسؤول، مشدداً على ضرورة إرساء أطر أخلاقية وتنظيمية.

نجلاء حبريري (دافوس)
الاقتصاد شعار صندوق النقد الدولي بمقره الرئيسي في واشنطن (رويترز)

صندوق النقد الدولي يرفع توقعات النمو العالمي لعام 2026 إلى 3.3 %

رفع صندوق النقد الدولي مجدداً توقعاته لنمو الاقتصاد العالمي لعام 2026، يوم الاثنين، في الوقت الذي تتكيف فيه الشركات والاقتصادات مع التعريفات الجمركية الأميركية.

«الشرق الأوسط» (واشنطن)
الاقتصاد تعرض شاشة البيانات المالية أداء مؤشر «كوسبي» في قاعة التداول ببنك هانا في سيول (إ.ب.أ)

مستويات قياسية للأسهم الكورية بدعم من طفرة السيارات والذكاء الاصطناعي

سجلت الأسهم الكورية الجنوبية مستويات قياسية جديدة، خلال تعاملات يوم الاثنين، مدفوعة بارتفاع قوي في أسهم شركات صناعة السيارات.

«الشرق الأوسط» (سيول)
الاقتصاد شعار المنتدى الاقتصادي العالمي في مكان انعقاده بدافوس السويسرية (رويترز)

السعودية في دافوس... مشاركة مرتقبة في نقاشات الاقتصاد العالمي والتحولات الجيوسياسية

يستعد الوفد السعودي للمشاركة في الاجتماع السنوي للمنتدى الاقتصادي العالمي 2026 من خلال حضور واسع في عدد من الجلسات الحوارية.

«الشرق الأوسط» (دافوس)
الاقتصاد خطوط نقل طاقة تمر عبر محطة فرعية على طول شبكة الكهرباء في ميامي (أ.ف.ب)

خطة ترمب لمواجهة أزمة الطاقة: شركات الذكاء الاصطناعي «ستدفع الثمن»

أعلنت إدارة الرئيس الأميركي دونالد ترمب خطة استراتيجية تُلزم شركات التكنولوجيا الكبرى بتحمل تكاليف بناء محطات طاقة جديدة.

«الشرق الأوسط» (واشنطن)

صاروخ إعادة البشر إلى القمر يُنقل لمنصة الإطلاق بفلوريدا

مركبة «أرتميس 2» الفضائية موجودة في الحجرة رقم 3 بمبنى تجميع المركبات بمركز كينيدي للفضاء في كيب كانافيرال (أ.ف.ب)
مركبة «أرتميس 2» الفضائية موجودة في الحجرة رقم 3 بمبنى تجميع المركبات بمركز كينيدي للفضاء في كيب كانافيرال (أ.ف.ب)
TT

صاروخ إعادة البشر إلى القمر يُنقل لمنصة الإطلاق بفلوريدا

مركبة «أرتميس 2» الفضائية موجودة في الحجرة رقم 3 بمبنى تجميع المركبات بمركز كينيدي للفضاء في كيب كانافيرال (أ.ف.ب)
مركبة «أرتميس 2» الفضائية موجودة في الحجرة رقم 3 بمبنى تجميع المركبات بمركز كينيدي للفضاء في كيب كانافيرال (أ.ف.ب)

نقلت وكالة الفضاء الأميركية (ناسا) صاروخها العملاق «إس إل إس»، الذي من المفترض أن يحمل روّاد فضاء إلى مدار القمر في أوّل مهمّة منذ أكثر من 50 سنة، إلى منصّة إطلاق لإجراء تجارب تمهيداً لرحلة «أرتيميس 2».

واستغرقت العمليّة، أمس (السبت)، نحو 12 ساعة، وتعدّ من الخطوات الأخيرة المتبقّية قبل إقلاع المهمّة المرتقب بين مطلع فبراير (شباط) وأواخر أبريل (نيسان).

ونقل الصاروخ الضخم الأبيض والبرتقالي فجراً من مبنى تركيب القطع في اتجاه مجمّع إطلاق الصواريخ «39 بي» في مركز كيندي الفضائي في فلوريدا حيث وصل عصراً، ومن المرتقب أن يخضع لسلسلة من الفحوص.

إن كانت النتائج مرضية، فسيكون في وسع الصاروخ الإقلاع بدءاً من السادس من فبراير، حسب التقديرات الأوّلية لـ«ناسا»، في مهمّة هي الأولى منذ «أبولو» في 1972 تحمل أربعة روّاد، ثلاثة أميركيين وكندي، إلى مدار القمر.

وقال جون هانيكات المشرف على برنامج الصاروخ خلال مؤتمر صحافي، الجمعة: «نحن بصدد كتابة التاريخ»، وفق ما أفادت «وكالة الصحافة الفرنسية».

صاروخ «ناسا» العملاق أرتميس «إس إل إس» في مركز كيندي الفضائي (أ.ف.ب)

«جعل المستحيل ممكناً»

حضر الروّاد الأربعة، وهم ريد وايزمن وكريستينا هاموك كوك وفيكتور غلوفر وجيريمي هانسن، عمليّة نقل الصاروخ، السبت.

ومع كبسولة «أوريون» التي سيتمركز فيها الروّاد، يبلغ طول الصاروخ 98 متراً، أي أنّه أعلى من تمثال الحرّية، لكنه أقصر بقليل من صاروخ «ساتورن 5» الذي نقل مهمّات «أبولو» المأهولة إلى القمر والممتدّ على 110 أمتار.

وقال الرائد الكندي جيريمي هانسن في تصريحات للإعلام: «أنا متحمّس جدّاً. وفي خلال أسابيع قليلة، ستشهدون على تحليق أربعة أشخاص في مدار القمر. وإن كنّا قادرين على أمر مماثل اليوم، فتخيّلوا ما سيكون في وسعنا فعله غداً». وصرّح زميله فيكتور غلوفر: «نبذل ما في وسعنا لجعل المستحيل ممكناً».

ومن المفترض أن تمتدّ هذه المهمّة نحو عشرة أيّام يدور خلالها الطاقم حول القمر، تمهيداً للرحلة المقبلة التي ستشكّل العودة المنتظرة للبشر إلى سطح القمر بهدف إقامة وجود دائم هذه المرّة.

صاروخ أرتميس العملاق «إس إل إس» التابع لشركة «ناسا» في مركز كيندي الفضائي (أ.ف.ب)

لكن هذه المهمّة تشكّل في ذاتها سابقة على مستويات عدّة. فهي أوّل رحلة إلى مدار القمر تشارك فيها امرأة ورائد غير أبيض وآخر غير أميركي.

«سباق ثان إلى الفضاء»

وقبل الانطلاق، يتحقّق مهندسو «ناسا» من أمن الصاروخ ومتانته. ومن المفترض إجراء سلسلة من الفحوص قبل تدريب عام على عملية محاكاة.

وأطلقت مهمّة «أرتيميس 1» غير المأهولة في نوفمبر (تشرين الثاني) 2022 بعد عدّة تأجيلات ومحاولتين سابقتين غير ناجحتين.

ويهدف برنامج «أرتيميس» الذي كشف عنه النقاب خلال الولاية الأولى لدونالد ترمب إلى إقامة وجود بشري دائم على القمر في نهاية المطاف، والتمهيد لرحلات مقبلة نحو المريخ، لكنه تعرض لتأخيرات كثيرة في السنوات الأخيرة، غير أن «ناسا» أحدثت مفاجأة في أواخر 2025 مع إعلانها عن احتمال إطلاق «أرتيميس 2» في «مطلع فبراير» بدلاً من أبريل.

وقد يعزى تقريب الموعد إلى ضغوط من إدارة ترمب الطامعة بكسب «سباق ثان إلى الفضاء» ضدّ بكين بعد ذاك الذي تواجهت فيه الولايات المتحدة مع الاتحاد السوفياتي إبّان الحرب الباردة.

وبات محور المنافسة اليوم إرسال البشر إلى القمر بحلول 2030 وإقامة قاعدة على سطحه. ومن المرتقب أن يتمّ تأجيل مهمّة «أرتيميس 3» المحدّد موعدها راهناً في منتصف 2027. ويشير خبراء الملاحة الفضائية إلى أن جهاز الهبوط على القمر الذي طوّرته شركة «سبايس إكس»، التابعة لإيلون ماسك، غير جاهز بعد، ما يؤشّر إلى أن الصين قد تسحب البساط من تحت قدمي الولايات المتحدة.


«تشات جي بي تي» يستعد لعرض إعلانات بناءً على محادثات المستخدمين

شعار تطبيق «تشات جي بي تي» (رويترز)
شعار تطبيق «تشات جي بي تي» (رويترز)
TT

«تشات جي بي تي» يستعد لعرض إعلانات بناءً على محادثات المستخدمين

شعار تطبيق «تشات جي بي تي» (رويترز)
شعار تطبيق «تشات جي بي تي» (رويترز)

قد يبدأ تطبيق الدردشة المدعم بالذكاء الاصطناعي «تشات جي بي تي» قريباً بعرض إعلانات لمنتجات وخدمات يُرجّح أنها تهم المستخدمين، وذلك استناداً إلى طبيعة محادثاتهم مع المنصة.

وأعلنت شركة «أوبن إيه آي»، أمس (الجمعة)، أنها ستختبر هذه الإعلانات في النسخة المجانية من تطبيق «تشات جي بي تي» للمستخدمين البالغين المسجلين في الولايات المتحدة. كما كشفت عن إطلاق باقة اشتراك جديدة تحمل اسم «Go» بسعر 8 دولارات شهرياً، تتضمن بعض الميزات المحسّنة، مثل ذاكرة أكبر وإمكانات أوسع لإنشاء الصور، وبسعر أقل من باقتي «Plus» (20 دولاراً شهرياً) و«Pro» (200 دولار شهرياً).

وبحسب شبكة «سي إن إن»، سيشاهد مشتركو باقة «Go» أيضاً إعلانات داخل الخدمة، في حين لن تُعرض أي إعلانات لمشتركي باقتي «Plus» و«Pro»، ولا لعملاء «أوبن إيه آي» من الشركات.

وكان سام ألتمان، الرئيس التنفيذي لشركة «أوبن إيه آي»، قد أعرب في وقت سابق، عن تحفظاته إزاء إدخال الإعلانات إلى «تشات جي بي تي». غير أن هذه الخطوة تأتي في سياق سعي الشركة الحثيث إلى إيجاد مصادر جديدة لزيادة الإيرادات من قاعدة مستخدميها التي تُقدَّر بنحو 800 مليون مستخدم شهرياً، وذلك للمساعدة في تغطية تكلفة البنية التحتية للذكاء الاصطناعي، التي تعتزم الشركة استثمار نحو 1.4 تريليون دولار فيها على مدى السنوات الثماني المقبلة.

وفي هذا السياق، قال ألتمان في نوفمبر (تشرين الثاني) الماضي، إن «أوبن إيه آي» تتوقع إنهاء عام 2025 بإيرادات سنوية تقارب 20 مليار دولار.

وكانت الشركة قد أطلقت العام الماضي، أداة تُعرف باسم «الدفع الفوري»، تتيح للمستخدمين شراء المنتجات مباشرةً من متاجر تجزئة مثل «وول مارت» و«إتسي» عبر «تشات جي بي تي». كما قدّمت أدوات في مجالات الصحة والتعليم وغيرها، في إطار مساعيها لجعل «تشات جي بي تي» جزءاً أساسياً من الحياة اليومية للمستخدمين، وربما تحفيزهم على الترقية إلى اشتراكات مدفوعة.

وقد تُثبت الإعلانات أنها استراتيجية مربحة لشركة «أوبن إيه آي»، إذ يمكن استغلال المعلومات المستخلصة من محادثات المستخدمين مع «تشات جي بي تي» لإنشاء إعلانات عالية الاستهداف. فعلى سبيل المثال، إذا طلب أحد المستخدمين المساعدة في التخطيط لرحلة، فقد تظهر له إعلانات متعلقة بفنادق أو أنشطة ترفيهية في الوجهة المقصودة.

وكجزء من هذا الاختبار، ستظهر الإعلانات أسفل إجابات «تشات جي بي تي» على استفسارات المستخدمين، مع تصنيفها بوضوح على أنها «إعلانات ممولة». وأكدت «أوبن إيه آي» أن هذه الإعلانات لن تؤثر في محتوى إجابات «تشات جي بي تي»، مشددة على أن المستخدمين «يجب أن يثقوا بأن الإجابات تستند إلى ما هو مفيد موضوعياً».

كما أوضحت الشركة أنها لن تبيع بيانات المستخدمين أو محادثاتهم للمعلنين، مؤكدةً أن بإمكان المستخدمين تعطيل تخصيص الإعلانات المبنية على محادثاتهم في أي وقت.


دراسة جديدة تكشف حدود الذكاء الاصطناعي في إنجاز مشاريع العمل عن بُعد

الدراسة تقدم «مؤشر العمل عن بُعد» كأول مقياس واقعي لقدرة الذكاء الاصطناعي على إنجاز مشاريع عمل حقيقية متكاملة (شاترستوك)
الدراسة تقدم «مؤشر العمل عن بُعد» كأول مقياس واقعي لقدرة الذكاء الاصطناعي على إنجاز مشاريع عمل حقيقية متكاملة (شاترستوك)
TT

دراسة جديدة تكشف حدود الذكاء الاصطناعي في إنجاز مشاريع العمل عن بُعد

الدراسة تقدم «مؤشر العمل عن بُعد» كأول مقياس واقعي لقدرة الذكاء الاصطناعي على إنجاز مشاريع عمل حقيقية متكاملة (شاترستوك)
الدراسة تقدم «مؤشر العمل عن بُعد» كأول مقياس واقعي لقدرة الذكاء الاصطناعي على إنجاز مشاريع عمل حقيقية متكاملة (شاترستوك)

أعاد التطور السريع في تقنيات الذكاء الاصطناعي طرح أسئلة قديمة متجددة حول الأتمتة ومستقبل العمل. فمن تطوير البرمجيات إلى إنتاج المحتوى، باتت أنظمة الذكاء الاصطناعي تُظهر قدرات لافتة في الاختبارات البحثية والمعايير التقنية. لكن فجوة أساسية ما زالت قائمة تتعلق بقدرة هذه الأنظمة على تنفيذ أعمال حقيقية ذات قيمة اقتصادية، كما هي مطلوبة في سوق العمل الفعلي.

دراسة جديدة تسعى للإجابة عن هذا السؤال عبر إطار قياس مبتكر يُعرف باسم «مؤشر العمل عن بُعد» (Remote Labor Index – RLI)، وهو أول معيار تجريبي يقيس بشكل منهجي قدرة وكلاء الذكاء الاصطناعي على أتمتة مشاريع عمل متكاملة مأخوذة من أسواق العمل الحر الحقيقية. وتأتي النتائج مفاجئة، وأكثر واقعية مما توحي به كثير من السرديات المتداولة حول قرب الاستغناء عن الوظائف البشرية.

ما بعد المعايير الاصطناعية

تركز معظم اختبارات الذكاء الاصطناعي الحالية على مهام محددة أو معزولة ككتابة شيفرات قصيرة أو الإجابة عن أسئلة تقنية أو تصفح الإنترنت أو تنفيذ أوامر حاسوبية مبسطة. ورغم أهمية هذه المعايير، فإنها غالباً لا تعكس التعقيد والتكامل والغموض الذي يميز العمل المهني الحقيقي.

من هنا جاء تطوير «مؤشر العمل عن بُعد»، الذي لا يختبر مهارات منفصلة، بل يقيس قدرة أنظمة الذكاء الاصطناعي على إنجاز مشاريع كاملة من البداية إلى النهاية، تماماً كما تُسند إلى محترفين يعملون لحساب عملاء حقيقيين. وتشمل هذه المشاريع مجالات مثل التصميم والهندسة المعمارية وإنتاج الفيديو وتحليل البيانات وتطوير الألعاب وإعداد الوثائق وغيرها من أشكال العمل عن بُعد التي تشكل جوهر الاقتصاد الرقمي المعاصر. وبهذا، تنقل الدراسة النقاش من مستوى القدرات النظرية إلى مستوى الأداء الفعلي القابل للقياس في السوق.

نتائج المؤشر تظهر أن الذكاء الاصطناعي ما زال عاجزاً عن أتمتة معظم مشاريع العمل عن بُعد بمستوى مهني مقبول (غيتي)

قياس مؤشر العمل عن بُعد

تتكون قاعدة بيانات المؤشر من 240 مشروع عمل حر مكتمل، يحتوي كل مشروع على ثلاثة عناصر رئيسية هي وصف تفصيلي للمهمة والملفات المدخلة اللازمة لتنفيذها ومخرجات نهائية أنجزها محترفون بشريون باعتبارها مرجعاً قياسياً. ولم تكتفِ الدراسة بالمخرجات فقط، بل جمعت أيضاً بيانات عن الوقت والتكلفة اللازمين لتنفيذ كل مشروع. وقد استغرق إنجاز المشروع الواحد، في المتوسط، نحو 29 ساعة من العمل البشري، بينما تجاوزت بعض المشاريع حاجز 100 ساعة. وتراوحت تكاليف المشاريع بين أقل من 10 دولارات وأكثر من 10 آلاف دولار، بإجمالي قيمة تتجاوز 140 ألف دولار وأكثر من 6 آلاف ساعة عمل فعلي.

ويعكس هذا التنوع والتعقيد المتعمد طبيعة العمل الحقيقي، بعيداً عن المهام المبسطة أو المتخصصة.

تقييم أداء الذكاء الاصطناعي

اختبر الباحثون عدة نماذج متقدمة من وكلاء الذكاء الاصطناعي باستخدام عملية تقييم بشرية دقيقة حيث مُنحت الأنظمة نفس أوصاف المشاريع والملفات التي حصل عليها المحترفون، وطُلب منها إنتاج مخرجات كاملة. ثم قام مقيمون مدربون بمقارنة نتائج الذكاء الاصطناعي بالمخرجات البشرية المرجعية، مع التركيز على سؤال جوهري يتعلق بمدى قبول العميل الحقيقي لهذا العمل باعتباره مكافئاً أو أفضل من عمل محترف بشري.

المقياس الأساسي في الدراسة هو «معدل الأتمتة» أي النسبة المئوية للمشاريع التي نجح الذكاء الاصطناعي في إنجازها بمستوى احترافي مقبول. كما استخدمت الدراسة نظام تصنيف شبيهاً بنظام «إيلو» لإجراء مقارنات دقيقة بين النماذج المختلفة، حتى في الحالات التي لم تصل فيها أي منها إلى مستوى الأداء البشري.

الأتمتة ما زالت محدودة جداً

على الرغم من التطورات الكبيرة في قدرات التفكير والتعامل متعدد الوسائط، تكشف النتائج أن أنظمة الذكاء الاصطناعي الحالية ما تزال بعيدة عن أتمتة العمل عن بُعد بشكل واسع. فقد بلغ أعلى معدل أتمتة تحقق 2.5 في المائة فقط، أي أن أقل من ثلاثة مشاريع من كل مائة وصلت إلى مستوى مقبول مقارنة بالعمل البشري. وتتحدى هذه النتيجة الافتراض السائد بأن التحسن في المعايير التقنية يعني بالضرورة قدرة فورية على استبدال العمل البشري. فحتى النماذج المتقدمة القادرة على كتابة الشيفرات أو توليد الصور والنصوص، غالباً ما تفشل عندما يُطلب منها دمج مهارات متعددة، أو الالتزام بتفاصيل معقدة أو تسليم ملفات متكاملة بجودة احترافية.

مستقبل العمل القريب يتجه نحو دعم الإنتاجية البشرية بالذكاء الاصطناعي بدلاً من استبدال الوظائف بالكامل (شاترستوك)

تعثر الذكاء الاصطناعي... ونجاحه

يكشف التحليل النوعي لأسباب الفشل عن مشكلات متكررة، أبرزها أخطاء تقنية أساسية مثل ملفات تالفة أو غير قابلة للاستخدام أو صيغ غير صحيحة أو مخرجات ناقصة وغير متسقة. وفي حالات أخرى، كانت المشاريع مكتملة شكلياً لكنها لا ترقى إلى المستوى المهني المتوقع في سوق العمل الحر.

في المقابل، رصدت الدراسة مجالات محدودة أظهر فيها الذكاء الاصطناعي أداءً أفضل نسبياً، لا سيما في المهام التي تتركز على معالجة النصوص أو توليد الصور أو التعامل مع الصوت كبعض أعمال التحرير الصوتي والتصميم البصري البسيط وكتابة التقارير وتصور البيانات المعتمد على الشيفرة البرمجية. وتشير هذه النتائج إلى أن الذكاء الاصطناعي يلعب بالفعل دوراً داعماً في بعض أنواع العمل، وإن لم يصل بعد إلى مرحلة الأتمتة الكاملة.

قياس التقدم دون تهويل

رغم انخفاض معدلات الأتمتة المطلقة، يُظهر المؤشر تحسناً نسبياً واضحاً بين النماذج المختلفة. فتصنيفات «إيلو» وهي نظام رياضي لتقييم الأداء النسبي، تشير إلى أن الأنظمة الأحدث تتفوق بشكل منهجي على سابقاتها، ما يعني أن التقدم حقيقي وقابل للقياس، حتى وإن لم يترجم بعد إلى إنجاز مشاريع كاملة. وتكمن قيمة «مؤشر العمل عن بُعد» في كونه أداة طويلة الأمد لمتابعة التطور، بعيداً عن التوقعات المبالغ فيها أو الأحكام الثنائية.

تشير نتائج الدراسة إلى أن الاستغناء الواسع عن العاملين في وظائف العمل عن بُعد ليس وشيكاً في الوقت الراهن. وبدلاً من ذلك، يُرجّح أن يكون الأثر القريب للذكاء الاصطناعي متمثلاً في تعزيز الإنتاجية على مستوى المهام، لا استبدال الوظائف بالكامل.

وسيظل الحكم البشري والقدرة على الدمج وضبط الجودة عناصر مركزية في العمل المهني. ومع ذلك، تحذر الدراسة من أن الذكاء الاصطناعي يختلف عن تقنيات الأتمتة السابقة؛ إذ يسعى إلى محاكاة قدرات معرفية عامة. وإذا تمكنت الأنظمة المستقبلية من سد الفجوة التي يكشفها المؤشر دون التكيّف المصطنع معه، فقد تكون الآثار على سوق العمل أعمق بكثير.

خط أساس جديد للنقاش

لا تدّعي هذه الدراسة التنبؤ بالمستقبل، لكنها تقدم خط أساس علمي وعملي لفهم موقع الذكاء الاصطناعي اليوم. ومن خلال ربط التقييم بعمل حقيقي وتكلفة فعلية ومعايير مهنية واقعية، تضع إطاراً أكثر دقة لنقاشات الأتمتة والعمل. ومع استمرار تطور الذكاء الاصطناعي، ستصبح أدوات مثل «مؤشر العمل عن بُعد» ضرورية للفصل بين التقدم الحقيقي والضجيج الإعلامي، وضمان أن يُبنى النقاش حول مستقبل العمل على الأدلة لا الافتراضات.