الذكاء الاصطناعي يزداد قوة… لكن هلوساته تزداد سوءاً

مهاراته تتعاظم وأخطاؤه تتكاثر

الذكاء الاصطناعي يزداد قوة… لكن هلوساته تزداد سوءاً
TT

الذكاء الاصطناعي يزداد قوة… لكن هلوساته تزداد سوءاً

الذكاء الاصطناعي يزداد قوة… لكن هلوساته تزداد سوءاً

في منشورات غاضبة على منتديات الإنترنت، اشتكى العملاء، وألغى بعضهم حساباتهم على «كيرسر».

في الشهر الماضي، نبه روبوت ذكاء اصطناعي، مخصص للدعم الفني لبرنامج «كيرسور» «كيرسر»، وهو أداة ناشئة لمبرمجي الكمبيوتر، العديد من العملاء إلى حدوث تغييرات في سياسة الشركة (المنتجة له). وأوضح أنه لم يعد يُسمح لهم باستخدام «كيرسر» على أكثر من جهاز كمبيوتر واحد.

خطأ روبوتي يغضب الزبائن

واشتكى الزبائن في منشورات غاضبة على منتديات الإنترنت، وألغى بعضهم حساباتهم على «كيرسر»، بينما ازداد غضب بعضهم الآخر عندما أدركوا ما حدث: إذ أعلن روبوت الذكاء الاصطناعي عن تغيير في السياسة لم يكن موجوداً بالأصل. كتب مايكل ترول، الرئيس التنفيذي والمؤسس المشارك للشركة، في منشور على منصة «ريدت»: «لأنه ليس لدينا مثل هذه السياسة. أنت حر بالطبع في استخدام (كيرسر) على أجهزة متعددة. للأسف، هذا رد غير صحيح جاء من روبوت دعم ذكاء اصطناعي في الخطوط الأمامية».

أنظمة التفكير المنطقي-مهارات وأخطاء أكثر

وبعد أكثر من عامين على إطلاق «تشات جي بي تي» ChatGPT، تستخدم شركات التكنولوجيا، وموظفو المكاتب، والمستهلكون العاديون روبوتات الذكاء الاصطناعي في مجموعة واسعة من المهام. ولكن لا تزال هناك صعوبة في ضمان دقة هذه الأنظمة في إنتاج معلومات دقيقة.

أحدث التقنيات، وأكثرها قوة ما تسمى بأنظمة التفكير المنطقي من شركات مثل «أوبن إيه آي» و«غوغل» والشركة الصينية الناشئة «ديب سيك» تُنتج أخطاءً أكثر، لا أقل. ومع تحسن مهاراتها الرياضية بشكل ملحوظ، أصبح فهمها للبيانات أكثر تذبذباً.

روبوتات لا تعرف أين الخطأ

وليس من الواضح تماماً سبب ذلك. تعتمد روبوتات الذكاء الاصطناعي اليوم على أنظمة رياضية معقدة تتعلم مهاراتها من خلال تحليل كميات هائلة من البيانات الرقمية. إلا أن هذه الروبوتات لا تستطيع -ولن تستطيع- تحديد ما هو صحيح، وما هو خاطئ.

في بعض الأحيان، تختلق هذه الروبوتات معلومات خاطئة، وهي ظاهرة يُطلق عليها بعض باحثي الذكاء الاصطناعي اسم «الهلوسة». في أحد الاختبارات وصلت معدلات الهلوسة في أنظمة الذكاء الاصطناعي الأحدث إلى 79 في المائة.

احتمالات رياضية

تستخدم هذه الأنظمة الاحتمالات الرياضية لتخمين أفضل استجابة، وليست مجموعة صارمة من القواعد التي وضعها المهندسون البشريون. لذا، ترتكب عدداً معيناً من الأخطاء. قال عمرو عوض الله، الرئيس التنفيذي لشركة «فيكتارا»، وهي شركة ناشئة تُطوّر أدوات الذكاء الاصطناعي للشركات، والمدير التنفيذي السابق في «غوغل»: «رغم بذلنا قصارى جهدنا، ستظل (الأنظمة) تصاب بالهلوسة. هذا لن يزول أبداً».

لسنوات عديدة، أثارت هذه الظاهرة مخاوف بشأن موثوقية هذه الأنظمة. فرغم فائدتها في بعض الحالات، مثل كتابة الأوراق البحثية، وتلخيص مستندات المكتب، وإنشاء رموز برامج الكمبيوتر، فإن أخطاءها قد تُسبب مشكلات.

محركات البحث الذكية- نتائج خاطئة

أحياناً تُنتج روبوتات الذكاء الاصطناعي المرتبطة بمحركات البحث مثل «غوغل» و«بينغ» نتائج بحث خاطئة بشكل مُضحك. إذا سألتها عن ماراثون جيد على الساحل الغربي، فقد تقترح سباقاً في فيلادلفيا. وإذا أخبرتك بعدد الأسر في إلينوي، فقد تستشهد بمصدر لا يتضمن تلك المعلومات.

مخاطر الأخطاء القضائية والطبية

قد لا تُمثل هذه الهلوسة مشكلة كبيرة للكثيرين، لكنها تُمثل مشكلة خطيرة لأي شخص يستخدم هذه التقنية مع وثائق المحكمة، أو المعلومات الطبية، أو بيانات الأعمال الحساسة. قال براتيك فيرما، المؤسس المشارك والرئيس التنفيذي لشركة «أوكاهو»، وهي شركة تساعد الشركات على التغلب على مشكلة الهلوسة: «نقضي وقتاً طويلاً في محاولة معرفة أي الإجابات واقعية؟ وأيها غير واقعية؟... إن عدم التعامل مع هذه الأخطاء بشكل صحيح يلغي أساساً كل قيمة أنظمة الذكاء الاصطناعي التي من المفترض أن تؤدي المهام نيابةً عنك».

لأكثر من عامين، قامت الشركات بتحسين أنظمة الذكاء الاصطناعي الخاصة بها بشكل مطرد، وخفضت وتيرة هذه الأخطاء. ولكن مع استخدام أنظمة التفكير الجديدة، تتزايد الأخطاء.

هلوسة أحدث الأنظمة

وتعاني أحدث أنظمة «أوبن إيه آي» من الهلوسة بمعدل أعلى من نظام الشركة السابق، وفقاً لاختبارات الشركة الخاصة.

وقد وجدت الشركة «أن o3 -أقوى نظام لديها- يعاني من الهلوسة بنسبة 33 في المائة من الوقت عند تشغيل اختبار PersonQA القياسي الخاص بها، والذي يتضمن الإجابة عن أسئلة حول الشخصيات العامة. وهذا أكثر من ضعف معدل الهلوسة لنظام التفكير السابق من الشركة، المسمى o1. أما o4-mini الجديد، فقد يعاني من الهلوسة بمعدل أعلى 48 في المائة. وعند إجراء اختبار آخر يُسمى SimpleQA، والذي يطرح أسئلةً عامة، كانت معدلات الهلوسة51 في المائة لدى o3، و79 في المائة لدى o4-mini. في حين أن النظام السابق، o1، كان يُعاني من الهلوسة بنسبة 44 في المائة.

اختبارات أجرتها شركات مستقلة

تشير الاختبارات التي أجرتها شركات وباحثون مستقلون إلى أن معدلات الهلوسة آخذة في الارتفاع أيضاً بالنسبة لنماذج الاستدلال من شركات مثل «غوغل» و«ديب سيك».

منذ أواخر عام 2023، تتبعت شركة عوض الله، «فيكتارا»، مدى تكرار انحراف روبوتات الدردشة عن الحقيقة. وتطلب الشركة من هذه الأنظمة أداء مهمة بسيطة يمكن التحقق منها بسهولة: تلخيص مقالات إخبارية محددة. وحتى في هذه الحالة، تختلق روبوتات الدردشة المعلومات باستمرار.

قدّر البحث الأصلي لشركة «فيكتارا» أنه في هذه الحالة، اختلقت روبوتات الدردشة المعلومات بنسبة 3 في المائة على الأقل من الوقت، وأحياناً تصل إلى 27 في المائة.

في العام ونصف العام الذي تلا ذلك، خفضت شركات مثل «أوبن إيه آي» و«غوغل» هذه الأرقام إلى نطاق 1 أو 2 في المائة. بينما تراوحت نسب أخرى، مثل شركة «أنثروبيك» الناشئة في سان فرنسيسكو، حول 4 في المائة. لكن معدلات الهلوسة في هذا الاختبار ارتفعت مع أنظمة الاستدلال. فقد أصيب نظام الاستدلال R1 التابع لشركة «ديب سيك» بالهلوسة بنسبة 14.3 في المائة من الوقت. ارتفع معدل O3 لشركة «OpenAI إلى 6.8 في المائة.

* خدمة «نيويورك تايمز»

حقائق

79%

*معدلات الهلوسة التي رصدت في أنظمة الذكاء الاصطناعي الحديثة


مقالات ذات صلة

الاقتصاد خطوط نقل طاقة تمر عبر محطة فرعية على طول شبكة الكهرباء في ميامي (أ.ف.ب)

خطة ترمب لمواجهة أزمة الطاقة: شركات الذكاء الاصطناعي «ستدفع الثمن»

أعلنت إدارة الرئيس الأميركي دونالد ترمب خطة استراتيجية تُلزم شركات التكنولوجيا الكبرى بتحمل تكاليف بناء محطات طاقة جديدة.

«الشرق الأوسط» (واشنطن)
يوميات الشرق صورة تظهر شعار «غروك» (رويترز)

والدة أحد أطفال ماسك تقاضي شركته للذكاء الاصطناعي

رفعت والدة أحد أطفال إيلون ماسك دعوى قضائية ضد شركة الذكاء الاصطناعي الخاصة به.

«الشرق الأوسط» (واشنطن)
تكنولوجيا شعار تطبيق «تشات جي بي تي» (رويترز)

«تشات جي بي تي» يستعد لعرض إعلانات بناءً على محادثات المستخدمين

قد يبدأ تطبيق الدردشة المدعم بالذكاء الاصطناعي «شات جي بي تي» قريباً بعرض إعلانات لمنتجات وخدمات يُرجّح أنها تهم المستخدمين.

«الشرق الأوسط» (واشنطن)
تكنولوجيا تقنيات الذكاء الاصطناعي أصبحت قادرة على استخراج معلومات حساسة من الصوت دون علم المتحدث (أدوبي)

بيانات الصوت البيومترية... هل تهدد الخصوصية في زمن الخوارزميات؟

الصوت يحمل بيانات شخصية حساسة تكشف الصحة والمشاعر والهوية، ومع تطور تقنيات تحليل الكلام تزداد تحديات الخصوصية والحاجة لحمايتها بوعي وتشريعات.

نسيم رمضان (لندن)

صاروخ إعادة البشر إلى القمر يُنقل لمنصة الإطلاق بفلوريدا

مركبة «أرتميس 2» الفضائية موجودة في الحجرة رقم 3 بمبنى تجميع المركبات بمركز كينيدي للفضاء في كيب كانافيرال (أ.ف.ب)
مركبة «أرتميس 2» الفضائية موجودة في الحجرة رقم 3 بمبنى تجميع المركبات بمركز كينيدي للفضاء في كيب كانافيرال (أ.ف.ب)
TT

صاروخ إعادة البشر إلى القمر يُنقل لمنصة الإطلاق بفلوريدا

مركبة «أرتميس 2» الفضائية موجودة في الحجرة رقم 3 بمبنى تجميع المركبات بمركز كينيدي للفضاء في كيب كانافيرال (أ.ف.ب)
مركبة «أرتميس 2» الفضائية موجودة في الحجرة رقم 3 بمبنى تجميع المركبات بمركز كينيدي للفضاء في كيب كانافيرال (أ.ف.ب)

نقلت وكالة الفضاء الأميركية (ناسا) صاروخها العملاق «إس إل إس»، الذي من المفترض أن يحمل روّاد فضاء إلى مدار القمر في أوّل مهمّة منذ أكثر من 50 سنة، إلى منصّة إطلاق لإجراء تجارب تمهيداً لرحلة «أرتيميس 2».

واستغرقت العمليّة، أمس (السبت)، نحو 12 ساعة، وتعدّ من الخطوات الأخيرة المتبقّية قبل إقلاع المهمّة المرتقب بين مطلع فبراير (شباط) وأواخر أبريل (نيسان).

ونقل الصاروخ الضخم الأبيض والبرتقالي فجراً من مبنى تركيب القطع في اتجاه مجمّع إطلاق الصواريخ «39 بي» في مركز كيندي الفضائي في فلوريدا حيث وصل عصراً، ومن المرتقب أن يخضع لسلسلة من الفحوص.

إن كانت النتائج مرضية، فسيكون في وسع الصاروخ الإقلاع بدءاً من السادس من فبراير، حسب التقديرات الأوّلية لـ«ناسا»، في مهمّة هي الأولى منذ «أبولو» في 1972 تحمل أربعة روّاد، ثلاثة أميركيين وكندي، إلى مدار القمر.

وقال جون هانيكات المشرف على برنامج الصاروخ خلال مؤتمر صحافي، الجمعة: «نحن بصدد كتابة التاريخ»، وفق ما أفادت «وكالة الصحافة الفرنسية».

صاروخ «ناسا» العملاق أرتميس «إس إل إس» في مركز كيندي الفضائي (أ.ف.ب)

«جعل المستحيل ممكناً»

حضر الروّاد الأربعة، وهم ريد وايزمن وكريستينا هاموك كوك وفيكتور غلوفر وجيريمي هانسن، عمليّة نقل الصاروخ، السبت.

ومع كبسولة «أوريون» التي سيتمركز فيها الروّاد، يبلغ طول الصاروخ 98 متراً، أي أنّه أعلى من تمثال الحرّية، لكنه أقصر بقليل من صاروخ «ساتورن 5» الذي نقل مهمّات «أبولو» المأهولة إلى القمر والممتدّ على 110 أمتار.

وقال الرائد الكندي جيريمي هانسن في تصريحات للإعلام: «أنا متحمّس جدّاً. وفي خلال أسابيع قليلة، ستشهدون على تحليق أربعة أشخاص في مدار القمر. وإن كنّا قادرين على أمر مماثل اليوم، فتخيّلوا ما سيكون في وسعنا فعله غداً». وصرّح زميله فيكتور غلوفر: «نبذل ما في وسعنا لجعل المستحيل ممكناً».

ومن المفترض أن تمتدّ هذه المهمّة نحو عشرة أيّام يدور خلالها الطاقم حول القمر، تمهيداً للرحلة المقبلة التي ستشكّل العودة المنتظرة للبشر إلى سطح القمر بهدف إقامة وجود دائم هذه المرّة.

صاروخ أرتميس العملاق «إس إل إس» التابع لشركة «ناسا» في مركز كيندي الفضائي (أ.ف.ب)

لكن هذه المهمّة تشكّل في ذاتها سابقة على مستويات عدّة. فهي أوّل رحلة إلى مدار القمر تشارك فيها امرأة ورائد غير أبيض وآخر غير أميركي.

«سباق ثان إلى الفضاء»

وقبل الانطلاق، يتحقّق مهندسو «ناسا» من أمن الصاروخ ومتانته. ومن المفترض إجراء سلسلة من الفحوص قبل تدريب عام على عملية محاكاة.

وأطلقت مهمّة «أرتيميس 1» غير المأهولة في نوفمبر (تشرين الثاني) 2022 بعد عدّة تأجيلات ومحاولتين سابقتين غير ناجحتين.

ويهدف برنامج «أرتيميس» الذي كشف عنه النقاب خلال الولاية الأولى لدونالد ترمب إلى إقامة وجود بشري دائم على القمر في نهاية المطاف، والتمهيد لرحلات مقبلة نحو المريخ، لكنه تعرض لتأخيرات كثيرة في السنوات الأخيرة، غير أن «ناسا» أحدثت مفاجأة في أواخر 2025 مع إعلانها عن احتمال إطلاق «أرتيميس 2» في «مطلع فبراير» بدلاً من أبريل.

وقد يعزى تقريب الموعد إلى ضغوط من إدارة ترمب الطامعة بكسب «سباق ثان إلى الفضاء» ضدّ بكين بعد ذاك الذي تواجهت فيه الولايات المتحدة مع الاتحاد السوفياتي إبّان الحرب الباردة.

وبات محور المنافسة اليوم إرسال البشر إلى القمر بحلول 2030 وإقامة قاعدة على سطحه. ومن المرتقب أن يتمّ تأجيل مهمّة «أرتيميس 3» المحدّد موعدها راهناً في منتصف 2027. ويشير خبراء الملاحة الفضائية إلى أن جهاز الهبوط على القمر الذي طوّرته شركة «سبايس إكس»، التابعة لإيلون ماسك، غير جاهز بعد، ما يؤشّر إلى أن الصين قد تسحب البساط من تحت قدمي الولايات المتحدة.


«تشات جي بي تي» يستعد لعرض إعلانات بناءً على محادثات المستخدمين

شعار تطبيق «تشات جي بي تي» (رويترز)
شعار تطبيق «تشات جي بي تي» (رويترز)
TT

«تشات جي بي تي» يستعد لعرض إعلانات بناءً على محادثات المستخدمين

شعار تطبيق «تشات جي بي تي» (رويترز)
شعار تطبيق «تشات جي بي تي» (رويترز)

قد يبدأ تطبيق الدردشة المدعم بالذكاء الاصطناعي «تشات جي بي تي» قريباً بعرض إعلانات لمنتجات وخدمات يُرجّح أنها تهم المستخدمين، وذلك استناداً إلى طبيعة محادثاتهم مع المنصة.

وأعلنت شركة «أوبن إيه آي»، أمس (الجمعة)، أنها ستختبر هذه الإعلانات في النسخة المجانية من تطبيق «تشات جي بي تي» للمستخدمين البالغين المسجلين في الولايات المتحدة. كما كشفت عن إطلاق باقة اشتراك جديدة تحمل اسم «Go» بسعر 8 دولارات شهرياً، تتضمن بعض الميزات المحسّنة، مثل ذاكرة أكبر وإمكانات أوسع لإنشاء الصور، وبسعر أقل من باقتي «Plus» (20 دولاراً شهرياً) و«Pro» (200 دولار شهرياً).

وبحسب شبكة «سي إن إن»، سيشاهد مشتركو باقة «Go» أيضاً إعلانات داخل الخدمة، في حين لن تُعرض أي إعلانات لمشتركي باقتي «Plus» و«Pro»، ولا لعملاء «أوبن إيه آي» من الشركات.

وكان سام ألتمان، الرئيس التنفيذي لشركة «أوبن إيه آي»، قد أعرب في وقت سابق، عن تحفظاته إزاء إدخال الإعلانات إلى «تشات جي بي تي». غير أن هذه الخطوة تأتي في سياق سعي الشركة الحثيث إلى إيجاد مصادر جديدة لزيادة الإيرادات من قاعدة مستخدميها التي تُقدَّر بنحو 800 مليون مستخدم شهرياً، وذلك للمساعدة في تغطية تكلفة البنية التحتية للذكاء الاصطناعي، التي تعتزم الشركة استثمار نحو 1.4 تريليون دولار فيها على مدى السنوات الثماني المقبلة.

وفي هذا السياق، قال ألتمان في نوفمبر (تشرين الثاني) الماضي، إن «أوبن إيه آي» تتوقع إنهاء عام 2025 بإيرادات سنوية تقارب 20 مليار دولار.

وكانت الشركة قد أطلقت العام الماضي، أداة تُعرف باسم «الدفع الفوري»، تتيح للمستخدمين شراء المنتجات مباشرةً من متاجر تجزئة مثل «وول مارت» و«إتسي» عبر «تشات جي بي تي». كما قدّمت أدوات في مجالات الصحة والتعليم وغيرها، في إطار مساعيها لجعل «تشات جي بي تي» جزءاً أساسياً من الحياة اليومية للمستخدمين، وربما تحفيزهم على الترقية إلى اشتراكات مدفوعة.

وقد تُثبت الإعلانات أنها استراتيجية مربحة لشركة «أوبن إيه آي»، إذ يمكن استغلال المعلومات المستخلصة من محادثات المستخدمين مع «تشات جي بي تي» لإنشاء إعلانات عالية الاستهداف. فعلى سبيل المثال، إذا طلب أحد المستخدمين المساعدة في التخطيط لرحلة، فقد تظهر له إعلانات متعلقة بفنادق أو أنشطة ترفيهية في الوجهة المقصودة.

وكجزء من هذا الاختبار، ستظهر الإعلانات أسفل إجابات «تشات جي بي تي» على استفسارات المستخدمين، مع تصنيفها بوضوح على أنها «إعلانات ممولة». وأكدت «أوبن إيه آي» أن هذه الإعلانات لن تؤثر في محتوى إجابات «تشات جي بي تي»، مشددة على أن المستخدمين «يجب أن يثقوا بأن الإجابات تستند إلى ما هو مفيد موضوعياً».

كما أوضحت الشركة أنها لن تبيع بيانات المستخدمين أو محادثاتهم للمعلنين، مؤكدةً أن بإمكان المستخدمين تعطيل تخصيص الإعلانات المبنية على محادثاتهم في أي وقت.


دراسة جديدة تكشف حدود الذكاء الاصطناعي في إنجاز مشاريع العمل عن بُعد

الدراسة تقدم «مؤشر العمل عن بُعد» كأول مقياس واقعي لقدرة الذكاء الاصطناعي على إنجاز مشاريع عمل حقيقية متكاملة (شاترستوك)
الدراسة تقدم «مؤشر العمل عن بُعد» كأول مقياس واقعي لقدرة الذكاء الاصطناعي على إنجاز مشاريع عمل حقيقية متكاملة (شاترستوك)
TT

دراسة جديدة تكشف حدود الذكاء الاصطناعي في إنجاز مشاريع العمل عن بُعد

الدراسة تقدم «مؤشر العمل عن بُعد» كأول مقياس واقعي لقدرة الذكاء الاصطناعي على إنجاز مشاريع عمل حقيقية متكاملة (شاترستوك)
الدراسة تقدم «مؤشر العمل عن بُعد» كأول مقياس واقعي لقدرة الذكاء الاصطناعي على إنجاز مشاريع عمل حقيقية متكاملة (شاترستوك)

أعاد التطور السريع في تقنيات الذكاء الاصطناعي طرح أسئلة قديمة متجددة حول الأتمتة ومستقبل العمل. فمن تطوير البرمجيات إلى إنتاج المحتوى، باتت أنظمة الذكاء الاصطناعي تُظهر قدرات لافتة في الاختبارات البحثية والمعايير التقنية. لكن فجوة أساسية ما زالت قائمة تتعلق بقدرة هذه الأنظمة على تنفيذ أعمال حقيقية ذات قيمة اقتصادية، كما هي مطلوبة في سوق العمل الفعلي.

دراسة جديدة تسعى للإجابة عن هذا السؤال عبر إطار قياس مبتكر يُعرف باسم «مؤشر العمل عن بُعد» (Remote Labor Index – RLI)، وهو أول معيار تجريبي يقيس بشكل منهجي قدرة وكلاء الذكاء الاصطناعي على أتمتة مشاريع عمل متكاملة مأخوذة من أسواق العمل الحر الحقيقية. وتأتي النتائج مفاجئة، وأكثر واقعية مما توحي به كثير من السرديات المتداولة حول قرب الاستغناء عن الوظائف البشرية.

ما بعد المعايير الاصطناعية

تركز معظم اختبارات الذكاء الاصطناعي الحالية على مهام محددة أو معزولة ككتابة شيفرات قصيرة أو الإجابة عن أسئلة تقنية أو تصفح الإنترنت أو تنفيذ أوامر حاسوبية مبسطة. ورغم أهمية هذه المعايير، فإنها غالباً لا تعكس التعقيد والتكامل والغموض الذي يميز العمل المهني الحقيقي.

من هنا جاء تطوير «مؤشر العمل عن بُعد»، الذي لا يختبر مهارات منفصلة، بل يقيس قدرة أنظمة الذكاء الاصطناعي على إنجاز مشاريع كاملة من البداية إلى النهاية، تماماً كما تُسند إلى محترفين يعملون لحساب عملاء حقيقيين. وتشمل هذه المشاريع مجالات مثل التصميم والهندسة المعمارية وإنتاج الفيديو وتحليل البيانات وتطوير الألعاب وإعداد الوثائق وغيرها من أشكال العمل عن بُعد التي تشكل جوهر الاقتصاد الرقمي المعاصر. وبهذا، تنقل الدراسة النقاش من مستوى القدرات النظرية إلى مستوى الأداء الفعلي القابل للقياس في السوق.

نتائج المؤشر تظهر أن الذكاء الاصطناعي ما زال عاجزاً عن أتمتة معظم مشاريع العمل عن بُعد بمستوى مهني مقبول (غيتي)

قياس مؤشر العمل عن بُعد

تتكون قاعدة بيانات المؤشر من 240 مشروع عمل حر مكتمل، يحتوي كل مشروع على ثلاثة عناصر رئيسية هي وصف تفصيلي للمهمة والملفات المدخلة اللازمة لتنفيذها ومخرجات نهائية أنجزها محترفون بشريون باعتبارها مرجعاً قياسياً. ولم تكتفِ الدراسة بالمخرجات فقط، بل جمعت أيضاً بيانات عن الوقت والتكلفة اللازمين لتنفيذ كل مشروع. وقد استغرق إنجاز المشروع الواحد، في المتوسط، نحو 29 ساعة من العمل البشري، بينما تجاوزت بعض المشاريع حاجز 100 ساعة. وتراوحت تكاليف المشاريع بين أقل من 10 دولارات وأكثر من 10 آلاف دولار، بإجمالي قيمة تتجاوز 140 ألف دولار وأكثر من 6 آلاف ساعة عمل فعلي.

ويعكس هذا التنوع والتعقيد المتعمد طبيعة العمل الحقيقي، بعيداً عن المهام المبسطة أو المتخصصة.

تقييم أداء الذكاء الاصطناعي

اختبر الباحثون عدة نماذج متقدمة من وكلاء الذكاء الاصطناعي باستخدام عملية تقييم بشرية دقيقة حيث مُنحت الأنظمة نفس أوصاف المشاريع والملفات التي حصل عليها المحترفون، وطُلب منها إنتاج مخرجات كاملة. ثم قام مقيمون مدربون بمقارنة نتائج الذكاء الاصطناعي بالمخرجات البشرية المرجعية، مع التركيز على سؤال جوهري يتعلق بمدى قبول العميل الحقيقي لهذا العمل باعتباره مكافئاً أو أفضل من عمل محترف بشري.

المقياس الأساسي في الدراسة هو «معدل الأتمتة» أي النسبة المئوية للمشاريع التي نجح الذكاء الاصطناعي في إنجازها بمستوى احترافي مقبول. كما استخدمت الدراسة نظام تصنيف شبيهاً بنظام «إيلو» لإجراء مقارنات دقيقة بين النماذج المختلفة، حتى في الحالات التي لم تصل فيها أي منها إلى مستوى الأداء البشري.

الأتمتة ما زالت محدودة جداً

على الرغم من التطورات الكبيرة في قدرات التفكير والتعامل متعدد الوسائط، تكشف النتائج أن أنظمة الذكاء الاصطناعي الحالية ما تزال بعيدة عن أتمتة العمل عن بُعد بشكل واسع. فقد بلغ أعلى معدل أتمتة تحقق 2.5 في المائة فقط، أي أن أقل من ثلاثة مشاريع من كل مائة وصلت إلى مستوى مقبول مقارنة بالعمل البشري. وتتحدى هذه النتيجة الافتراض السائد بأن التحسن في المعايير التقنية يعني بالضرورة قدرة فورية على استبدال العمل البشري. فحتى النماذج المتقدمة القادرة على كتابة الشيفرات أو توليد الصور والنصوص، غالباً ما تفشل عندما يُطلب منها دمج مهارات متعددة، أو الالتزام بتفاصيل معقدة أو تسليم ملفات متكاملة بجودة احترافية.

مستقبل العمل القريب يتجه نحو دعم الإنتاجية البشرية بالذكاء الاصطناعي بدلاً من استبدال الوظائف بالكامل (شاترستوك)

تعثر الذكاء الاصطناعي... ونجاحه

يكشف التحليل النوعي لأسباب الفشل عن مشكلات متكررة، أبرزها أخطاء تقنية أساسية مثل ملفات تالفة أو غير قابلة للاستخدام أو صيغ غير صحيحة أو مخرجات ناقصة وغير متسقة. وفي حالات أخرى، كانت المشاريع مكتملة شكلياً لكنها لا ترقى إلى المستوى المهني المتوقع في سوق العمل الحر.

في المقابل، رصدت الدراسة مجالات محدودة أظهر فيها الذكاء الاصطناعي أداءً أفضل نسبياً، لا سيما في المهام التي تتركز على معالجة النصوص أو توليد الصور أو التعامل مع الصوت كبعض أعمال التحرير الصوتي والتصميم البصري البسيط وكتابة التقارير وتصور البيانات المعتمد على الشيفرة البرمجية. وتشير هذه النتائج إلى أن الذكاء الاصطناعي يلعب بالفعل دوراً داعماً في بعض أنواع العمل، وإن لم يصل بعد إلى مرحلة الأتمتة الكاملة.

قياس التقدم دون تهويل

رغم انخفاض معدلات الأتمتة المطلقة، يُظهر المؤشر تحسناً نسبياً واضحاً بين النماذج المختلفة. فتصنيفات «إيلو» وهي نظام رياضي لتقييم الأداء النسبي، تشير إلى أن الأنظمة الأحدث تتفوق بشكل منهجي على سابقاتها، ما يعني أن التقدم حقيقي وقابل للقياس، حتى وإن لم يترجم بعد إلى إنجاز مشاريع كاملة. وتكمن قيمة «مؤشر العمل عن بُعد» في كونه أداة طويلة الأمد لمتابعة التطور، بعيداً عن التوقعات المبالغ فيها أو الأحكام الثنائية.

تشير نتائج الدراسة إلى أن الاستغناء الواسع عن العاملين في وظائف العمل عن بُعد ليس وشيكاً في الوقت الراهن. وبدلاً من ذلك، يُرجّح أن يكون الأثر القريب للذكاء الاصطناعي متمثلاً في تعزيز الإنتاجية على مستوى المهام، لا استبدال الوظائف بالكامل.

وسيظل الحكم البشري والقدرة على الدمج وضبط الجودة عناصر مركزية في العمل المهني. ومع ذلك، تحذر الدراسة من أن الذكاء الاصطناعي يختلف عن تقنيات الأتمتة السابقة؛ إذ يسعى إلى محاكاة قدرات معرفية عامة. وإذا تمكنت الأنظمة المستقبلية من سد الفجوة التي يكشفها المؤشر دون التكيّف المصطنع معه، فقد تكون الآثار على سوق العمل أعمق بكثير.

خط أساس جديد للنقاش

لا تدّعي هذه الدراسة التنبؤ بالمستقبل، لكنها تقدم خط أساس علمي وعملي لفهم موقع الذكاء الاصطناعي اليوم. ومن خلال ربط التقييم بعمل حقيقي وتكلفة فعلية ومعايير مهنية واقعية، تضع إطاراً أكثر دقة لنقاشات الأتمتة والعمل. ومع استمرار تطور الذكاء الاصطناعي، ستصبح أدوات مثل «مؤشر العمل عن بُعد» ضرورية للفصل بين التقدم الحقيقي والضجيج الإعلامي، وضمان أن يُبنى النقاش حول مستقبل العمل على الأدلة لا الافتراضات.