عام 2025: ثورة في عالم نماذج الذكاء الاصطناعي

كبرى شركات التقنية الأميركية القيادية تقدم نظماً بسرعات أعلى وتكلفة أقل

الذكاء الاصطناعي سيساهم في إيجاد حلول طبية وعلمية لمساعدة البشر
الذكاء الاصطناعي سيساهم في إيجاد حلول طبية وعلمية لمساعدة البشر
TT

عام 2025: ثورة في عالم نماذج الذكاء الاصطناعي

الذكاء الاصطناعي سيساهم في إيجاد حلول طبية وعلمية لمساعدة البشر
الذكاء الاصطناعي سيساهم في إيجاد حلول طبية وعلمية لمساعدة البشر

أعادت خدمة «ديب سيك» Deepseek نظر الشركات الأميركية القيادية حالياً في الخدمات التي تقدمها بأسعار مرتفعة، وقامت بتحديث تلك الخدمات بعد إطلاق «ديب سيك» بشكل فوري، لتحافظ على ماء وجهها أمام المستخدمين والمستثمرين على حد سواء. وكما هو متوقع، قامت كل من «أوبن إيه آي» و«غوغل» و«مايكروسوفت» بإطلاق نماذج جديدة من «تشات جي بي تي» و«جيميناي» و«كوبايلوت» مقدمة خدمات مجانية وقدرات إضافية للمستخدمين، وسنتعرف في هذا الموضوع على أبرز تلك المزايا.

يتفوق نموذج «أو3-ميني» على إصدارات «تشات جي بي تي» السابقة بشكل كبير

«تشات جي بي تي أو3-ميني»

طرحت «أوبن إيه آي» نموذج «تشات جي بي تي أو3-ميني» ChatGPT o3-mini لأصحاب الحسابات المجانية، الذي يقدم سرعة أداء ودقة أعلى مقارنة بالإصدارات السابقة، تصل إلى 24 في المائة أسرع في تقديم الإجابات، بجانب زيادة قدراته في حل مسائل الرياضيات والعلوم والبرمجة والمسائل المتعلقة بالاستنباط المنطقي. ويعرض هذا النموذج خطوات الوصول إلى الإجابة عوضاً عن تقديمها مباشرة، على غرار «ديب سيك».

ويُعد هذا النموذج نسخة مصغرة من نموذج «أو3»، الأمر الذي من شأنه خفض تكاليف التشغيل وزيادة سرعة الأداء من خلال اعتماد «أو3-ميني» على ما يُعرف بـ«تقطير المعرفة» Knowledge Distillation من نماذجها، والتي تعني نقل المعرفة من نموذج ذكاء اصطناعي متقدم إلى نموذج أصغر وأعلى كفاءة، بهدف رفع مستويات الأداء، عوضاً عن تدريب ذلك النموذج المصغر من الصفر على كميات ضخمة جداً من البيانات. وتوفر الشركة هذا النموذج في 3 مستويات هي الأساسية والمتوسطة والعالية.

تفوق مطلق في الاختبارات

وتمت مقارنة هذا النموذج مع نماذج سابقة شملت o1-preview وo1 إضافة إلى مقارنة مستوياته الثلاثة o3-mini Low وo3-mini Medium وo3-mini High؛ حيث تفوق نموذج o3-mini High على جميع المستويات والنماذج السابقة بشكل واضح في عدة اختبارات، منها اختبار SWE-bench لدقة البرمجيات (بنسبة 49.3 في المائة مقارنة بـ41.3 في المائة و48.9 في المائة و40.8 في المائة و42.9 في المائة لـo1-preview وo1 وo1-mini وo3-mini Low)، واختبار FrontierMath لحل المسائل الرياضية (بنسبة 20 في المائة مقارنة بـ12.8 في المائة لكل من o1 وo1-mini).

كما تفوق هذا النموذج السريع في اختبار Graduate-level Good-proof Q&A GPQA لتقييم قدرة نماذج الذكاء الاصطناعي على الإجابة على الأسئلة المعقدة التي يصعب العثور على إجابتها في الإنترنت، بدقة وصلت نسبتها إلى 79.7 في المائة (مقارنة بـ78.3 في المائة و78 في المائة و60 في المائة و70.6 في المائة و76.8 في المائة لـo1-preview وo1 وo1-mini وo3-mini Low وo3-mini Medium)، واختبار الرياضيات الأميركي AIME بنسبة 87.3 في المائة (مقارنة بـ56.7 في المائة و83.3 في المائة و63.6 في المائة و60 في المائة و79.6 في المائة لـo1-preview وo1 وo1-mini وo3-mini Low وo3-mini Medium)، واختبار البرمجة Codeforces ELO Score لمهام البرمجة بقيمة 2130 نقطة (مقارنة بـ1258 و1891 و1650 و1831 و2036 نقطة لـo1-preview وo1 وo1-mini وo3-mini Low وo3-mini Medium).

أما بالنسبة لاختبار المعرفة العامة، فتفوق في امتحانين للمعرفة العامة بنسبة 86.9 في المائة (مقارنة بــ85.2 في المائة و84.9 في المائة و85.9 في المائة لنماذج o1-mini وo3-mini Low وo3-mini Medium) و97.9 في المائة (مقارنة بـ90 في المائة و95.8 في المائة و97.3 في المائة لنماذج o1-mini وo3-mini Low وo3-mini Medium). كما تفوق في اختبار المعرفة العامة للرياضيات بنسبة 92 في المائة مقارنة بـ89.9 في المائة و55.1 في المائة و90.8 في المائة لنماذج o1-mini وo3-mini Low وo3-mini Medium، و13.8 في المائة، مقارنة بـ7.6 في المائة و13 في المائة و13.4 في المائة لنماذج o1-mini وo3-mini Low وo3-mini Medium في اختبار المعرفة العامة للحقائق.

كيفية استخدام نموذج «أو3-ميني»

ويمكن لمستخدمي الإصدار المجاني من «تشات جي بي تي» تفعيل «أو3-ميني» باختيار «المنطق» Reason في الجهة السفلية من صندوق الرسائل. أما إن كنت من مستخدمي الإصدارات المدفوعة لـ«تشات جي بي تي» (مثل ChatGPT Plus وTeam وPro)، فيمكنك اختيار المستوى المرغوب من قائمة النماذج في الجهة العلوية لغاية 150 رسالة يومياً، مع توفير النموذج عبر واجهة برمجة التطبيقات API الخاصة بـ«أوبن إيه آي» لدمجه في التطبيقات والبرامج، أو من خلال خدمات «مايكروسوفت أزور» Microsoft Azure و«غيت هاب كوبايلوت» GitHub Copilot.

«البحث العميق»

وعلى صعيد ذي صلة، أضافت الشركة ميزة «البحث العميق» Deep Research التي تقوم بعمليات البحث والتحليل متعدد الخطوات، وإعادة التقييم، في حال عدم الوصول إلى النتيجة المرغوبة أو وفقاً لمعلومات جديدة، ولكن على حساب الوقت المستغرق في ذلك. ويمكن لهذه الميزة تحليل النصوص والصور والملفات (مثل وثائق PDF وجداول الحسابات) في خلال فترة تتراوح بين 5 و30 دقيقة، مع تقديم تحديثات لما يفكر به الذكاء الاصطناعي، والخطوات التي يتبعها للوصول إلى النتيجة على غرار أسلوب «ديب سيك».

وتعمل هذه الميزة بمستوى يعادل مستوى محترفي تحليل الأبحاث، ولكنها تواجه صعوبات تتمثل بعدم التمييز بين المعلومات الموثوقة والشائعات، وعدم القدرة على تحديد دقة بعض النتائج، ما يدل على أهمية التحليل البشري، وعدم الاعتماد على الذكاء الاصطناعي في المجالات المهمة حالياً؛ بل ضرورة استخدامه كأداة للبحث والتلخيص، ومن ثم مراجعة كل ما يشاركه مع المستخدم للتأكد منه.

هذه الميزة متاحة لمشتركي فئة الخدمة Pro، وتقدم 100 عملية استعلام شهرياً، مع وعد الشركة بتقديم عدد أعلى لعمليات الاستخدام لدى تطوير إصدار أعلى كفاءة وسرعة.

وتفوقت هذه الميزة بنسبة 26.6 في المائة لدى تفعيل أدوات التصفح ولغة البرمجة Python في اختبار الذكاء الاصطناعي Humanity’s Last Exam لقياس قدرة النماذج على الإجابة عن أسئلة عالية المستوى، مقارنة بـ3.3 في المائة و13 في المائة لنموذجي GPT-4o وo3-mini.

«جيميناي 2.0 فلاش»

من جهتها، أطلقت «غوغل» أسرع نموذج ذكاء اصطناعي خاص بها إلى الآن اسمه «جيميناي 2.0 فلاش» Gemini 2.0 Flash وبشكل مجاني. وتزداد سرعة الإجابة في هذا النموذج بشكل كبير، ولكن على حساب الدقة، إلا أنه يُعتبر تحسيناً شاملاً أفضل مقارنة بالإصدار السابق «جيميناي 1.5 فلاش».

ويمكن اختيار النموذج المرغوب من قائمة النماذج في الجهة العلوية، بين هذا النموذج ونموذجي «جيميناي 1.5 فلاش» و«جيميناي 1.5 فلاش برو» (سيبقى هذان النموذجان متاحين لبضعة أسابيع مقبلة دون تحديد تاريخ توقفهما عن العمل).

«غوغل» تطرح نموذج «جيميناي 2.0 فلاش» فائق السرعة مجاناً لجميع المستخدمين

ويقدم نموذج «فلاش» نسخة مصغرة من الذكاء الاصطناعي أعلى سرعة، وعادة ما تكون مجانية، بينما توجد نماذج أخرى أقل سرعة ولكنها أفضل في القدرة، مثل نموذج «جيميناي أدفانسد» المدفوع الذي يستطيع تحليل ملفات وثائق ضخمة يصل حجمها إلى 1500 صفحة، إضافة إلى تقديم النماذج المتخصصة Gems في مجالات محددة تناسب الشركات والمحترفين لقاء اشتراكات شهرية.

كما كشفت «غوغل» عن ترقية منصة توليد الصور بالذكاء الاصطناعي، لتعتمد على نموذج «إماجين3» Imagen3 المتقدم الذي يستطيع إيجاد صور واقعية بشكل كبير، بمجرد تقديم وصف نصي للصورة المرغوبة.

«مايكروسوفت كوبايلوت»

وأعلنت «مايكروسوفت» عن إتاحة نموذج «تشات جي بي تي أو1» ChatGPT o1، مجاناً لكافة مستخدمي مساعدها «كوبايلوت» Copilot على الكومبيوترات التي تعمل بنظام التشغيل «ويندوز» أو عبر المتصفح، وذلك ضمن ميزة «التفكير الأعمق» Think Deeper للتعامل مع الأسئلة المعقدة وتحليلها من عدة جوانب، وهي عملية تستغرق نحو 30 ثانية لتقديم إجابة تحليلية عميقة. هذا، وسيعرض «كوبايلوت» خطوات التفكير خلال عملية التحليل وعرض النتيجة، على غرار أسلوب «ديب سيك».

ومن المتوقع أن يشهد عام 2025 نقلة نوعية لتقنيات الذكاء الاصطناعي، لتصبح أكثر تطوراً في المهام المعقدة، مثل المعادلات الرياضية الصعبة، وتطوير الأدوية واللقاحات، والتعرف على الأمراض من الصور الإشعاعية بدقة عالية، وخصوصاً مع انطلاق عصر «وكلاء الذكاء الاصطناعي» AI Agents من «مايكروسوفت» و«غوغل» وغيرها من الشركات المتخصصة، وفي ظل المنافسة مع الشركات الصينية التي بدأت تكشف عن قدراتها المتقدمة والثورية في تقنيات الذكاء الاصطناعي.

دمجت «مايكروسوفت» نموذج «تشات جي بي تي أو1» في مساعد «كوبايلوت» للذكاء الاصطناعي مجاناً للجميع


مقالات ذات صلة

الاقتصاد خطوط نقل طاقة تمر عبر محطة فرعية على طول شبكة الكهرباء في ميامي (أ.ف.ب)

خطة ترمب لمواجهة أزمة الطاقة: شركات الذكاء الاصطناعي «ستدفع الثمن»

أعلنت إدارة الرئيس الأميركي دونالد ترمب خطة استراتيجية تُلزم شركات التكنولوجيا الكبرى بتحمل تكاليف بناء محطات طاقة جديدة.

«الشرق الأوسط» (واشنطن)
يوميات الشرق صورة تظهر شعار «غروك» (رويترز)

والدة أحد أطفال ماسك تقاضي شركته للذكاء الاصطناعي

رفعت والدة أحد أطفال إيلون ماسك دعوى قضائية ضد شركة الذكاء الاصطناعي الخاصة به.

«الشرق الأوسط» (واشنطن)
تكنولوجيا شعار تطبيق «تشات جي بي تي» (رويترز)

«تشات جي بي تي» يستعد لعرض إعلانات بناءً على محادثات المستخدمين

قد يبدأ تطبيق الدردشة المدعم بالذكاء الاصطناعي «شات جي بي تي» قريباً بعرض إعلانات لمنتجات وخدمات يُرجّح أنها تهم المستخدمين.

«الشرق الأوسط» (واشنطن)
تكنولوجيا تقنيات الذكاء الاصطناعي أصبحت قادرة على استخراج معلومات حساسة من الصوت دون علم المتحدث (أدوبي)

بيانات الصوت البيومترية... هل تهدد الخصوصية في زمن الخوارزميات؟

الصوت يحمل بيانات شخصية حساسة تكشف الصحة والمشاعر والهوية، ومع تطور تقنيات تحليل الكلام تزداد تحديات الخصوصية والحاجة لحمايتها بوعي وتشريعات.

نسيم رمضان (لندن)

صاروخ إعادة البشر إلى القمر يُنقل لمنصة الإطلاق بفلوريدا

مركبة «أرتميس 2» الفضائية موجودة في الحجرة رقم 3 بمبنى تجميع المركبات بمركز كينيدي للفضاء في كيب كانافيرال (أ.ف.ب)
مركبة «أرتميس 2» الفضائية موجودة في الحجرة رقم 3 بمبنى تجميع المركبات بمركز كينيدي للفضاء في كيب كانافيرال (أ.ف.ب)
TT

صاروخ إعادة البشر إلى القمر يُنقل لمنصة الإطلاق بفلوريدا

مركبة «أرتميس 2» الفضائية موجودة في الحجرة رقم 3 بمبنى تجميع المركبات بمركز كينيدي للفضاء في كيب كانافيرال (أ.ف.ب)
مركبة «أرتميس 2» الفضائية موجودة في الحجرة رقم 3 بمبنى تجميع المركبات بمركز كينيدي للفضاء في كيب كانافيرال (أ.ف.ب)

نقلت وكالة الفضاء الأميركية (ناسا) صاروخها العملاق «إس إل إس»، الذي من المفترض أن يحمل روّاد فضاء إلى مدار القمر في أوّل مهمّة منذ أكثر من 50 سنة، إلى منصّة إطلاق لإجراء تجارب تمهيداً لرحلة «أرتيميس 2».

واستغرقت العمليّة، أمس (السبت)، نحو 12 ساعة، وتعدّ من الخطوات الأخيرة المتبقّية قبل إقلاع المهمّة المرتقب بين مطلع فبراير (شباط) وأواخر أبريل (نيسان).

ونقل الصاروخ الضخم الأبيض والبرتقالي فجراً من مبنى تركيب القطع في اتجاه مجمّع إطلاق الصواريخ «39 بي» في مركز كيندي الفضائي في فلوريدا حيث وصل عصراً، ومن المرتقب أن يخضع لسلسلة من الفحوص.

إن كانت النتائج مرضية، فسيكون في وسع الصاروخ الإقلاع بدءاً من السادس من فبراير، حسب التقديرات الأوّلية لـ«ناسا»، في مهمّة هي الأولى منذ «أبولو» في 1972 تحمل أربعة روّاد، ثلاثة أميركيين وكندي، إلى مدار القمر.

وقال جون هانيكات المشرف على برنامج الصاروخ خلال مؤتمر صحافي، الجمعة: «نحن بصدد كتابة التاريخ»، وفق ما أفادت «وكالة الصحافة الفرنسية».

صاروخ «ناسا» العملاق أرتميس «إس إل إس» في مركز كيندي الفضائي (أ.ف.ب)

«جعل المستحيل ممكناً»

حضر الروّاد الأربعة، وهم ريد وايزمن وكريستينا هاموك كوك وفيكتور غلوفر وجيريمي هانسن، عمليّة نقل الصاروخ، السبت.

ومع كبسولة «أوريون» التي سيتمركز فيها الروّاد، يبلغ طول الصاروخ 98 متراً، أي أنّه أعلى من تمثال الحرّية، لكنه أقصر بقليل من صاروخ «ساتورن 5» الذي نقل مهمّات «أبولو» المأهولة إلى القمر والممتدّ على 110 أمتار.

وقال الرائد الكندي جيريمي هانسن في تصريحات للإعلام: «أنا متحمّس جدّاً. وفي خلال أسابيع قليلة، ستشهدون على تحليق أربعة أشخاص في مدار القمر. وإن كنّا قادرين على أمر مماثل اليوم، فتخيّلوا ما سيكون في وسعنا فعله غداً». وصرّح زميله فيكتور غلوفر: «نبذل ما في وسعنا لجعل المستحيل ممكناً».

ومن المفترض أن تمتدّ هذه المهمّة نحو عشرة أيّام يدور خلالها الطاقم حول القمر، تمهيداً للرحلة المقبلة التي ستشكّل العودة المنتظرة للبشر إلى سطح القمر بهدف إقامة وجود دائم هذه المرّة.

صاروخ أرتميس العملاق «إس إل إس» التابع لشركة «ناسا» في مركز كيندي الفضائي (أ.ف.ب)

لكن هذه المهمّة تشكّل في ذاتها سابقة على مستويات عدّة. فهي أوّل رحلة إلى مدار القمر تشارك فيها امرأة ورائد غير أبيض وآخر غير أميركي.

«سباق ثان إلى الفضاء»

وقبل الانطلاق، يتحقّق مهندسو «ناسا» من أمن الصاروخ ومتانته. ومن المفترض إجراء سلسلة من الفحوص قبل تدريب عام على عملية محاكاة.

وأطلقت مهمّة «أرتيميس 1» غير المأهولة في نوفمبر (تشرين الثاني) 2022 بعد عدّة تأجيلات ومحاولتين سابقتين غير ناجحتين.

ويهدف برنامج «أرتيميس» الذي كشف عنه النقاب خلال الولاية الأولى لدونالد ترمب إلى إقامة وجود بشري دائم على القمر في نهاية المطاف، والتمهيد لرحلات مقبلة نحو المريخ، لكنه تعرض لتأخيرات كثيرة في السنوات الأخيرة، غير أن «ناسا» أحدثت مفاجأة في أواخر 2025 مع إعلانها عن احتمال إطلاق «أرتيميس 2» في «مطلع فبراير» بدلاً من أبريل.

وقد يعزى تقريب الموعد إلى ضغوط من إدارة ترمب الطامعة بكسب «سباق ثان إلى الفضاء» ضدّ بكين بعد ذاك الذي تواجهت فيه الولايات المتحدة مع الاتحاد السوفياتي إبّان الحرب الباردة.

وبات محور المنافسة اليوم إرسال البشر إلى القمر بحلول 2030 وإقامة قاعدة على سطحه. ومن المرتقب أن يتمّ تأجيل مهمّة «أرتيميس 3» المحدّد موعدها راهناً في منتصف 2027. ويشير خبراء الملاحة الفضائية إلى أن جهاز الهبوط على القمر الذي طوّرته شركة «سبايس إكس»، التابعة لإيلون ماسك، غير جاهز بعد، ما يؤشّر إلى أن الصين قد تسحب البساط من تحت قدمي الولايات المتحدة.


«تشات جي بي تي» يستعد لعرض إعلانات بناءً على محادثات المستخدمين

شعار تطبيق «تشات جي بي تي» (رويترز)
شعار تطبيق «تشات جي بي تي» (رويترز)
TT

«تشات جي بي تي» يستعد لعرض إعلانات بناءً على محادثات المستخدمين

شعار تطبيق «تشات جي بي تي» (رويترز)
شعار تطبيق «تشات جي بي تي» (رويترز)

قد يبدأ تطبيق الدردشة المدعم بالذكاء الاصطناعي «تشات جي بي تي» قريباً بعرض إعلانات لمنتجات وخدمات يُرجّح أنها تهم المستخدمين، وذلك استناداً إلى طبيعة محادثاتهم مع المنصة.

وأعلنت شركة «أوبن إيه آي»، أمس (الجمعة)، أنها ستختبر هذه الإعلانات في النسخة المجانية من تطبيق «تشات جي بي تي» للمستخدمين البالغين المسجلين في الولايات المتحدة. كما كشفت عن إطلاق باقة اشتراك جديدة تحمل اسم «Go» بسعر 8 دولارات شهرياً، تتضمن بعض الميزات المحسّنة، مثل ذاكرة أكبر وإمكانات أوسع لإنشاء الصور، وبسعر أقل من باقتي «Plus» (20 دولاراً شهرياً) و«Pro» (200 دولار شهرياً).

وبحسب شبكة «سي إن إن»، سيشاهد مشتركو باقة «Go» أيضاً إعلانات داخل الخدمة، في حين لن تُعرض أي إعلانات لمشتركي باقتي «Plus» و«Pro»، ولا لعملاء «أوبن إيه آي» من الشركات.

وكان سام ألتمان، الرئيس التنفيذي لشركة «أوبن إيه آي»، قد أعرب في وقت سابق، عن تحفظاته إزاء إدخال الإعلانات إلى «تشات جي بي تي». غير أن هذه الخطوة تأتي في سياق سعي الشركة الحثيث إلى إيجاد مصادر جديدة لزيادة الإيرادات من قاعدة مستخدميها التي تُقدَّر بنحو 800 مليون مستخدم شهرياً، وذلك للمساعدة في تغطية تكلفة البنية التحتية للذكاء الاصطناعي، التي تعتزم الشركة استثمار نحو 1.4 تريليون دولار فيها على مدى السنوات الثماني المقبلة.

وفي هذا السياق، قال ألتمان في نوفمبر (تشرين الثاني) الماضي، إن «أوبن إيه آي» تتوقع إنهاء عام 2025 بإيرادات سنوية تقارب 20 مليار دولار.

وكانت الشركة قد أطلقت العام الماضي، أداة تُعرف باسم «الدفع الفوري»، تتيح للمستخدمين شراء المنتجات مباشرةً من متاجر تجزئة مثل «وول مارت» و«إتسي» عبر «تشات جي بي تي». كما قدّمت أدوات في مجالات الصحة والتعليم وغيرها، في إطار مساعيها لجعل «تشات جي بي تي» جزءاً أساسياً من الحياة اليومية للمستخدمين، وربما تحفيزهم على الترقية إلى اشتراكات مدفوعة.

وقد تُثبت الإعلانات أنها استراتيجية مربحة لشركة «أوبن إيه آي»، إذ يمكن استغلال المعلومات المستخلصة من محادثات المستخدمين مع «تشات جي بي تي» لإنشاء إعلانات عالية الاستهداف. فعلى سبيل المثال، إذا طلب أحد المستخدمين المساعدة في التخطيط لرحلة، فقد تظهر له إعلانات متعلقة بفنادق أو أنشطة ترفيهية في الوجهة المقصودة.

وكجزء من هذا الاختبار، ستظهر الإعلانات أسفل إجابات «تشات جي بي تي» على استفسارات المستخدمين، مع تصنيفها بوضوح على أنها «إعلانات ممولة». وأكدت «أوبن إيه آي» أن هذه الإعلانات لن تؤثر في محتوى إجابات «تشات جي بي تي»، مشددة على أن المستخدمين «يجب أن يثقوا بأن الإجابات تستند إلى ما هو مفيد موضوعياً».

كما أوضحت الشركة أنها لن تبيع بيانات المستخدمين أو محادثاتهم للمعلنين، مؤكدةً أن بإمكان المستخدمين تعطيل تخصيص الإعلانات المبنية على محادثاتهم في أي وقت.


دراسة جديدة تكشف حدود الذكاء الاصطناعي في إنجاز مشاريع العمل عن بُعد

الدراسة تقدم «مؤشر العمل عن بُعد» كأول مقياس واقعي لقدرة الذكاء الاصطناعي على إنجاز مشاريع عمل حقيقية متكاملة (شاترستوك)
الدراسة تقدم «مؤشر العمل عن بُعد» كأول مقياس واقعي لقدرة الذكاء الاصطناعي على إنجاز مشاريع عمل حقيقية متكاملة (شاترستوك)
TT

دراسة جديدة تكشف حدود الذكاء الاصطناعي في إنجاز مشاريع العمل عن بُعد

الدراسة تقدم «مؤشر العمل عن بُعد» كأول مقياس واقعي لقدرة الذكاء الاصطناعي على إنجاز مشاريع عمل حقيقية متكاملة (شاترستوك)
الدراسة تقدم «مؤشر العمل عن بُعد» كأول مقياس واقعي لقدرة الذكاء الاصطناعي على إنجاز مشاريع عمل حقيقية متكاملة (شاترستوك)

أعاد التطور السريع في تقنيات الذكاء الاصطناعي طرح أسئلة قديمة متجددة حول الأتمتة ومستقبل العمل. فمن تطوير البرمجيات إلى إنتاج المحتوى، باتت أنظمة الذكاء الاصطناعي تُظهر قدرات لافتة في الاختبارات البحثية والمعايير التقنية. لكن فجوة أساسية ما زالت قائمة تتعلق بقدرة هذه الأنظمة على تنفيذ أعمال حقيقية ذات قيمة اقتصادية، كما هي مطلوبة في سوق العمل الفعلي.

دراسة جديدة تسعى للإجابة عن هذا السؤال عبر إطار قياس مبتكر يُعرف باسم «مؤشر العمل عن بُعد» (Remote Labor Index – RLI)، وهو أول معيار تجريبي يقيس بشكل منهجي قدرة وكلاء الذكاء الاصطناعي على أتمتة مشاريع عمل متكاملة مأخوذة من أسواق العمل الحر الحقيقية. وتأتي النتائج مفاجئة، وأكثر واقعية مما توحي به كثير من السرديات المتداولة حول قرب الاستغناء عن الوظائف البشرية.

ما بعد المعايير الاصطناعية

تركز معظم اختبارات الذكاء الاصطناعي الحالية على مهام محددة أو معزولة ككتابة شيفرات قصيرة أو الإجابة عن أسئلة تقنية أو تصفح الإنترنت أو تنفيذ أوامر حاسوبية مبسطة. ورغم أهمية هذه المعايير، فإنها غالباً لا تعكس التعقيد والتكامل والغموض الذي يميز العمل المهني الحقيقي.

من هنا جاء تطوير «مؤشر العمل عن بُعد»، الذي لا يختبر مهارات منفصلة، بل يقيس قدرة أنظمة الذكاء الاصطناعي على إنجاز مشاريع كاملة من البداية إلى النهاية، تماماً كما تُسند إلى محترفين يعملون لحساب عملاء حقيقيين. وتشمل هذه المشاريع مجالات مثل التصميم والهندسة المعمارية وإنتاج الفيديو وتحليل البيانات وتطوير الألعاب وإعداد الوثائق وغيرها من أشكال العمل عن بُعد التي تشكل جوهر الاقتصاد الرقمي المعاصر. وبهذا، تنقل الدراسة النقاش من مستوى القدرات النظرية إلى مستوى الأداء الفعلي القابل للقياس في السوق.

نتائج المؤشر تظهر أن الذكاء الاصطناعي ما زال عاجزاً عن أتمتة معظم مشاريع العمل عن بُعد بمستوى مهني مقبول (غيتي)

قياس مؤشر العمل عن بُعد

تتكون قاعدة بيانات المؤشر من 240 مشروع عمل حر مكتمل، يحتوي كل مشروع على ثلاثة عناصر رئيسية هي وصف تفصيلي للمهمة والملفات المدخلة اللازمة لتنفيذها ومخرجات نهائية أنجزها محترفون بشريون باعتبارها مرجعاً قياسياً. ولم تكتفِ الدراسة بالمخرجات فقط، بل جمعت أيضاً بيانات عن الوقت والتكلفة اللازمين لتنفيذ كل مشروع. وقد استغرق إنجاز المشروع الواحد، في المتوسط، نحو 29 ساعة من العمل البشري، بينما تجاوزت بعض المشاريع حاجز 100 ساعة. وتراوحت تكاليف المشاريع بين أقل من 10 دولارات وأكثر من 10 آلاف دولار، بإجمالي قيمة تتجاوز 140 ألف دولار وأكثر من 6 آلاف ساعة عمل فعلي.

ويعكس هذا التنوع والتعقيد المتعمد طبيعة العمل الحقيقي، بعيداً عن المهام المبسطة أو المتخصصة.

تقييم أداء الذكاء الاصطناعي

اختبر الباحثون عدة نماذج متقدمة من وكلاء الذكاء الاصطناعي باستخدام عملية تقييم بشرية دقيقة حيث مُنحت الأنظمة نفس أوصاف المشاريع والملفات التي حصل عليها المحترفون، وطُلب منها إنتاج مخرجات كاملة. ثم قام مقيمون مدربون بمقارنة نتائج الذكاء الاصطناعي بالمخرجات البشرية المرجعية، مع التركيز على سؤال جوهري يتعلق بمدى قبول العميل الحقيقي لهذا العمل باعتباره مكافئاً أو أفضل من عمل محترف بشري.

المقياس الأساسي في الدراسة هو «معدل الأتمتة» أي النسبة المئوية للمشاريع التي نجح الذكاء الاصطناعي في إنجازها بمستوى احترافي مقبول. كما استخدمت الدراسة نظام تصنيف شبيهاً بنظام «إيلو» لإجراء مقارنات دقيقة بين النماذج المختلفة، حتى في الحالات التي لم تصل فيها أي منها إلى مستوى الأداء البشري.

الأتمتة ما زالت محدودة جداً

على الرغم من التطورات الكبيرة في قدرات التفكير والتعامل متعدد الوسائط، تكشف النتائج أن أنظمة الذكاء الاصطناعي الحالية ما تزال بعيدة عن أتمتة العمل عن بُعد بشكل واسع. فقد بلغ أعلى معدل أتمتة تحقق 2.5 في المائة فقط، أي أن أقل من ثلاثة مشاريع من كل مائة وصلت إلى مستوى مقبول مقارنة بالعمل البشري. وتتحدى هذه النتيجة الافتراض السائد بأن التحسن في المعايير التقنية يعني بالضرورة قدرة فورية على استبدال العمل البشري. فحتى النماذج المتقدمة القادرة على كتابة الشيفرات أو توليد الصور والنصوص، غالباً ما تفشل عندما يُطلب منها دمج مهارات متعددة، أو الالتزام بتفاصيل معقدة أو تسليم ملفات متكاملة بجودة احترافية.

مستقبل العمل القريب يتجه نحو دعم الإنتاجية البشرية بالذكاء الاصطناعي بدلاً من استبدال الوظائف بالكامل (شاترستوك)

تعثر الذكاء الاصطناعي... ونجاحه

يكشف التحليل النوعي لأسباب الفشل عن مشكلات متكررة، أبرزها أخطاء تقنية أساسية مثل ملفات تالفة أو غير قابلة للاستخدام أو صيغ غير صحيحة أو مخرجات ناقصة وغير متسقة. وفي حالات أخرى، كانت المشاريع مكتملة شكلياً لكنها لا ترقى إلى المستوى المهني المتوقع في سوق العمل الحر.

في المقابل، رصدت الدراسة مجالات محدودة أظهر فيها الذكاء الاصطناعي أداءً أفضل نسبياً، لا سيما في المهام التي تتركز على معالجة النصوص أو توليد الصور أو التعامل مع الصوت كبعض أعمال التحرير الصوتي والتصميم البصري البسيط وكتابة التقارير وتصور البيانات المعتمد على الشيفرة البرمجية. وتشير هذه النتائج إلى أن الذكاء الاصطناعي يلعب بالفعل دوراً داعماً في بعض أنواع العمل، وإن لم يصل بعد إلى مرحلة الأتمتة الكاملة.

قياس التقدم دون تهويل

رغم انخفاض معدلات الأتمتة المطلقة، يُظهر المؤشر تحسناً نسبياً واضحاً بين النماذج المختلفة. فتصنيفات «إيلو» وهي نظام رياضي لتقييم الأداء النسبي، تشير إلى أن الأنظمة الأحدث تتفوق بشكل منهجي على سابقاتها، ما يعني أن التقدم حقيقي وقابل للقياس، حتى وإن لم يترجم بعد إلى إنجاز مشاريع كاملة. وتكمن قيمة «مؤشر العمل عن بُعد» في كونه أداة طويلة الأمد لمتابعة التطور، بعيداً عن التوقعات المبالغ فيها أو الأحكام الثنائية.

تشير نتائج الدراسة إلى أن الاستغناء الواسع عن العاملين في وظائف العمل عن بُعد ليس وشيكاً في الوقت الراهن. وبدلاً من ذلك، يُرجّح أن يكون الأثر القريب للذكاء الاصطناعي متمثلاً في تعزيز الإنتاجية على مستوى المهام، لا استبدال الوظائف بالكامل.

وسيظل الحكم البشري والقدرة على الدمج وضبط الجودة عناصر مركزية في العمل المهني. ومع ذلك، تحذر الدراسة من أن الذكاء الاصطناعي يختلف عن تقنيات الأتمتة السابقة؛ إذ يسعى إلى محاكاة قدرات معرفية عامة. وإذا تمكنت الأنظمة المستقبلية من سد الفجوة التي يكشفها المؤشر دون التكيّف المصطنع معه، فقد تكون الآثار على سوق العمل أعمق بكثير.

خط أساس جديد للنقاش

لا تدّعي هذه الدراسة التنبؤ بالمستقبل، لكنها تقدم خط أساس علمي وعملي لفهم موقع الذكاء الاصطناعي اليوم. ومن خلال ربط التقييم بعمل حقيقي وتكلفة فعلية ومعايير مهنية واقعية، تضع إطاراً أكثر دقة لنقاشات الأتمتة والعمل. ومع استمرار تطور الذكاء الاصطناعي، ستصبح أدوات مثل «مؤشر العمل عن بُعد» ضرورية للفصل بين التقدم الحقيقي والضجيج الإعلامي، وضمان أن يُبنى النقاش حول مستقبل العمل على الأدلة لا الافتراضات.