دراسة جديدة: نماذج الذكاء الاصطناعي اللغوية تفتقر لفهم حقيقي للعالم

أجراها باحثون بمعهد ماساتشوستس للتكنولوجيا

بحسب الدراسة أظهرت نماذج الذكاء الاصطناعي أنها لا تتعلم بالفعل الحقائق الكامنة عن العالم (أدوبي)
بحسب الدراسة أظهرت نماذج الذكاء الاصطناعي أنها لا تتعلم بالفعل الحقائق الكامنة عن العالم (أدوبي)
TT
20

دراسة جديدة: نماذج الذكاء الاصطناعي اللغوية تفتقر لفهم حقيقي للعالم

بحسب الدراسة أظهرت نماذج الذكاء الاصطناعي أنها لا تتعلم بالفعل الحقائق الكامنة عن العالم (أدوبي)
بحسب الدراسة أظهرت نماذج الذكاء الاصطناعي أنها لا تتعلم بالفعل الحقائق الكامنة عن العالم (أدوبي)

أظهرت نماذج اللغة الكبيرة (LLMs)، مثل النماذج التي يقوم عليها نموذج «GPT-4»، قدرات مذهلة في توليد النصوص، سواء أكان ذلك في كتابة الشعر، أو تأليف المقالات، حتى تقديم حلول برمجية. تُدرَّب هذه النماذج، المعتمدة على بنى معمارية متقدمة تُعرف باسم «المحوّلات» (Transformers)، على توقع تسلسل الكلمات، ما يمكّنها من الاستجابة للمطالبات بطرق تحاكي فهماً يشبه البشري. ومع ذلك، تشير أبحاث حديثة إلى أن هذه النماذج، على الرغم من قدراتها المثيرة للإعجاب، قد لا تتعلم بالفعل الحقائق الكامنة عن العالم.

خريطة لمدينة نيويورك الأميركية (أدوبي)
خريطة لمدينة نيويورك الأميركية (أدوبي)

التنقل في مدينة نيويورك دون خريطة

في دراسة حديثة قادها آشِش رامباتشان، أستاذ مساعد في الاقتصاد وباحث في مختبر نظم المعلومات واتخاذ القرار بمعهد ماساتشوستس للتكنولوجيا (LIDS)، قام الباحثون باختبار مدى قدرة نموذج لغوي مبني على «المحوّلات» على التنقل في مدينة نيويورك. وبينما أظهر النموذج دقة عالية في تقديم توجيهات دقيقة خطوة فخطوة عبر شبكة شوارع المدينة، تراجع أداؤه بشكل كبير عندما تمت إضافة عراقيل مثل إغلاق بعض الشوارع والتحويلات.

وعندما حلّل الباحثون أنماط التنقل التي أنتجها النموذج، اكتشفوا أن «خرائط» مدينة نيويورك التي كوّنها النموذج كانت تحتوي على مسارات غير واقعية، مثل شوارع غير موجودة وروابط غير دقيقة بين تقاطعات متباعدة. هذا الاكتشاف أثار تساؤلات حول حدود هذه النماذج، خاصة في البيئات التي تتطلب دقة كبيرة.

التداعيات في العالم الحقيقي

تنطوي هذه القيود على تداعيات هامة. فعلى الرغم من أن نماذج الذكاء الاصطناعي تبدو قادرة على التعامل مع مهام معقدة، فإن أداءها قد يتراجع بشكل كبير عندما تتغير المتغيرات البيئية، ولو بشكل بسيط. على سبيل المثال، قد يتمكن النموذج من التنقل في خريطة ثابتة لمدينة نيويورك، لكنه يتعثر عند مواجهة تحديات غير متوقعة، مثل إغلاق الشوارع. ويحذر فريق البحث من أن استخدام هذه النماذج في تطبيقات حقيقية قد يؤدي إلى فشل غير متوقع إذا واجهت سيناريوهات خارجة عن بيانات التدريب.

لعبة «أوثيللو» هي لعبة ألواح استراتيجية يشارك فيها لاعبان يلعبان على لوح مقسم إلى 8 × 8 مربعات غير مختلفة اللون (أدوبي)
لعبة «أوثيللو» هي لعبة ألواح استراتيجية يشارك فيها لاعبان يلعبان على لوح مقسم إلى 8 × 8 مربعات غير مختلفة اللون (أدوبي)

مقاييس لتقييم الفهم

لمزيد من التعمق في مدى قدرة نماذج الذكاء الاصطناعي على تكوين «نماذج للعالم»، أي تمثيلات داخلية للقواعد والهيكليات، طوّر الفريق مقياسين جديدين للتقييم، هما «تمييز التسلسل» و«ضغط التسلسل».

يقيس «تمييز التسلسل» قدرة النموذج على التمييز بين سيناريوهات مختلفة، مثل تمييز موضعين مختلفين على لوحة لعبة «أوثيللو». ويقيّم المقياس ما إذا كان النموذج يفهم أن مدخلات مختلفة تحمل دلالات مختلفة.

أما مقياس «ضغط التسلسل» فيقيّم قدرة النموذج على إدراك الحالات المتطابقة، مثل وضعين متطابقين على لوحة لعبة «أوثيللو»، ويفهم أن خطوات التحرك التالية من كل وضع يجب أن تكون متشابهة.

قام الفريق باختبار هذه المقاييس على فئة معينة من المسائل تشمل تسلسلاً محدداً من الحالات والقواعد، مثل التنقل في شبكة شوارع أو لعب «أوثيللو». من خلال هذه التقييمات، سعى الباحثون لفهم ما إذا كانت النماذج قد طوّرت بالفعل نماذج منطقية للعالم.

العشوائية قد تؤدي إلى فهم أعمق

كشف البحث عن نتيجة غير متوقعة، حيث أظهرت النماذج التي دربت على تسلسلات عشوائية قدرة أكبر على بناء نماذج داخلية دقيقة مقارنة بتلك التي دربت على بيانات منظمة. على سبيل المثال، في لعبة «أوثيللو»، كانت النماذج المدربة على حركات عشوائية قادرة على التعرف على جميع الحركات الممكنة، حتى الحركات غير المثلى التي لا يلجأ إليها اللاعبون المحترفون.

وأوضح كيون فافا، الباحث الرئيسي وأستاذ زائر في جامعة هارفارد، أنه «من الناحية النظرية، عندما يتم تدريب النموذج على حركات عشوائية، فإنه يرى مجموعة كاملة من الاحتمالات، بما في ذلك الخيارات غير المحتملة». ويبدو أن هذا التعرض الواسع «يساعد النموذج في تكوين نموذج أكثر دقة للعالم، وإن لم يلتزم بالأسلوب الأمثل».

ورغم هذه النتائج، لم يستطع أي من النماذج تكوين نموذج منطقي متكامل للعالم في مهمة التنقل. وعندما أضاف الباحثون تحويلات إلى خريطة نيويورك، فشلت جميع النماذج في التكيف. وأشار فافا إلى أن «التراجع في الأداء كان مفاجئاً؛ إغلاق واحد في المائة فقط من الشوارع تسبب في انخفاض الدقة بشكل حاد، من أداء شبه مثالي إلى 67 بالمائة فقط».

تراجع أداء نماذج الذكاء الاصطناعي بشكل كبير عندما تتغير المتغيرات البيئية ولو بشكل بسيط (أدوبي)
تراجع أداء نماذج الذكاء الاصطناعي بشكل كبير عندما تتغير المتغيرات البيئية ولو بشكل بسيط (أدوبي)

بناء نماذج للعالم موثوقة

تسلط نتائج هذه الدراسة الضوء على تحدٍ كبير، يتمثل في أنه عندما تبدو المحوّلات قادرة على أداء مهام معينة، فإنها قد تفتقر إلى الفهم الأساسي للقواعد. وشدّد رامباتشان على ضرورة الحذر، قائلاً: «غالباً ما يفترض الناس أنه بما أن هذه النماذج تحقق نتائج رائعة، فلا بد أنها طوّرت فهماً جوهرياً للعالم. لكن دراستنا تشير إلى أننا بحاجة إلى النظر في هذا الافتراض بعناية وعدم الاعتماد على الحدس فقط».

ويخطط الباحثون لتوسيع دراستهم لتشمل تحديات أكثر تعقيداً حيث قد تكون القواعد غير معروفة كلياً أو متغيرة. وباستخدام مقاييسهم التقييمية على هذه المجالات، يأملون في فهم حدود نماذج الذكاء الاصطناعي بشكل أفضل وتوجيه تطويرها في المستقبل.

تداعيات أوسع وأهداف مستقبلية

تتجاوز تداعيات هذا البحث فهم العالم الافتراضي، وتمس التطبيقات العملية. إذا كانت نماذج الذكاء الاصطناعي غير قادرة على تكوين نماذج داخلية دقيقة للعالم، فإن ذلك يثير تساؤلات حول استخدامها في مجالات تتطلب منطقاً دقيقاً، مثل القيادة الذاتية، والأبحاث العلمية، والتخطيط اللوجستي. ويقول الباحثون إن الحاجة ملحة لإعادة التفكير في كيفية تدريب هذه النماذج وتقييمها لتكون أكثر تكيفاً وموثوقية.

هذا البحث مدعوم من قبل عدة مؤسسات، بما في ذلك مبادرة علوم البيانات في جامعة هارفارد، ومؤسسة العلوم الوطنية، ومؤسسة ماك آرثر. سيتم عرض الدراسة في مؤتمر نظم معالجة المعلومات العصبية، حيث سيواصل الباحثون مناقشة تعقيدات نماذج الذكاء الاصطناعي واستكشاف مسارات جديدة لتطويرها.


مقالات ذات صلة

توقعات بتراجع مشتريات الصين من معدات تصنيع الرقائق في 2025

الاقتصاد مجسمات لرقائق إلكترونية وفي الخلفية علم الصين (رويترز)

توقعات بتراجع مشتريات الصين من معدات تصنيع الرقائق في 2025

قالت شركة استشارية الأربعاء إن مشتريات الصين لمعدات تصنيع الرقائق يُتوقع أن تتراجع هذا العام بعد ثلاث سنوات من النمو

«الشرق الأوسط» (بكين)
خاص تُعد «مجموعة stc» شريكاً رئيسياً في رحلة التحول الرقمي للمملكة مقدمة حلولاً تدعم الاقتصاد الرقمي (الشرق الأوسط) play-circle

خاص «مجموعة stc» في «ليب 2025»... قيادة التحول الرقمي عبر حلول مبتكرة للمستقبل

«الشرق الأوسط» تتعرّف إلى أبرز التقنيات في جناح «مجموعة stc» بمعرض «ليب 2025»

نسيم رمضان (الرياض)
تكنولوجيا الرئيس التنفيذي لشركة «أوبن إيه آي» سام ألتمان (يسار) والملياردير إيلون ماسك (أ.ف.ب)

بعد عرض ماسك... «أوبن إيه آي» تؤكد أن الشركة «ليست للبيع»

أكد مسؤول تنفيذي في «أوبن إيه آي»، الثلاثاء، في باريس أن الشركة الأميركية المطورة لبرنامج الدردشة الآلي «تشات جي بي تي»، «ليست للبيع».

«الشرق الأوسط» (واشنطن)
العالم الرئيس الأوكراني فولوديمير زيلينسكي والرئيس الأميركي دونالد ترمب خلال لقائهما في نيويورك... سبتمبر 2024 (رويترز)

أوكرانيا تعرض على ترمب معادن نادرة مقابل الأسلحة الأميركية

عرضت أوكرانيا إبرام صفقة مع الرئيس الأميركي ترمب لمواصلة المساعدات العسكرية الأميركية مقابل تطوير صناعة المعادن في أوكرانيا. فما القصة؟

«الشرق الأوسط» (كييف)
العالم نائب الرئيس الأميركي جيه دي فانس يلقي كلمة خلال الجلسة العامة لقمة عمل الذكاء الاصطناعي في القصر الكبير في باريس 11 فبراير 2025 (إ.ب.أ)

أميركا وبريطانيا لم توقعا على إعلان قمة الذكاء الاصطناعي في باريس

لم توقع الولايات المتحدة وبريطانيا، اليوم (الثلاثاء)، على إعلان قمة الذكاء الاصطناعي في باريس الذي حمل عنوان «بيان بشأن الذكاء الاصطناعي الشامل والمستدام».

«الشرق الأوسط» (باريس)

«الأبحاث العميقة» أحدث ميزة في «تشات جي بي تي»

«الأبحاث العميقة» أحدث ميزة في «تشات جي بي تي»
TT
20

«الأبحاث العميقة» أحدث ميزة في «تشات جي بي تي»

«الأبحاث العميقة» أحدث ميزة في «تشات جي بي تي»

كنت أجرب ميزة جديدة في «تشات جي بي تي» (ChatGPT) تسمى «البحث العميق» (deep research)، التي أعلنت عنها شركة «أوبن إيه آي»، الأسبوع الماضي.

أداة بنتائج ذات مضمون حقيقي

ووجدت أنها بدلاً من أن تكون مجرد أداة سهلة متحمسة لإرضاء رغبات المستخدمين، تقوم بنسج الحقائق والتحليلات في نتائج ذات مضمون حقيقي. إنها ليست مثالية، لكنها تصنف مع أداة «NotebookLM» من «غوغل» بين أكثر أدوات البحث في مجال الذكاء الاصطناعي إثارة للإعجاب التي جربتها. لا أعتقد أنني واجهت هلوسة واحدة في عشرات الآلاف من الكلمات التي تم إنشاؤها استجابة لاستفساراتي حتى الآن.

في الوقت الحالي، تتطلب الاستفادة من البحث العميق جيوباً عميقة؛ تظهر الميزة لأول مرة بوصفها جزءاً من نظام ChatGPT Pro، الذي يكلف 200 دولار شهرياً، وتقول الشركة إنه إذا سارت الاختبارات الإضافية كما هو متوقع، فسوف تصل الأداة إلى ChatGPT Plus مقابل 20 دولاراً شهرياً في غضون شهر أو نحو ذلك.

الأبحاث العميقة

تقدم مدونة «أوبن إيه آي» حول البحث العميق خلفية عن كيفية عمله، مصحوبة بمخططات توضح أداءه في معايير الذكاء الاصطناعي المختلفة. في الاستخدام، يبدو وكأنه نوع جديد من روبوتات الدردشة التي تؤدي واجباتها المنزلية بالفعل. ويأتي بإجابات عن الأسئلة بطريقة أقرب إلى الطريقة التي قد يتبعها مساعد البحث البشري، من خلال استشارة المصادر حول الويب في الوقت الفعلي وتلخيصها في كل متماسك.

إنه مثال أكثر تفصيلاً ومفيد على الفور للذكاء الاصطناعي الوكيل من «Operator»، وهي ميزة أخرى تم تقديمها مؤخراً في «ChatGPT» قادرة على البحث في الويب نيابة عن مستخدميها.

عمل سريع وليس فورياً

وفقاً للمعايير البشرية، يقوم البحث العميق بعمله بسرعة، لكنه ليس فورياً. تقول الشركة إنه من المتوقع أن تستغرق العملية من 5 إلى 30 دقيقة لكل استعلام. وأثناء عمله، يعرض عادةً قائمة تشغيل من الملاحظات.

على سبيل المثال، في أعقاب طلب قدمته يتضمن تاريخ الوجبات السريعة، أجاب بما يلي: «بحثت عن عدد مواقع (ماكدونالدز) في الستينات». في بعض الأحيان فإنه يجعل إنجاز إنشاء نص بالذكاء الاصطناعي يبدو أقل سحراً وأكثر شبهاً بعملية حسابية قد يفهمها البشر العاديون، وهو تغيير مرحب به عن طبيعة الذكاء الاصطناعي الغامضة في كثير من الأحيان.

أجوبة مفصلة وتحليلية

قمت بإلقاء مجموعة من الأسئلة الشاملة في أداة البحث العميق، مثل كتابة تحليل تنافسي لسوق برامج تحرير الصور، وشرح كيفية عمل الساعات الميكانيكية، ومقارنة تقنيات التصوير الفوري من «بولارويد» و«كوداك»، وتوثيق محاولات قمع حرية التعبير في الولايات المتحدة من عام 1900 إلى عام 1950.

في كل حالة، عاد النظام الذكي بردود مفصلة مليئة بالحقائق المختارة بعناية والتحليل الواضح، كما قدم أيضاً اقتباسات تشبه «ويكيبيديا» لعمله، وهي نعمة من أجل البحث وسمة مساعدة لمزيد من القراءة حول موضوع ما.

نقاط الضعف والمحدودية

على الرغم من أن البحث العميق مثير للإعجاب، فإن أنواعاً معينة من الطلبات كشفت عن نقاط ضعفه. كما هو الحال مع معظم روبوتات الذكاء الاصطناعي المولدة، فإن لديه مواقف إيجابية لا هوادة فيها تعيق أي شيء يتطلب تقييماً نقدياً.

وتروج الشركة للميزة بوصفها قادرة على تقديم «توصيات مخصصة للغاية بشأن المشتريات التي تتطلب عادةً بحثاً دقيقاً». ولكن كلما زادت معرفتي بمنتج ما، قل إعجابي بنصائحها. على سبيل المثال، كانت اقتراحاتها بشأن الكاميرات المستخدمة في التصوير الفوتوغرافي في الشوارع مشوشة بسبب الأسعار. وعندما سألتها عن الأجهزة اللوحية القادرة على استبدال الكومبيوتر المحمول، أبدت حماساً بشأن أجهزة iPad Pro 2022، على ما يبدو أنها لم تكن على علم بأن «أبل» استبدلتها العام الماضي.

بفضل ملاحظات تشغيل الميزة والاستشهادات، أصبحت بعض قيودها الحالية الأخرى واضحة. على سبيل المثال، حاولت غالباً قراءة المصادر التي قد تكون ذات قيمة، مثل تقارير المستهلكين Consumer Reports، إلا أنها كانت محمية بجدار الدفع المالي. كما لا يبدو أنها تؤدي دوراً جيداً في صيد المواد من ملفات PDF الغامضة المنتشرة في العديد من أركان وزوايا الأرشيف على الإنترنت.

وهناك شيء آخر: لقد ظل يسألني عما إذا كنت أرغب في أن تتضمن إجاباته مخططات ورسوماً بيانية. كنت أقول دائماً نعم، لكنه لم يقدم أيّاً منها أبداً. سيكون من الجيد لو حصل في النهاية على هذا الخيار الذي يعتقد خطأ أنه يمتلكه بالفعل.

قد يكون البحث العميق أول أداة بحث عامة معززة بالذكاء الاصطناعي، وهو اختراق في الوقت الحالي لتطوير أدوات أفضل مقبلة.

* مجلة «فاست كومباني»، خدمة «تريبيون ميديا».