سيوبهان روبرتس
خدمة «نيويورك تايمز»
TT

معركة عقول... علماء رياضيات مع الذكاء الاصطناعي

استمع إلى المقالة

قبل بضعة أسابيع، أرسل طالب في المرحلة الثانوية رسالة بريد إلكتروني إلى عالم الرياضيات المعروف بإبداعه اللافت مارتن هايرر، إذ كان الشاب يطمح إلى أن يصبح عالم رياضيات، لكن مع صعود الذكاء الاصطناعي بدأت الشكوك تراوده.

وقال الطالب: «من الصعب فهم ما يحدث فعلاً. يبدو أن هذه النماذج تتحسّن كل يوم، وسرعان ما ستجعلنا بلا فائدة»، متسائلاً: «إذا كانت لدينا آلة تتفوق علينا بشكل ملحوظ في حل المشكلات، ألا تفقد الرياضيات بذلك جزءاً من سحرها؟».

هايرر، الذي فاز عام 2014 بميدالية «فيلدز»، أرفع جائزة في الرياضيات، وجائزة «بريكثرو» المرموقة عام 2021، يقسّم وقته بين المعهد الفيدرالي السويسري للتكنولوجيا في لوزان وكلية إمبريال في لندن. ورداً على الطالب، أشار إلى أن كثيراً من المجالات يواجه خطر التقادم بسبب تفوق الذكاء الاصطناعي.

وقال هايرر: «أعتقد أن الرياضيات في الواقع مجال آمن إلى حد كبير». وأوضح أن نماذج اللغة الكبيرة، أو ما يُعرف اختصاراً بـ«LLMs»، وهي التقنية التي تقوم عليها برامج الدردشة الآلية، أصبحت الآن بارعة للغاية في حل المسائل المُختلَقة. لكنه أضاف: «لم أرَ أي مثال مقنع على أن نموذجاً لغوياً كبيراً توصّل إلى فكرة أو مفهوم جديدين حقاً».

وأشار إلى هذا الحوار أثناء مناقشة ورقة بحثية جديدة بعنوان «البرهان الأول»، شارك في تأليفها مع عدد من علماء الرياضيات، من بينهم محمد أبو زيد من جامعة ستانفورد، ولورين ويليامز من جامعة هارفارد، وتامارا كولدا التي تدير شركة «MathSci.ai» الاستشارية في منطقة خليج سان فرانسيسكو.

وتصف الورقة البحثية تجربة بدأت مؤخراً، تجمع أسئلة اختبار حقيقية، مستمدة من أبحاث غير منشورة للمؤلفين، بهدف توفير مقياس ذي معنى لكفاءة الذكاء الاصطناعي في الرياضيات.

ويأمل المؤلفون في أن يضيف هذا البحث قدراً من الدقة إلى السرد المُبالغ فيه أحياناً حول قدرة الذكاء الاصطناعي على حل كل مسائل الرياضيات، وأن ذلك سيحد من تداعيات الضجة الإعلامية؛ مثل تخويف الجيل القادم من الطلاب أو تثبيط الجهات المموِّلة للأبحاث.

وكتب الباحثون: «في حين أن أنظمة الذكاء الاصطناعي التجارية قد وصلت بلا شك إلى مستوى يجعلها أدوات مفيدة لعلماء الرياضيات، فإنه لم يتضح بعد مدى قدرة هذه الأنظمة على حل مسائل رياضية بحثية بمفردها، دون تدخل خبير».

وتستخدم شركات الذكاء الاصطناعي ما يصفه بعض علماء الرياضيات بأنه مسائل «مصطنعة» أو «مقيَّدة» لتقييم أداء نماذج اللغة الكبيرة عند العمل دون مساعدة بشرية. وفي بعض الأحيان، يُدعى علماء الرياضيات للمساهمة ويُدفع لهم نحو 5 آلاف دولار لكل مسألة.

وفي أبريل (نيسان) الماضي، رفض أبو زيد، الحائز عام 2017 جائزة «New Horizons in Mathematics»، دعوة من هذا النوع. وقال: «رأيت أنه ينبغي أن يكون هناك جهد أوسع، مستقل وعلني». وأضاف أن «البرهان الأول» يمثّل المحاولة الأولى في هذا الاتجاه.

وقال ويليامز، الحاصل مؤخراً على زمالة مؤسستي «غوغنهايم» و«ماك آرثر»: «الهدف هو الحصول على تقييم موضوعي لقدرات الذكاء الاصطناعي البحثية».

ولأجل التجربة، قدّم كل واحد من الباحثين، الذين يمثلون مجالات رياضية متنوعة، سؤالاً اختبارياً واحداً نشأ من أبحاثهم التي كانوا يعملون عليها ولم ينشروها بعد. كما حددوا الإجابات، وهذه الحلول مشفّرة على الإنترنت وسيُكشف عنها يوم الجمعة.

وقالت كولدا، وهي من القلائل من علماء الرياضيات الذين انتُخبوا أعضاءً في الأكاديمية الوطنية للهندسة: «الهدف هنا هو فهم حدود الذكاء الاصطناعي، إلى أي مدى يمكنه تجاوز بيانات تدريبه والحلول الموجودة على الإنترنت؟».

وأجرى الفريق اختبارات أولية على نموذج «ChatGPT-5.2 Pro» من شركة «OpenAI» ونموذج «Gemini 3.0 Deep Think» من «Google». وكتب الباحثون أنه عند منح النماذج محاولة واحدة فقط لتقديم إجابة، تبيّن أن أفضل أنظمة الذكاء الاصطناعي المتاحة للجمهور تكافح لحل كثير من المسائل.

وتقدّم مقدمة الورقة البحثية تفسيراً لعنوانها، إذ تقول: «في الخَبز، تُعدّ عملية التخمير الأولى، خطوة حاسمة يُترك فيها كامل العجين ليتخمّر كتلةً واحدة قبل تقسيمه وتشكيله إلى أرغفة». وبعد نشر الدفعة الأولى من مسائل الاختبار، يدعو الفريق مجتمع الرياضيات إلى الاستكشاف، وبعد بضعة أشهر، وبعد تبادل الآراء والأفكار، ستُجرى جولة ثانية أكثر تنظيماً لتقييم الأداء باستخدام مجموعة جديدة من المسائل.

وأصدر الفريق ورقه «البرهان الأول» بالتزامن مع يوم أويلر، الذي يوافق السابع من فبراير (شباط)، المسمّى تيمناً بعالِم الرياضيات السويسري في القرن الثامن عشر ليونارد أويلر. وقد أُجريت المقابلة التالية عبر تقنية الفيديو والبريد الإلكتروني مع مؤلفي الورقة البحثية:

ما الجديد في طريقة «البرهان الأول» مقارنة بجهود التقييم الأخرى؟

محمد أبو زيد: تكمن الجِدّة الأساسية في أن أسئلة الاختبار مأخوذة فعلاً من أبحاثنا؛ فنحن نبدأ بما يهمنا. وضمن هذا الإطار نحاول صياغة أسئلة قابلة للاختبار. ما الذي يجعل السؤال قابلاً للاختبار؟ أنظمة الذكاء الاصطناعي الحالية لديها قيود معروفة. فهي مثلاً ضعيفة للغاية في الاستدلال البصري، لذا تجنّبنا هذا النوع من الأسئلة، كما أن الشركات تقيّد طول إجابات النماذج في المرة الواحدة، لأن جودة الإجابة تتدهور بعد حد معيّن، لذلك تجنّبنا الأسئلة التي تتطلب إجابات تتجاوز خمس صفحات. كيف كان أداء نماذج الذكاء الاصطناعي في تقييم «البرهان الأول»؟

ويليامز: أحد الاختبارات أنتج سلسلة مثيرة للاهتمام من الردود. كان النموذج يقدّم إجابة ويقول: «حسناً، هذا هو الحل النهائي». ثم يقول: «انتظر، ماذا عن هذا؟»، ويعدّل إجابته بطريقة ما ليضيف: «هذا هو الحل النهائي. لحظة، هناك مشكلة»، حتى دخل في حلقة لا نهائية.

فيما قالت كولدا: «لقد كانت نتائجي الأولية مخيّبة للآمال؛ إذ بدا أن الذكاء الاصطناعي مرتبك بشأن المسألة، متجاهلاً معلومات أساسية في بعض أجزاء الإجابة، بل وغير متّسق. ولذا عدّلت صياغة المسألة وأضفت تعليمات أكثر وضوحاً لمنح الذكاء الاصطناعي فرصة أفضل. سنرى كيف ستكون النتائج النهائية». وأضافت: «يُسوَّق للذكاء الاصطناعي على أنه شبيه بزميل أو متعاون، لكنني لا أجد ذلك صحيحاً. زملائي البشر لديهم وجهات نظر محددة، وأستمتع بشكل خاص عندما نناقش آراء مختلفة. أما الذكاء الاصطناعي، فيملك أي وجهة نظر أوجهه إليها أنا، وهذا أمر غير مثير للاهتمام على الإطلاق».

وتابعت: «إحدى مخاوفي المتزايدة أن الذكاء الاصطناعي قد يبطئ التقدم العلمي عن غير قصد».