قام فريق دولي من الباحثين في مجال الذكاء الاصطناعي وعلماء الرياضيات التابعين لعدة مؤسسات في الولايات المتحدة والمملكة المتحدة بتطوير مقياس رياضي، يسمح للعلماء باختبار قدرات أنظمة الذكاء الاصطناعي على حل مشاكل رياضية صعبة للغاية.
وأظهرت نتائج دراستهم المنشورة على منصة «أركيف بريبرنت (arXiv preprint)» للأوراق البحثية أن أنظمة الذكاء الاصطناعي التي حققت درجات جيدة من قبل، وفق كثير من المعايير والمقاييس التقليدية، لم تتمكن من تسجيل درجات أعلى من 2 في المائة في تقديم حلول للمسائل الرياضية الصعبة، وفق مقياس الاختبارات الجديد.
ووفق بيان منشور، الثلاثاء، على منصة «ساينس إكس نتورك» فإنه على مدى السنوات القليلة الماضية، أصبحت برامج الذكاء الاصطناعي والتعلم العميق مثل «شات جي بي تي (ChatGPT)» أكثر تطوراً، وبالتالي تبدو في بعض الأحيان وكأنها تتمتع بمستوى عالٍ جداً من الذكاء يجعلها قادرة على حل كثير من المعضلات في كثير من المجالات المختلفة. إلا أنه وفقاً لنتائج الدراسة الأخيرة هناك مجال واحد لا يزالون يفشلون فيه، حل مشاكل الرياضيات الصعبة.
ومع استمرار عمل مطوري أنظمة الذكاء الاصطناعي من أجل تحسين مهارات الرياضيات في نماذجهم، فقد طوروا عدداً من المقاييس لتكون بمثابة وسيلة لاختبار تقدمهم، ومنها اثنان هما الأكثر شعبية؛ MATH وGSM8K.
وبمرور الوقت، تحسنت برامج ذكاء اصطناعي إلى الحد الذي أصبحت فيه قادرة على تسجيل درجات تصل إلى 90 في المائة في هذه اختبارات تلك المقاييس.
ولكن كما لاحظ أعضاء فريق الدراسة، فإن مستوى صعوبة مثل هذه المقاييس ليس مرتفعاً بما يكفي، لذا قرروا أن هناك حاجة إلى مقياس جديد لاختبارات قدرات الذكاء الاصطناعي في حل المسائل الرياضية الصعبة، وعليه أنشأوا مقياساً جديداً يفي بهذا الغرض، أطلقوا عليه اسم FrontierMath، وهو الذي يقدم مقياساً مستمراً للتقدم في التفكير الرياضي المعقد للذكاء الاصطناعي.
ومن ثم تواصل فريق البحث مع بعض من ألمع العقول في مجال الرياضيات، وطلبوا منهم تقديم بعض مسائل الرياضيات الصعبة حقاً، وبالفعل تلقوا المئات منها.
وكما يقول الباحثون، فإن «مثل هذه المسائل ليست فريدة من نوعها فحسب، بل إنها تتطلب أيضاً مستوى عميقاً من الفهم للرياضيات. وقد يستغرق حل بعضها عدة أيام». كما تغطي هذه المسائل مجموعة واسعة من المواضيع، من نظرية الأعداد إلى الهندسة الجبرية (أحد فروع علم الجبر). وللحصول على درجات جيدة في معيار FrontierMath، يجب أن يتمتع نظام الذكاء الاصطناعي بالإبداع والبصيرة، وما يصفه فريق البحث بـ«الخبرة العميقة في المجال».
ويوضح الباحثون: «نجحت نماذج الذكاء الاصطناعي في حل أقل من 2 في المائة من المسائل الرياضية الصعبة فقط، مما يكشف عن فجوة هائلة بين قدراتها، وبراعة أفراد المجتمع العلمي الرياضي من العلماء والباحثين».
وأضافوا: «رغم تقدم أنظمة الذكاء الاصطناعي في محاولة للوصول إلى القدرات الرياضية نفسها على مستوى الخبراء والمتخصصين، فإن منصة FrontierMath تقدم اختبارات صارمة تستطيع أن تقيس مدى هذا التقدم».