توصلت دراسة جديدة إلى أن تزويد النماذج بذاكرة محدودة تشبه بعض خصائص الذاكرة البشرية يمكن أن يحسن قدرتها على تعلم القواعد اللغوية، خصوصاً عندما تتدرب باستخدام كميات محدودة من النصوص.
اختبر الباحثان أبهيشيك ثاما من جامعة أمستردام، وميشا هايلبرون من معهد ماكس بلانك لعلم اللغة النفسي فكرة قديمة في العلوم المعرفية، مفادها أن نسيان التفاصيل الدقيقة للكلمات والجمل قد يساعد الإنسان على التركيز على الأنماط المتكررة واستخلاص القواعد العامة للغة.
تعتمد نماذج اللغة الحديثة عادة على الاحتفاظ بقدر كبير من المعلومات عن الكلمات التي تعالجها داخل السياق. وقد يبدو منطقياً أن تؤدي زيادة المعلومات المتاحة للنموذج إلى تحسين عملية التعلم، لكنّ الباحثِين اختبروا فرضية معاكسة: هل يمكن أن يصبح النموذج أفضل إذا نسي بعض التفاصيل تدريجياً؟
لهذا الغرض، أضاف الفريق آلية بسيطة لتلاشي الذاكرة داخل نماذج لغوية مبنية على بنية «المحوّل» أو (Transformer). وأطلق الباحثون على هذه النماذج اسم «محوّلات الذاكرة العابرة»، لأنها لا تحتفظ بجميع الكلمات السابقة بالمستوى نفسه من الدقة.
مع مرور الكلمات داخل النموذج، تبدأ التفاصيل الأقدم في التلاشي، بينما تبقى الكلمات الأقرب متاحة بصورة أوضح. ويحاكي ذلك، بصورة مبسطة، الطريقة التي لا يحتفظ فيها الإنسان بالنص الحرفي الكامل لكل جملة يسمعها، لكنه يستطيع تذكر معناها وأنماطها الأساسية.

التدريب على كمية لغوية محدودة
دُرّبت النماذج باستخدام معيار «BabyLM»، وهو مجموعة بيانات صُممت لتقريب كمية اللغة التي قد يتعرض لها الإنسان خلال مراحل النمو. وسمح ذلك للباحثين بمقارنة النماذج التقليدية مع النماذج ذات الذاكرة المتلاشية في ظروف لا تعتمد على مليارات الكلمات كما يحدث مع الأنظمة التجارية الكبيرة.
وأظهرت الاختبارات أن النماذج المزودة بآلية النسيان حققت أداء أفضل في تعلم اللغة وفي اختبارات تستهدف فهم البنية النحوية. كما استمرت النتائج عبر عمليات تدريب متعددة وانطلاقاً من إعدادات مختلفة للنماذج، ما أعطى مؤشراً على أن التحسن لم يكن نتيجة تجربة واحدة أو اختيار عشوائي محدد.
لكن الفائدة لم تتحقق من خلال النسيان وحده. فقد احتاج النموذج أيضاً إلى ما وصفه الباحثون بـ«الذاكرة الصدوية» القصيرة، التي تحتفظ بآخر ثلاث إلى سبع كلمات بصورة واضحة قبل أن تبدأ المعلومات في التلاشي.
توازن بين الحاضر والماضي
يبدو أن الجمع بين الذاكرة القريبة الواضحة والتلاشي التدريجي للمعلومات الأقدم كان العامل الحاسم في تحسين التعلم. فالاحتفاظ بعدد قليل من الكلمات الأخيرة يساعد النموذج على فهم العلاقات المحلية داخل الجملة، بينما يجبره نسيان الصياغات الأبعد على التركيز على الأنماط العامة بدلاً من حفظ التفاصيل الحرفية.
وتدعم هذه النتيجة اقتراحاً يعود إلى أبحاث في علم الإدراك خلال تسعينات القرن الماضي، يرى أن محدودية الذاكرة قد لا تكون مجرد عائق أمام تعلم اللغة، بل قد تكون جزءاً من الآلية التي تجعل التعلم ممكناً.
وتشير الدراسة أيضاً إلى أن نجاح نماذج «المحوّل» ذات القدرة الواسعة على الوصول إلى السياق لا يعني بالضرورة أن الذاكرة غير المحدودة هي الخيار الأفضل في جميع حالات التدريب، خصوصاً عندما تكون البيانات المتاحة قليلة.

التحسن اللغوي
كشفت التجربة في الوقت نفسه عن نتيجة غير متوقعة، حيث حسنت التجارب العابرة تعلم اللغة وفهم القواعد وخفضت قدرة النماذج على توقع الزمن الذي يحتاج إليه البشر لقراءة الكلمات والجمل.
ويستخدم الباحثون عادة مقياساً يعتمد على مدى مفاجأة الكلمة داخل السياق للتنبؤ بسرعة القراءة البشرية. وفي دراسات كثيرة، يرتبط تحسن أداء النموذج اللغوي بقدرته الأفضل على توقع سلوك القارئ، لكن الدراسة الجديدة لم تجد هذا الارتباط.
ولم تتمكن التفسيرات الحالية من توضيح سبب هذا الاختلاف. ويشير ذلك إلى أن الآليات التي تساعد النظام على تعلم اللغة بكفاءة قد لا تكون هي نفسها التي تمكّنه من محاكاة طريقة معالجة الإنسان للغة أثناء القراءة.
دلالات لتطوير نماذج أصغر
لا تعني النتائج أن النسيان سيجعل جميع أنظمة الذكاء الاصطناعي أفضل، فالدراسة تمثل اختباراً أولياً على نماذج صغيرة وفي ظروف تدريب محددة. لكنها تطرح اتجاهاً مختلفاً عن السعي المستمر إلى توسيع الذاكرة والسياق وحجم البيانات.
وقد تساعد قيود الذاكرة المصممة بعناية على بناء نماذج تتعلم بصورة أكثر كفاءة عند نقص البيانات، أو على تطوير أنظمة أصغر تستطيع استخلاص القواعد بدلاً من الاعتماد على حفظ أكبر كمية ممكنة من النصوص. وتفتح الدراسة بذلك سؤالاً جديداً أمام أبحاث الذكاء الاصطناعي: هل تحتاج النماذج دائماً إلى ذاكرة أكبر أم أن القدرة على نسيان المعلومات غير الضرورية قد تكون جزءاً من التعلم الأفضل؟









