في قسم الطوارئ، جلس شاب في منتصف الأربعينيات يضع يده على صدره. كان الألم حاداً، ولكنه متردد في وصفه. قال إنه «ضغط بسيط»، ثم أضاف بعد لحظة صمت أنه يشعر بخدر في الذراع. لم يكن متأكداً متى بدأ الألم تحديداً، ولا إن كان يزداد مع الجهد أم مع القلق. كانت روايته متقطعة، ممزوجة بالخوف ومحاولة التقليل من الأمر.

في مثل هذه اللحظات لا يعتمد القرار الطبي على معلومة واحدة؛ بل على قراءة السياق كله: نبرة الصوت، تاريخ المريض، عوامل الخطورة، وحتى حدسه الخاص. هنا لا توجد خيارات متعددة جاهزة؛ بل مسؤولية تقدير قد تنقذ حياة أو تؤخر تدخلاً حاسماً.
الذكاء الاصطناعي في قاعة الامتحان
* التفوق المنضبط: في بيئة الاختبارات المغلقة يبدو الذكاء الاصطناعي واثقاً إلى حد الإدهاش. فهو يجيب عن أسئلة معادِلة لاختبارات الترخيص الطبي؛ يستحضر التشخيصات التفريقية بدقة، ويختار الإجابة الصحيحة بسرعة تفوق كثيراً من المتدربين. وفي هذا السياق المنظم؛ حيث المعطيات مكتملة والسؤال محدد والنتيجة قابلة للقياس، تتألق الخوارزمية كما لو كانت طالبة متفوقة لا تعرف التردد.
غير أن هذا التفوق مرتبط بطبيعة البيئة نفسها، فالسؤال واضح، والخيارات محدودة، والبيانات مرتبة مسبقاً. ولا يوجد وصف ملتبس للأعراض، ولا تاريخ مرضي ناقص، ولا مريض قلق يضيف تفاصيل ويغفل أخرى. هناك نص مكتمل... وإجابة محسوبة. وفي هذا الإطار المنضبط، تُقاس الكفاءة بالقدرة على استدعاء المعلومة الصحيحة من بين احتمالات محددة سلفاً.
* خارج القاعة: حين يبدأ التعقيد الإنساني، ندرك أن الطب لا يُمارَس في قاعات الامتحان. فعندما نُخرج الذكاء الاصطناعي من بيئته المنظمة، ونضعه أمام إنسان قلق أو متردد أو غير قادر على التعبير الدقيق عن معاناته، يتغير المشهد بالكامل. المريض لا يقدم بيانات مرتبة؛ بل رواية إنسانية قد تكون ناقصة أو مشبعة بالخوف أو التأويل، وقد يخلط بين الأعراض أو يُغفل ما يراه غير مهم.
هنا لا يعود السؤال اختياراً من اختيارات متعددة؛ بل يكون حواراً مفتوحاً. والقرار لا يُبنى على معطيات مكتملة؛ بل على تقدير سريري يوازن بين الاحتمالات والسياق والشخص ذاته. في هذه المساحة الرمادية، يظهر الفارق بين القدرة على الإجابة الصحيحة في اختبار، والقدرة على الإرشاد المسؤول في واقع معقَّد.

اختبار الذكاء الاصطناعي في الواقع
* دراسة حديثة: في دراسة حديثة نُشرت في مجلة «نيتشر ميدسن» (Nature Medicine) في 3 فبراير (شباط) 2025، قادها الباحث أندرو إم. بين (Andrew M. Bean) من جامعة أكسفورد، سعى فريق بحثي إلى اختبار قدرة ما تُعرَف بـ«نماذج اللغة الكبيرة» على مساعدة عامة الناس في تقييم سيناريوهات طبية افتراضية، واتخاذ القرار المناسب بشأنها. لم يكن الهدف قياس دقة التشخيص فحسب؛ بل تقييم أثر توصيات النموذج في سلوك المتلقي وطريقة اتخاذه للقرار الصحي.
شارك في التجربة 1298 متطوعاً من المملكة المتحدة، وُزِّعوا عشوائياً على مجموعات مختلفة. وطُلب من كل مشارك قراءة سيناريو طبي -مثل صداع مفاجئ شديد أو ألم صدري حاد- ثم تحديد الإجراء الأنسب: هل تستدعي الحالة طلب الإسعاف فوراً؟ أم مراجعة طبيب خلال وقت قصير؟ أم الاكتفاء بالمراقبة المنزلية؟ كما طُلب منهم ذكر التشخيصات المحتملة التي استندوا إليها في قرارهم.
أظهرت النتائج مفارقة مهمة؛ إذ لم يتحسن اتخاذ القرار دائماً عند استخدام النموذج الذكي مقارنة بالتقدير الشخصي. ففي بعض الحالات، أثَّرت نبرة الإجابة وثقتها اللغوية في اختيار المشاركين، حتى عندما لم تكن التوصية الأكثر أماناً سريرياً.
بمعنى آخر: لم تكن المشكلة في نقص المعلومات بقدر ما كانت في أثر الأسلوب على الإدراك. وهنا يبرز سؤال جوهري: هل يمكن للثقة اللغوية أن تُضلِّل الحكم، حتى حين تبدو الإجابة منطقية ومتماسكة؟
• ما هي نماذج اللغة الكبيرة؟ نماذج اللغة الكبيرة هي أنظمة ذكاء اصطناعي تُدرَّب على كميات هائلة من النصوص الطبية والعلمية والعامة، بهدف تعلُّم الأنماط اللغوية والعلاقات بين المفاهيم، واستنتاج الروابط المحتملة بينها. وهي لا تمتلك وعياً ولا خبرة سريرية، ولا تفحص المريض أو تقيس علاماته الحيوية؛ بل تُحلِّل النص المُدخَل إليها، وتولِّد استجابة مبنية على احتمالات إحصائية مستخلصة من بيانات سابقة. ومن أمثلتها نماذج معروفة طُرحت تجارياً، مثل «ChatGPT» (تشات جي بي تي) أو «Copilot» (كوبايلوت) التي تعتمد على البنية ذاتها لنماذج اللغة الكبيرة.
تعتمد هذه النماذج على بنى حسابية معقدة تُعرف بالشبكات العصبية العميقة، تمكِّنها من التنبؤ بالكلمة التالية في سياق معين بدقة عالية، وهو ما يمنحها قدرة ملحوظة على صياغة إجابات تبدو مترابطة ومقنعة. غير أن هذا الترابط اللغوي لا يعني بالضرورة فهماً سريرياً حقيقياً، ولا تقديراً للسياق الإنساني الكامل.
وتكمن قوتها في سلاسة التعبير وسرعة الاستدعاء، وتلخيص كم هائل من المعرفة في ثوانٍ. ولكن هذه السلاسة نفسها قد تمنح انطباعاً بثقة تتجاوز حدود الدقة الفعلية. فاللغة المقنعة قد توحي بصلابة القرار، حتى عندما يتطلب الواقع قدراً أكبر من التحفظ، أو طرح أسئلة إضافية، أو إحالة الأمر إلى تقييم طبي مباشر. وهنا يظهر الفرق بين توليد إجابة محتملة، وتحمل مسؤولية قرار حقيقي.
بين الإجابة والحكمة
السؤال الجوهري ليس: هل يعرف الذكاء الاصطناعي التشخيص؟ بل: هل يدرك أثر التوصية حين تنتقل من شاشة إلى إنسان؟ فالقرار الصحي لا يُختزل في اختيار إجابة صحيحة ضمن اختبار منضبط؛ بل هو عملية موازنة دقيقة بين احتمالات، وسياقات، ومخاطر، ومسؤوليات. وما يبدو رقماً أو احتمالاً في نموذج حسابي، قد يكون في الواقع قلقاً حقيقياً أو حياة معلَّقة على تقدير لحظة.
الطبيب لا يزن الأعراض فحسب؛ بل يقرأ الشخص أمامه. يلاحظ التردد في الصوت، والقلق في النظرة، والتاريخ غير المكتمل الذي يحتاج إلى سؤال إضافي. يقدِّر القدرة على المتابعة، ويأخذ في الحسبان الدعم الأسري والظروف الاجتماعية. هنا تتجاوز الممارسة الطبية حدود الحساب الإحصائي لتصبح فعلاً أخلاقياً يتحمل نتائجه من يتخذه، لا من يقترحه.
حين ينجح الذكاء الاصطناعي في الامتحان، فهذا إنجاز تقني يعكس تقدُّماً في معالجة اللغة وتحليل البيانات. ولكنه حين يتعثر في الحوار، فإنه يذكِّرنا بأن الطب علاقة قبل أن يكون معلومة، ومسؤولية قبل أن يكون خوارزمية.
إذن، قد تساعدنا النماذج الحسابية على توسيع دائرة الرؤية، ولكنها لا تستطيع أن تتحمل العبء الأخلاقي للقرار، ولا أن تعيش تبعاته. فالذكاء قد يُحسِّن الإجابة، أما الحكمة فتبقى - في جوهرها - إنسانية.
