علماء في جامعة الملك عبد الله يطورون أداة تحليل بيانات لحل المشكلات الواقعية

علم الإحصاء هو علم التعلّم من البيانات؛ حيث يوفِّر الإحصائيون رؤى قيَّمة بخصوص المشكلات الأكثر إلحاحاً التي تواجه البشرية، كالتأثيرات الصحية للتلوث على انتشار الأمراض المُعدية، إذ يحتاج الباحثون إلى فهم الإحصائيات إذا كان عليهم أن يتخذوا قرارات مستنيرة مبنية على اطلاع. وبناء على ذلك، يمكن القول إن الأفكار والأساليب الإحصائية تمثل اليوم أساس كل جوانب الحياة الحديثة.
ويوضح هافارد رو، أستاذ الإحصاء في جامعة الملك عبد الله للعلوم والتقنية، إن توفير الأدوات للباحثين من أجل فهم أفضل لمشكلات العالم الواقعية يعني أن صانعي السياسات سيستطيعون الوصول لمصادر موثوقة من أجل صنع القرارات المهمة التي تؤثر على كثير من جوانب الحياة، من الصحة والبيئة إلى الاقتصاد والقضايا الاجتماعية.
ويعدّ رو أحد البارزين في مجال الإحصائيات الحوسبية البايزانية، computational Bayesian statistics وهي طريقة يتم بها تطبيق الاحتمالات على المشكلات الإحصائية، ما يؤدي إلى تنبؤات أسرع، وأكثر دقة. وجدير بالذكر أن توماس بايز (1701 – 1761)، كان عالماً في الرياضيات وإحصائياً وفيلسوفاً إنجليزياً، ويعرف بأنه صاحب نظرية الاحتمالات الإحصائية، التي يتم استخدامها في معظم بحوث السوق وتقنيات استطلاع الرأي اليوم. لقد أدرك علماء الكومبيوتر وبعد أكثر من 200 عام من وفاته، أن أسلوبه في تحليل الكميات الهائلة من البيانات إحصائياً يمكن أن تكون له فائدة مذهلة مع الكميات الهائلة من المعلومات التي نعاصرها الآن.
وداخل مختبرات كاوست، يركز رو عمله على تطبيق مقاربات لابلاس (بيير سيمون لابلاس 1749 - 1827)، المتداخلة المتكاملة، (INLA) وهو منهج لإجراء الاستدلال البايزي الذي يستخدم منهجية بايز لتطوير تقييم احتمالات فرضية، ما يسبب اكتشاف دليل جديد. ويقوم هذا المنهج بتحديث الاستنتاجات المستخلصة من النماذج الإحصائية في ضوء البيانات الجديدة.
ويشير رو إلى مشكلتين رئيستين فيما يتعلق بالنمذجة البايزية، هما السرعة والدقة، فعادة ما يتعين عليك التخلي عن السرعة من أجل الدقة، ولكن مع مقاربات «INLA» تحصل على كليهما، ما يعد أمراً أروع من أن يُصَدَق.
وتمثل مقاربات لابلاس المتداخلة المتكاملة طريقة مختلفة لتحليل مجموعات البيانات متعددة الأبعاد والمحتوية على آلاف القياسات، كتلك المستخدمة لوضع نماذج للمناخ أو نماذج التنبؤ بالطقس. فمثلاً حينما تستخدم طرق مثل سلسلة ماركوف مونتي كارلو، فإنها تعد عملية معقدة للغاية، لكونها مستهلكة للوقت وغير عملية في التعامل مع النماذج فائقة الضخامة، حيث إنها تعتمد أساساً على تجزئة النماذج الرياضية المركبة إلى عدد من المسائل البسيطة، التي يمكن تحليلها ومعالجتها بسهولة.
طوّر رو وزملاؤه حزمة برمجيات إحصائية لمقاربات لابلاس، تتيح تطبيقها في مجالات متنوعة من الرعاية الصحية إلى علم البيئة، وذلك من أجل التحليل الأفضل لمجموعات البيانات متزايدة الضخامة. فعلى سبيل المثال استخدم جافين شاديك، أستاذ علوم البيانات والإحصاء بجامعة إكستر بالمملكة المتحدة، حزمة رو الإحصائية لمقاربات لابلاس المتداخلة المتكاملة (R - INLA) لتحليل قاعدة بيانات تحتوي على معلومات لأكثر من 4300 مدينة في أكثر من 100 دولة، من أجل نمذجة التأثيرات الصحية والبيئية الناتجة عن تلوث الهواء.
وقد أظهر هذا العمل، الذي تم بالتعاون مع منظمة الصحة العالمية، أن 92 في المائة من سكان العالم يقيمون في مناطق تتجاوز المبادئ الأساسية الخاصة بإرشادات المنظمة الخاصة بجودة الهواء.
وفي هذا السياق، لفت شاديك إلى أن تلوث الهواء يعد عامل خطورة رئيسياً على الصحة العالمية، بمعدل وفيات يبلغ 4.2 مليون حالة سنويّاً، بسبب التسمم بالجسيمات الدقيقة، ومن دون حزمة «R - INLA»، لن نكون قادرين على إجراء هذا التحليل على نطاق عالمي.
كما استخدمت هذه الطريقة أيضاً بواسطة مشروع أطلس الملاريا (MAP)، والذي ينشر معلومات مجانية ودقيقة ومُحَدَّثة عن الملاريا، ويهدف إلى الحد من انتشار المرض. وتبعاً لتقرير الملاريا العالمي، الصادر عن منظمة الصحة العالمية عام 2017، فإن ما يقدَّر بـ216 مليون حالة ملاريا قد حدثت على المستوى العالمي في عام 20166، بزيادة بلغت نحو 5 ملايين حالة عن العام السابق.
ويشير سمير بات، من «إمبريال كوليدج للصحة العامة بلندن بالمملكة المتحدة»، والذي استخدم حزمة رو الإحصائية لمقاربات لابلاس المتداخلة المتكاملة لنمذجة انتشار أشكال مختلفة من الملاريا على نطاق عالمي، أنه قبل حزمة «R - INLA» لم يكن ممكناً إجراء استدلال لأكثر من 1000 من الملاحظات، ما يجعل من تلك الحزمة أداة مهمة لفهم انتشار الملاريا.
من جانب آخر، يستخدم مركز السيطرة على الأمراض والوقاية منها «CDC» أيضاً حزمة «R - INLA» لرسم خريطة للأعداد المتزايدة لحالات الانتحار في الولايات المتحدة، ما يوفِّر مستوى غير مسبوق من التفاصيل من خلال السماح بتتبع تغيّر معدلات الانتحار، عبر ما يزيد عن 3 آلاف مقاطعة من عام 2005 حتى 2015.
ويوضِّح ديبا خان، الزميل الأول بمراكز السيطرة على الأمراض والوقاية منها، أن فهم الأنماط الجغرافية لمعدلات الانتحار يساعد على تحديد أي المقاطعات بها معدلات مرتفعة، وفي حاجة إلى موارد لمنع الانتحار، وباستخدام مقاربات لابلاس المتداخلة المتكاملة، أصبحت هيئات الصحة العامة المحلية قادرة على تخصيص الأموال لتحقيق نتائج صحية لا يمكن تحقيقها من خلال البيانات المتاحة على مستوى ولاية واحدة فقط.
كذلك استخدم الباحثون بجامعة فالباريزو الكاثوليكية في تشيلي مقاربات لابلاس المتداخلة المتكاملة لرسم خريطة لتوزيع أنماط الروبيان (الجمبري) - وهو حيوان بحري - نحو سواحل تشيلي، وهو ما سمح لهم بتحديد المناطق التي يمكن الصيد بها، وتقديم توصيات بشأن حصص الصيد، للمساعدة على إدارة الموارد السمكية.
ويضيف رو أنه لا يزال يشعر بالمفاجأة عند رؤية تطبيقات مقاربات لابلاس المتداخلة المتكاملة بمجالات لم يسمع بها قط، لأنها خارج بؤرة التركيز الأساسي لعلم الإحصاء، ما يبرهن على أن ما يقومون به شيء مهم، وله تأثير على كيفية تعامل البشر مع الإحصاء.