تخيل أنك تلعب نسخة جديدة ومعدلة قليلاً من لعبة «چيوغيسر» GeoGuessr لتحديد المواقع، إذ إنك تقف أمام صورة لمنزل أميركي عادي، ربما من طابقين مع حديقة أمامية في شارع مسدود، ولكن لا يوجد شيء مميز بصفة خاصة في هذا المنزل، ولا شيء يخبرك عن الولاية التي يقع فيها، أو من أين يأتي أصحابه.
أدوات رصد صينية
لديك أداتان تحت تصرفك: عقلك، و44416 صورة منخفضة الدقة ملتقطة من أعلى لأماكن عشوائية في جميع أنحاء الولايات المتحدة، وبيانات المواقع المرتبطة بها. هل يمكنك مطابقة المنزل مع صورة جوية، وتحديد موقعه بشكل صحيح؟
من الصعوبة على فرد عمل ذلك، ولكن نموذجاً جديداً للتعلم الآلي يمكنه ذلك على الأرجح. يبحث البرنامج، الذي أنشأه باحثون في جامعة الصين للبترول (شرق الصين)، في قاعدة بيانات لصور الاستشعار عن بُعد مع معلومات الموقع المرتبطة بها لمطابقة صورة الشارع -لمنزل أو مبنى تجاري أو أي شيء آخر يمكن تصويره من الطريق- مع صورة جوية في قاعدة البيانات. وبينما يمكن للأنظمة الأخرى القيام بنفس الشيء، فإن هذا النظام صغير الحجم مقارنة بالأنظمة الأخرى، ودقيق للغاية.
في أفضل حالاته (مثل: عندما يواجه صورة ذات مجال رؤية 180 درجة)، ينجح النظام بنسبة تصل إلى 97 في المائة في المرحلة الأولى من تضييق نطاق الموقع. وهذا أفضل من جميع النماذج الأخرى المتاحة للمقارنة، أو يقترب منها بنسبة نقطتين مئويتين. وحتى في ظل ظروف أقل من المثالية، فإنه يعمل بشكل أفضل من العديد من البرامج المنافسة. وعند تحديد الموقع الدقيق، يكون صحيحاً بنسبة 82 في المائة من الحالات، وهو ما يقع بفارق ثلاث نقاط فقط من النماذج الأخرى.
لكن هذا النموذج جديد من حيث السرعة، وتوفير الذاكرة. فهو أسرع بمرتين على الأقل من النماذج المماثلة، ويستخدم أقل من ثلث الذاكرة التي تتطلبها، وفقاً للباحثين. وهذا المزيج يجعله ذا قيمة للتطبيقات في أنظمة الملاحة، وصناعة الدفاع.
تجزئة معمقة للصور
يشرح بينغ رين، الذي يعمل على تطوير خوارزميات التعلم الآلي، ومعالجة الإشارات في جامعة الصين للبترول (شرق الصين): «نقوم بتدريب الذكاء الاصطناعي على تجاهل الاختلافات السطحية في المنظور، والتركيز على استخراج نفس (المعالم الرئيسة) من كلا المنظورين، وتحويلها إلى لغة بسيطة، ومشتركة».
يعتمد هذا البرنامج على طريقة تسمى التجزئة العميقة عبر العرض المتقاطع (أو) التجزئة المتقاطعة العميقة للمنظور «Deep cross - view hashing». فبدلاً من محاولة مقارنة كل بيكسل في صورة مأخوذة من مستوى الشارع بكل صورة على حدة في قاعدة البيانات الضخمة للصور الجوية (من منظور عين الطائر)، تعتمد هذه الطريقة على التجزئة «hashing»، والتي تعني تحويل مجموعة من البيانات -وفي هذه الحالة تحويل صور مستوى الشارع والصور الجوية- إلى سلسلة من الأرقام الفريدة لتلك البيانات.
ولمباشرة ذلك، تستخدم مجموعة البحث بجامعة الصين للبترول نوعاً من نماذج التعلم العميق يسمى محول الرؤية، والذي يُقسّم الصور إلى وحدات صغيرة، ويبحث عن الأنماط بين القطع. قد يجد النموذج في الصورة ما تم تدريبه على التعرف عليه، مثل مبنى مرتفع، أو نافورة دائرية، أو دوار، ثم يقوم بترميز نتائجه إلى سلاسل أرقام. ويعتمد «تشات جي بي تي» على بنية مماثلة، ولكنه يكتشف الأنماط في النص بدلاً من الصور.
يقول هونغدونغ لي، الذي يدرس الرؤية الحاسوبية في الجامعة الوطنية الأسترالية، في حديث نقلته مجلة «سبيكتروم» لجمعية المهندسين الكهربائيين الأميركية، إن الرقم الذي يمثل كل صورة يشبه بصمة الإصبع. إذ يلتقط الرمز الرقمي السمات الفريدة من كل صورة، ما يسمح لعملية تحديد الموقع الجغرافي بتضييق نطاق التطابقات المحتملة بسرعة.
في النظام الجديد، يُقارن الرمز المرتبط بصورة معينة على مستوى الأرض بجميع الصور الجوية الموجودة في قاعدة البيانات، ما ينتج عنه أقرب 5 مرشحين للمطابقات الجوية. ولأغراض الاختبار الأخير، استخدم الفريق صوراً ملتقطة بالأقمار الاصطناعية للولايات المتحدة وأستراليا. ويُحسب متوسط البيانات التي تمثل الجغرافيا لأقرب المطابقات باستخدام تقنية تمنح وزناً أكبر للمواقع الأقرب إلى بعضها البعض بهدف تقليل تأثير القيم المتطرفة (الشاذة)، ومن ثم يظهر الموقع المُقدّر لصورة شارع.
نظام سريع وفعال
يقول لي: «رغم أن النموذج ليس جديداً تماماً، فإن هذه الورقة البحثية تمثل تقدماً واضحاً في هذا المجال». وهو يرى أن هذا النهج مبتكر في استخدامه لـ(التجزئة) لجعل مطابقة الصور أسرع وأكثر كفاءة في استهلاك الذاكرة من التقنيات التقليدية. فهي تستخدم 35 ميغابايت فقط، بينما يتطلب النموذج التالي الأصغر 104 ميغابايت، أي ثلاثة أضعاف السعة.
ويزعم الباحثون أن هذه الطريقة أسرع بأكثر من مرتين من الطريقة الأسرع التالية. عند مطابقة صور على مستوى الشارع مع مجموعة بيانات من التصوير الجوي للولايات المتحدة، كان الوقت الذي استغرقه النموذج المنافس للمطابقة نحو 0.005 ثانية، بينما استطاع فريق «بتروليوم» العثور على الموقع في نحو 0.0013 ثانية، أي أسرع بأربع مرات تقريباً.
ويقول رين: «نتيجة لذلك، فإن طريقتنا أكثر كفاءة من تقنيات تحديد الموقع الجغرافي للصور التقليدية». ورغم أن هذه المزايا تبدو واعدة، فإنه لا تزال هناك حاجة إلى المزيد من العمل لضمان عمل هذه الطريقة على نطاق واسع، كما يقول لي.
ويقول الخبراء الأميركيون، مثل ناثان جاكوبس الباحث في جامعة واشنطن في سانت لويس، إن هناك بعض الاستخدامات البسيطة لتحديد الموقع الجغرافي للصور بكفاءة، مثل وضع علامات جغرافية تلقائياً للصور العائلية القديمة. ولكن على الجانب الأكثر جدية، يمكن لأنظمة الملاحة أيضاً استغلال طريقة تحديد الموقع الجغرافي هذه. يقول جاكوبس إنه إذا تعطل نظام تحديد المواقع العالمي «GPS» في سيارة ذاتية القيادة، فإن وجود طريقة أخرى للعثور على الموقع بسرعة ودقة يمكن أن يكون مفيداً.
ويشير لي إلى أن هذه التقنية يمكن أن تلعب دوراً في الاستجابة للطوارئ في غضون السنوات الخمس المقبلة.

