كيف يحصد عمالقة التكنولوجيا بيانات الذكاء الاصطناعي؟

استنساخ النصوص من الأصوات والفيديوهات واستنباط لغة اصطناعية

كيف يحصد عمالقة التكنولوجيا بيانات الذكاء الاصطناعي؟
TT

كيف يحصد عمالقة التكنولوجيا بيانات الذكاء الاصطناعي؟

كيف يحصد عمالقة التكنولوجيا بيانات الذكاء الاصطناعي؟

في أواخر عام 2021، واجهت شركة «أوبن إيه آي» مشكلة في الإمداد؛ إذ استنفد مختبر الذكاء الاصطناعي كل مخزونه من النصوص الإنجليزية ذات السمعة الطيبة على الإنترنت أثناء تطويره لأحدث نظام الذكاء الاصطناعي الخاص به.

من صوت الفيديو إلى النص

وكانت تحتاج إلى مزيد (وربما أكثر بكثير) من البيانات لتدريب النسخة المقبلة من تقنياتها. لذا أنشأ باحثو «أوبن إيه آي» أداة للتعرف على الكلام تسمى «ويسبر» (Whisper)، يمكنها استنساخ الصوت من مقاطع يوتيوب للفيديو، وإنتاج نص محادثة جديد يجعل نظام الذكاء الاصطناعي أكثر ذكاء.

ناقش بعض موظفي «أوبن إيه آي» كيف أن مثل هذه الخطوة قد تتعارض مع قواعد «يوتيوب».

في نهاية المطاف، قام فريق من «أوبن إيه آي» باستنساخ أكثر من مليون ساعة من مقاطع الفيديو على «يوتيوب»، حسب قول بعض الأشخاص. ثم تمَّت تغذية النصوص في نظام يُسمى «جي بي تي - 4»، الذي كان يُعدّ على نطاق واسع واحداً من أقوى نماذج الذكاء الاصطناعي في العالم، وكان الأساس لأحدث نسخة من روبوت الدردشة «تشات جي بي تي».

صار السباق نحو قيادة الذكاء الاصطناعي بمثابة هدف يائس للبحث عن البيانات الرقمية اللازمة لتطوير هذه التكنولوجيا. وللحصول على تلك البيانات، قامت شركات التكنولوجيا، بما في ذلك «أوبن إيه آي»، و«غوغل»، و«ميتا» بتقليص الوقت والجهد والنفقات، وتجاهلت سياسات الشركات، وناقشت الالتفاف على القوانين، بحسب فحص أجرته «نيويورك تايمز».

في «ميتا» التي تملك منصتَي «فيسبوك» و«إنستاغرام»، ناقش مديرون ومحامون ومهندسون، العام الماضي، شراء دار نشر «سايمون أند شوستر» لتأمين أعمال طويلة، طبقاً لتسجيلات اجتماعات داخلية حصلت عليها صحيفة «تايمز». كما تناولوا مسألة جمع البيانات المحمية بحقوق الطبع والنشر عبر الإنترنت، حتى لو كان ذلك يعني مواجهة الدعاوى القضائية. وقالوا إن التفاوض على التراخيص مع الناشرين والفنانين والموسيقيين وصناعة الأخبار سوف يستغرق وقتاً طويلاً.

على غرار شركة «أوبن إيه آي»، شرعت شركة «غوغل» باستنساخ مقاطع الفيديو على «يوتيوب» لجمع النصوص لنماذج الذكاء الاصطناعي الخاصة بها، وفقاً لما ذكره خمسة أشخاص على اطلاع بممارسات الشركة. وذلك من المحتمل أن ينتهك حقوق الطبع والنشر للفيديوهات، التي تنتمي لمبتكريها.

في العام الماضي، وسعت «غوغل» أيضاً من شروط الخدمة. ووفقاً لأعضاء فريق الخصوصية في الشركة والرسالة الداخلية التي اطلعت عليها صحيفة «نيويورك تايمز»، كان أحد الدوافع وراء هذا التغيير السماح لـ«غوغل» بأن تكون قادرة على الاستفادة من «مستندات غوغل» المتاحة للجمهور، ومراجعات المطاعم على خرائط «غوغل»، وغيرها من المواد على الإنترنت للحصول على المزيد من منتجات الذكاء الاصطناعي الخاصة بها.

إمدادات البيانات للذكاء الاصطناعي

توضح إجراءات الشركات كيف تحولت المعلومات عبر الإنترنت (القصص الإخبارية، والأعمال الخيالية، ونشرات منصات التراسل، ومقالات ويكيبيديا، وبرامج الحاسوب، والصور، والبودكاست، ومقاطع الأفلام) بشكل متزايد إلى شريان الحياة لصناعة الذكاء الاصطناعي المزدهرة؛ إذ يعتمد إنشاء أنظمة مبتكرة على وجود بيانات كافية لتعليم التقنيات اللازمة لإنتاج النصوص، والصور، والأصوات، ومقاطع الفيديو على الفور، التي تشبه ما يصنعه الإنسان.

إن حجم البيانات أمر بالغ الأهمية. وقد تعلمت روبوتات الدردشة الرائدة من مجموعات من النصوص الرقمية التي تصل إلى 3 تريليونات كلمة، أو ما يقرب من ضعف عدد الكلمات تقريبا المخزنة في مكتبة «بودليان» بجامعة أكسفورد، التي جمعت المخطوطات منذ عام 1602.

وقال الباحثون إن أكثر البيانات قيمة هي المعلومات عالية الجودة، مثل الكتب، والمقالات المنشورة، التي كتبها وحرَّرها المتخصصون بعناية.

لسنوات، كانت الإنترنت (مع مواقع مثل «ويكيبيديا»، و«ريديت») مصدراً لا نهاية له للبيانات. ولكن مع تقدم الذكاء الاصطناعي، سعت شركات التكنولوجيا إلى البحث عن المزيد من المستودعات. «غوغل» و«ميتا»، اللذين يملكان مليارات المستخدمين الذين ينتجون استعلامات البحث والمدونات على وسائل التواصل الاجتماعي كل يوم، كانتا مقيدتين إلى حد كبير بقوانين الخصوصية وسياساتهما الخاصة من الاعتماد على كثير من ذلك المحتوى للذكاء الاصطناعي.

إن حاجتها ملحَّة للغاية. ووفقاً لمعهد «إيبوك» للأبحاث، يمكن لشركات التكنولوجيا النفاذ إلى البيانات عالية الجودة على الإنترنت بحلول عام 2026؛ إذ تستخدم الشركات البيانات بوتيرة أسرع مما يجري إنتاجه.

معلومات «اصطناعية»

تتوق شركات التكنولوجيا بشدة إلى البيانات الجديدة، حتى إن بعض هذه الشركات تعمل على تطوير معلومات «اصطناعية». وهذه ليست بيانات عضوية صنعها البشر، وإنما النصوص، والصور، والرموز التي تنتجها نماذج الذكاء الاصطناعي (بمعنى آخر، تتعلم الأنظمة مما تولده بنفسها).

بالنسبة للمبدعين، أدى الاستخدام المتزايد لأعمالهم من قبل شركات الذكاء الاصطناعي إلى إقامة دعاوى قضائية حول حقوق النشر والترخيص. وقد قامت جريدة «نيويورك تايمز» بمقاضاة شركة «مايكروسوفت» وشركة «أوبن إيه آي»، العام الماضي، لاستخدام مقالات إخبارية ذات حقوق نشر مرخَّصة، ومن دون الحصول على ترخيص لتدريب روبوتات الدردشة العاملة بتقنيات الذكاء الاصطناعي. قالت شركة «أوبن إيه آي» و«مايكروسوفت» إن استخدام المقالات كان «استخداماً منصفاً»، أو مسموحاً به بموجب قانون حقوق الطبع والنشر، لأنهما غيّرا الأعمال لغرض مختلف.

قوانين التدرج والارتقاء

«الارتقاء هو كل ما يحتاجون إليه»... في يناير (كانون الثاني) 2020، نشر جاريد كابلان، عالم الفيزياء النظرية في جامعة جونز هوبكنز، بحثاً رائداً عن الذكاء الاصطناعي أثار الشهية للبيانات على الإنترنت.

كان استنتاجه واضحاً تماماً: كلما كانت هناك بيانات متاحة أكثر لتدريب النموذج اللغوي الكبير (التكنولوجيا المحركة لروبوتات الدردشة على الإنترنت) كان أداؤها أفضل. تماماً كما يتعلم الطالب أكثر من خلال قراءة المزيد من الكتب، يمكن للنماذج اللغوية الكبيرة أن تحدد الأنماط في النص بشكل أفضل، وتكون أكثر دقة مع المزيد من المعلومات.

قال كابلان، الذي نشر ورقته البحثية برفقة 9 باحثين من شركة «أوبن إيه آي»: «لقد فوجئ الجميع بأن هذه الاتجاهات (قوانين التدرج والارتقاء كما نسميها) كانت في الأساس دقيقة مثلما ترون في علم الفلك أو الفيزياء». (إنه يعمل الآن في شركة «أنثروبيك» الناشئة للذكاء الاصطناعي).

سرعان ما صار «الارتقاء هو كل ما تحتاجون إليه» الصرخة الحاشدة من أجل الذكاء الاصطناعي.

استخدم الباحثون منذ فترة طويلة قواعد بيانات عامة وكبيرة من المعلومات الرقمية لتطوير الذكاء الاصطناعي، بما في ذلك «ويكيبيديا» و«كومون كرول»، وهي قاعدة بيانات تضم أكثر من 250 مليار صفحة على شبكة الإنترنت تم جمعها منذ عام 2007. وغالباً ما «يُنظف» الباحثون البيانات بإزالة خطاب الكراهية، والنصوص غير المرغوب فيها قبل استخدامها في تدريب نماذج الذكاء الاصطناعي.

في عام 2020، كانت مجموعات البيانات صغيرة للغاية، وفقاً لمعايير اليوم. وقد عُدَّت قاعدة بيانات واحدة تحتوي على 30 ألف صورة من موقع «فليكر» للصور مصدراً حيوياً في ذلك الوقت.

بعد ورقة كابلان البحثية، لم يعد هذا الكم من البيانات كافياً. وقال براندون دوديرشتات، الرئيس التنفيذي لشركة «نوميك»، المتخصصة في الذكاء الاصطناعي بنيويورك، إن الأمر أصبح يتعلق «فقط بجعل الأشياء كبيرة حقاً».

عندما كشفت «أوبن إيه آي» عن «جي بي تي - 3»، في نوفمبر (تشرين الثاني) 2020، تم تدريبها على أكبر كمية من البيانات حتى الآن (نحو 300 مليار «رمز مميز») التي هي بالأساس كلمات أو أجزاء من الكلمات. وبعد التعلُّم من تلك البيانات، أنتج النظام نصوصاً بدقة مدهشة، وكتابة منشورات على المدونات، والشعر، وبرامج الحاسوب الخاصة بها.

في عام 2022، ذهب «ديب مايند»، مختبر الذكاء الاصطناعي المملوك لـ«غوغل»، إلى ما هو أبعد من ذلك؛ إذ اختبر 400 نموذج للذكاء الاصطناعي، وتنوعت كمية بيانات التدريب وعوامل أخرى. وقد استخدمت النماذج ذات الأداء الأعلى بيانات أكثر مما توقعه كابلان في ورقته. أحد النماذج (ويُدعى «شينشيلا») تم تدريبه على 1.4 تريليون رمز مميز.

وسرعان ما تم تجاوزه. ففي العام الماضي، أصدر باحثون من الصين نموذجاً للذكاء الاصطناعي يُدعى «سكاي وورك»، الذي تم تدريبه على 3.2 تريليون رمز من النصوص الإنجليزية والصينية. كشفت «غوغل» أيضاً عن نظام «بال إم 2» للذكاء الاصطناعي، الذي تجاوز حد 3.6 تريليون رمز مميز.

البيانات «الاصطناعية»

كان لدى ألتمان، صاحب شركة «أوبن إيه آي»، خُطة للتعامل مع النقص الوشيك في البيانات الذي يلوح في الأفق.

وصرح في مؤتمر مايو (أيار) بأن شركات مثل شركته سوف تعمل في نهاية المطاف على تدريب نماذجها للذكاء الاصطناعي على نصوص ينتجها الذكاء الاصطناعي، المعروفة أيضاً باسم «البيانات الاصطناعية».

بما أن نموذج الذكاء الاصطناعي يمكن أن ينتج نصاً يشبه الإنسان، كما يقول ألتمان وآخرون، يمكن للأنظمة إنشاء بيانات إضافية لتطوير نسخ أفضل من نفسها. وهذا من شأنه مساعدة المطورين في بناء تكنولوجيا قوية بصورة متزايدة مع الإقلال من اعتمادهم على البيانات المحمية بحقوق الطبع والنشر.

قال ألتمان: «ما دمتَ تستطيع تجاوز أفق البيانات الاصطناعية، حيث يكون النموذج ذكياً بدرجة كافية لإنتاج بيانات اصطناعية جيدة، فإن كل شيء سيكون على ما يرام».

استكشف باحثو الذكاء الاصطناعي البيانات الاصطناعية لسنوات. لكن الحديث عن بناء نظام ذكاء اصطناعي قادر على تدريب نفسه بنفسه هو أيسر قولاً من بنائه بالفعل. إلا أن نماذج الذكاء الاصطناعي التي تتعلم من مخرجاتها الخاصة يمكن أن تقع رهينة دائرة حيث تعزز من مراوغاتها، وأخطائها، وقيودها.

* خدمة «نيويورك تايمز»



لم يعد الطبيب وحده… كيف يشارك الذكاء الاصطناعي في القرار الطبي؟

تتجه الرعاية الصحية نحو دمج مصادر بيانات متعددة لتكوين فهم أكثر شمولاً لحالة المريض (شاترستوك)
تتجه الرعاية الصحية نحو دمج مصادر بيانات متعددة لتكوين فهم أكثر شمولاً لحالة المريض (شاترستوك)
TT

لم يعد الطبيب وحده… كيف يشارك الذكاء الاصطناعي في القرار الطبي؟

تتجه الرعاية الصحية نحو دمج مصادر بيانات متعددة لتكوين فهم أكثر شمولاً لحالة المريض (شاترستوك)
تتجه الرعاية الصحية نحو دمج مصادر بيانات متعددة لتكوين فهم أكثر شمولاً لحالة المريض (شاترستوك)

لم يعد الحديث عن الذكاء الاصطناعي في قطاع الرعاية الصحية يدور حول وعود مستقبلية أو تحولات مفاجئة، بل بات أقرب إلى مسار تطور تدريجي يعيد تعريف كيفية فهم المرض وعلاجه وإدارة الأنظمة الصحية. ففي عام 2026، تتجه الصناعة نحو مرحلة أكثر نضجاً، حيث تتحول البيانات من مجرد مورد داعم إلى بنية أساسية تقود القرارات والابتكار.

هذا التحول لا يقوم على تقنية واحدة، بل على تقاطع عدة اتجاهات كتكامل البيانات وتطور النماذج التحليلية وتوسع استخدام الذكاء الاصطناعي في العمليات اليومية، وظهور بيئات تنظيمية تسمح بتجريب هذه التقنيات دون الإخلال بالمعايير.

يتوسع دور الذكاء الاصطناعي ليصبح جزءاً من دعم القرار السريري وتحسين دقة التشخيص والعلاج

من بيانات متفرقة إلى منظومات متكاملة

أحد أبرز التغيرات يتمثل في كيفية التعامل مع البيانات الصحية. فبدلاً من الاعتماد على مصادر منفصلة، يتجه القطاع نحو دمج تدفقات متعددة تشمل الجينوم، والتصوير الطبي والسجلات السريرية والبيانات الناتجة عن الأجهزة القابلة للارتداء.

هذا التحول نحو البيانات المتعددة الوسائط لا يهدف فقط إلى زيادة حجم المعلومات، بل إلى وضعها في سياق متكامل يسمح بفهم أعمق للحالة الصحية لكل مريض. ومع تزايد هذا التكامل، تصبح هندسة البيانات نفسها عاملاً حاسماً في نجاح التحليل، وليس مجرد خطوة تقنية في الخلفية.

في الوقت نفسه، يتوسع دور الذكاء الاصطناعي من كونه أداة تحليل إلى شريك في اتخاذ القرار. فأنظمة دعم القرار السريري المدعومة بالذكاء الاصطناعي أصبحت قادرة على تحسين دقة التشخيص وتقديم توصيات علاجية أكثر تخصيصاً، مدعومة ببيانات واسعة النطاق. لكن هذا لا يعني استبدال الطبيب، بل إعادة توزيع الأدوار. فالأنظمة الذكية تبرز المخاطر وتقدم الخيارات، بينما يبقى القرار النهائي بيد الإنسان. هذا التوازن بين الأتمتة والحكم البشري يشكل أحد ملامح المرحلة الحالية في تطور الرعاية الصحية.

الرعاية تتجاوز المستشفى

من التحولات اللافتة أيضاً انتقال الرعاية الصحية تدريجياً من المؤسسات إلى المنازل. فمع تزايد استخدام أجهزة إنترنت الأشياء وتقنيات المراقبة عن بُعد، أصبح من الممكن متابعة المرضى بشكل مستمر، خصوصاً في حالات الأمراض المزمنة. هذه النماذج الجديدة لا تقتصر على تقليل التكاليف، بل تهدف إلى تحسين النتائج الصحية من خلال التدخل المبكر. ومع ذلك، لا تزال هذه المقاربات في مراحل التوسع التدريجي، حيث يتم اختبارها عبر مشاريع تجريبية قبل تعميمها على نطاق واسع.

يساهم الذكاء الاصطناعي في تسريع اكتشاف الأدوية وتحسين كفاءة التجارب السريرية (شاترستوك)

تسريع الابتكار عبر بيئات تنظيمية مرنة

في موازاة ذلك، بدأت الجهات التنظيمية تلعب دوراً أكثر مرونة في دعم الابتكار. إذ ظهرت بيئات تجريبية تسمح باختبار نماذج الذكاء الاصطناعي باستخدام بيانات اصطناعية أو محاكاة، ما يسرّع عملية التحقق دون تعريض خصوصية المرضى للخطر. هذا النهج يعكس تحولاً في طريقة تنظيم القطاع، من نموذج يعتمد على الموافقة المسبقة فقط، إلى نموذج يوازن بين التجريب والرقابة.

على مستوى البحث العلمي، تبرز تقنيات جديدة مثل التعلم الآلي الكمي، التي تُستخدم لتحسين التنبؤ بسلامة الأدوية في مراحل مبكرة. هذه الأدوات قد تقلل من معدلات الفشل في التجارب ما قبل السريرية، وهو أحد أكبر التحديات في تطوير الأدوية. إلى جانب ذلك، يساهم الذكاء الاصطناعي في تحليل التفاعلات الجزيئية وتسريع اكتشاف المركبات الدوائية، ما يقلص الوقت والتكلفة في المراحل الأولى من البحث.

بعيداً عن الاستخدامات الطبية المباشرة، يتوسع حضور الذكاء الاصطناعي في العمليات الإدارية والتشغيلية. فبحلول عام 2026، يُتوقع أن تعتمد المؤسسات الصحية بشكل متزايد على أنظمة ذكاء اصطناعي لإدارة مهام مثل الفوترة، وسير العمل، وتحسين الكفاءة. هذا التوجه يشير إلى أن الذكاء الاصطناعي لم يعد مجرد أداة متخصصة، بل أصبح جزءاً من البنية التشغيلية اليومية، على غرار الأنظمة السحابية أو إدارة علاقات العملاء.

تتزايد أهمية الرعاية الصحية المنزلية المدعومة بالمراقبة عن بُعد وتقنيات إنترنت الأشياء (شاترستوك)

جودة البيانات... العامل الحاسم

رغم هذا التوسع، تبرز حقيقة أساسية: نجاح الذكاء الاصطناعي في الرعاية الصحية يعتمد بدرجة كبيرة على جودة البيانات. فحتى أكثر النماذج تقدماً لا يمكنها تقديم نتائج دقيقة إذا كانت البيانات غير مكتملة أو غير متسقة. وفي هذا السياق، تصبح القدرة على جمع بيانات عالية الجودة، وربطها بشكل متكامل، عاملاً حاسماً في تحديد الجهات القادرة على تحقيق قيمة حقيقية من هذه التقنيات.

وكما هو الحال في أي تحول رقمي، لا تخلو هذه التطورات من تحديات. فزيادة الاعتماد على البيانات تثير قضايا تتعلق بالخصوصية، وأمن المعلومات، وإمكانية إساءة الاستخدام. ولهذا، يترافق التوسع في استخدام الذكاء الاصطناعي مع استثمارات موازية في الحوكمة والامتثال، لضمان تحقيق الفوائد دون تعريض النظام لمخاطر جديدة.

نحو نموذج جديد للرعاية الصحية

ما يتضح من هذه الاتجاهات هو أن قطاع الرعاية الصحية لا يشهد ثورة مفاجئة، بل تحولاً تدريجياً يعيد بناء أسسه. فبدلاً من الاعتماد على تدخلات متأخرة، يتجه النظام نحو الوقاية والتنبؤ، مدعوماً ببيانات متكاملة ونماذج تحليلية متقدمة.

في هذا النموذج، لا تكون البيانات مجرد سجل للماضي، بل أداة لتوقع المستقبل. ولا يكون الذكاء الاصطناعي بديلاً عن الإنسان، بل امتداد لقدراته.

وبينما لا تزال العديد من هذه التحولات في مراحلها الأولى، فإن الاتجاه العام يبدو واضحاً: مستقبل الرعاية الصحية سيُبنى على البيانات، لكن قيمته الحقيقية ستعتمد على كيفية استخدامها.


تعليم روبوت بشري مهارات لعب التنس… من بيانات غير كاملة

يمكن للروبوتات تعلم مهارات حركية معقدة باستخدام بيانات بشرية غير مكتملة بدلاً من الاعتماد على بيانات مثالية (المصدر)
يمكن للروبوتات تعلم مهارات حركية معقدة باستخدام بيانات بشرية غير مكتملة بدلاً من الاعتماد على بيانات مثالية (المصدر)
TT

تعليم روبوت بشري مهارات لعب التنس… من بيانات غير كاملة

يمكن للروبوتات تعلم مهارات حركية معقدة باستخدام بيانات بشرية غير مكتملة بدلاً من الاعتماد على بيانات مثالية (المصدر)
يمكن للروبوتات تعلم مهارات حركية معقدة باستخدام بيانات بشرية غير مكتملة بدلاً من الاعتماد على بيانات مثالية (المصدر)

في مسار تطوير الروبوتات البشرية، ظل التحدي الأكبر يتمثل في تعليم الآلات مهارات حركية معقدة تحاكي الإنسان. فالمهام التي تبدو طبيعية للبشر، مثل الجري أو القفز أو حتى لعب التنس، تتطلب تنسيقاً دقيقاً بين التوازن، والتوقيت، واتخاذ القرار في أجزاء من الثانية. تقليد هذه القدرات آلياً لم يكن ممكناً إلا في بيئات محدودة، وغالباً عبر بيانات مثالية يصعب الحصول عليها في الواقع.

لكن دراسة حديثة تقترح مساراً مختلفاً: ماذا لو لم تعد الحاجة إلى بيانات مثالية شرطاً أساسياً لتعليم الروبوتات؟

يركز البحث على تطوير نموذج لتعليم روبوت بشري مهارات لعب التنس، باستخدام بيانات حركة بشرية غير مكتملة أو غير دقيقة. وبدلاً من الاعتماد على تسجيلات كاملة ومضبوطة للحركات، يعمل النظام على استغلال مقاطع جزئية من البيانات، ثم إعادة تركيبها لبناء سلوك حركي متكامل.

يعتمد النموذج على تقسيم الحركات إلى مقاطع صغيرة وإعادة تركيبها لتكوين سلوك متكامل (المصدر)

من البيانات المثالية إلى البيانات الواقعية

تقليدياً، تعتمد أنظمة التعلم الحركي للروبوتات على بيانات عالية الجودة، يتم التقاطها باستخدام أنظمة متقدمة لتتبع الحركة. هذه البيانات توفر وصفاً دقيقاً لكل حركة، لكنها مكلفة وصعبة التوسّع، كما أنها لا تعكس دائماً تعقيد العالم الحقيقي. في المقابل، ينطلق هذا البحث من فرضية مختلفة، حيث إن البيانات الواقعية حتى وإن كانت غير كاملة، يمكن أن تكون كافية لتعليم مهارات معقدة، إذا تم التعامل معها بطريقة مناسبة.

وهنا، لا يحاول النموذج «تنقية» البيانات بقدر ما يعمل على فهم الأنماط الكامنة فيها، واستنتاج كيفية تحويلها إلى حركات قابلة للتنفيذ.

نموذج يتعلم من أجزاء متفرقة

يعتمد النظام المقترح على تقسيم البيانات الحركية إلى مقاطع صغيرة، تمثل كل منها جزءاً من حركة أكبر. ثم يقوم بربط هذه الأجزاء معاً داخل بيئة محاكاة، بحيث يتعلم الروبوت كيفية الانتقال من حركة إلى أخرى بسلاسة. هذه المقاربة تشبه إلى حد ما الطريقة التي يتعلم بها الإنسان مهارة جديدة، حيث يتم الجمع بين تجارب جزئية لتشكيل أداء متكامل. والنتيجة هي نموذج قادر على توليد حركات ديناميكية، دون الحاجة إلى مسار واحد محدد مسبقاً.

التنس كنموذج لاختبار التعقيد

اختار الباحثون لعبة التنس كبيئة اختبار، نظراً لما تتطلبه من تنسيق بين الحركة والإدراك. فالتعامل مع كرة متحركة يستدعي تقدير السرعة والاتجاه، واتخاذ قرار فوري بشأن كيفية الرد، ثم تنفيذ الحركة بدقة. في التجارب، تمكّن الروبوت من تعلم ضرب الكرة والتفاعل مع مواقف مختلفة، بما في ذلك الحفاظ على تبادل الكرات في بعض الحالات. ويشير ذلك إلى أن النموذج لا يقتصر على تكرار حركات محفوظة، بل يطوّر استجابة قابلة للتكيف مع السياق.

اختيار التنس كنموذج يبرز قدرة النظام على التنسيق بين الإدراك والحركة في بيئة ديناميكية (المصدر)

فجوة بين المحاكاة والواقع

كما هو الحال في كثير من أبحاث الروبوتات، يعتمد جزء كبير من التدريب على بيئات محاكاة. هذه البيئات تتيح تسريع عملية التعلم وتقليل المخاطر، لكنها لا تعكس دائماً تعقيدات العالم الحقيقي.

لذلك، يمثل نقل المهارات من المحاكاة إلى الواقع أحد التحديات الأساسية. وقد عمل الباحثون على تقليل هذه الفجوة عبر تصميم النموذج بحيث يأخذ في الاعتبار التباين وعدم الدقة في البيانات، وهو ما يجعله أكثر قدرة على التكيف عند التطبيق العملي.

ما الذي يتغير فعلاً؟

لا تكمن أهمية هذا البحث في قدرة الروبوت على لعب التنس بحد ذاتها، بل في ما تشير إليه من تحول أوسع في منهجية التعلم. فإذا كان بالإمكان تدريب الأنظمة على مهارات معقدة باستخدام بيانات غير مثالية، فإن ذلك يفتح الباب أمام استخدام مصادر بيانات أكثر تنوعاً، مثل الفيديوهات العامة أو التسجيلات غير المنظمة. وهذا بدوره قد يسرّع تطوير ما يُعرف بـ«الذكاء الاصطناعي المجسّد»، حيث تتفاعل الأنظمة مع العالم الفيزيائي بشكل مباشر.

حدود وتحديات قائمة

مع ذلك، لا تزال هذه المقاربة في مراحلها الأولى. فالروبوت لا يصل إلى مستوى الأداء البشري، ولا تزال قدرته على التعامل مع مواقف غير متوقعة محدودة. كما أن الاعتماد على المحاكاة يفرض قيوداً على مدى تعميم النتائج. لكن رغم هذه التحديات، يقدم البحث دليلاً على أن الطريق نحو تعليم الروبوتات قد لا يمر عبر الكمال، بل عبر القدرة على الاستفادة من النقص.

يشير هذا التوجه إلى إعادة التفكير في العلاقة بين البيانات والتعلم. فبدلاً من السعي إلى جمع بيانات مثالية ومكتملة، قد يكون التركيز مستقبلاً على تطوير نماذج قادرة على التعلم من الواقع كما هو بما يحمله من نقص وتباين. وفي هذا السياق، لا يمثل التنس سوى مثال تجريبي. أما الهدف الأوسع، فهو تمكين الروبوتات من اكتساب مهارات حركية متنوعة، تتراوح بين العمل الصناعي والخدمات اليومية.


الذكاء الاصطناعي وواقع البيانات... هل تواكب البنية التحتية هذا التسارع؟

النمو المتسارع للبيانات يفرض تحديات جديدة على البنية التحتية من حيث الكفاءة والاستدامة (غيتي)
النمو المتسارع للبيانات يفرض تحديات جديدة على البنية التحتية من حيث الكفاءة والاستدامة (غيتي)
TT

الذكاء الاصطناعي وواقع البيانات... هل تواكب البنية التحتية هذا التسارع؟

النمو المتسارع للبيانات يفرض تحديات جديدة على البنية التحتية من حيث الكفاءة والاستدامة (غيتي)
النمو المتسارع للبيانات يفرض تحديات جديدة على البنية التحتية من حيث الكفاءة والاستدامة (غيتي)

مع تسارع الذكاء الاصطناعي في توليد البيانات واستخدامها، يؤدي تزايد أهمية البنية التحتية إلى تحول أقل وضوحاً، لكنه أكثر عمقاً. فبينما يتركّز جزء كبير من النقاش العام حول الذكاء الاصطناعي على قوة الحوسبة وأداء النماذج، يشير قادة الصناعة بشكل متزايد إلى كيفية تخزين البيانات والوصول إليها وتوسيعها على نطاق واسع.

في إحاطة إعلامية خاصة حضرتها «الشرق الأوسط»، قدّم مسؤولون في شركة «سي غيت تكنولوجي» (Seagate Technology) هذا التحول بوصفه تغيراً هيكلياً، لا مجرد تحديث تقني. فالتحدي لم يعد يقتصر على إنتاج البيانات أو معالجتها، بل بات يتمحور حول القدرة على الحفاظ عليها وتوسيعها بكفاءة واستدامة وعلى نحو يمكن التنبؤ به. يقول ديف موسلي، الرئيس التنفيذي للشركة إن «ما نعلنه اليوم ليس مجرد إنجاز على مستوى المنتج، بل يعكس كيف يجب أن تتطور البنية التحتية لمواكبة التسارع غير المسبوق في نمو البيانات عالمياً».

ديف موسلي الرئيس التنفيذي لشركة «سي غيت تكنولوجي»

يصعب المبالغة في حجم هذا النمو. فحسب موسلي، انتقل حجم البيانات العالمية من نحو زيتابايت واحد في عام 2005 إلى أكثر من 70 زيتابايت في عام 2020، مع توقع إضافة مئات الزيتابايت في السنوات المقبلة. ورغم أن الذكاء الاصطناعي يعدّ محركاً رئيسياً لهذا التوسع، فإنه ليس العامل الوحيد؛ إذ تسهم خدمات الحوسبة السحابية والفيديو والأتمتة والمتطلبات التنظيمية في تشكيل منظومة بيانات أكثر تعقيداً واتساعاً.

هذا التداخل يعيد صياغة طريقة تقييم البنية التحتية. ويضيف موسلي أن «القصة لم تعد تتعلق بتقنية واحدة، بل بالبنية التحتية وتخصيص رأس المال». بمعنى آخر، لم يعد السؤال هو ما إذا كان بالإمكان إنتاج البيانات أو معالجتها، بل ما إذا كانت الأنظمة الداعمة قادرة على التوسع بكفاءة لمواكبة هذا النمو.

ما بعد الحوسبة

أحد أبرز الاستنتاجات هو أن مسار الذكاء الاصطناعي لا يمكن فهمه من خلال الحوسبة وحدها. فرغم أهمية المعالجات والمسرّعات، فإنها تعتمد بشكل أساسي على توفر البيانات.

ويشير موسلي إلى أنه «عندما يتحدث الناس عن بنية الذكاء الاصطناعي، يركّزون على الحوسبة التي لا يمكن أن تعمل دون بيانات. ماذا يحدث عندما تنفد البيانات من منصات الحوسبة؟ هذه مشكلة».

هذا الطرح يعيد وضع التخزين في قلب أنظمة الذكاء الاصطناعي. فالبيانات لا يكفي أن تكون موجودة، بل يجب الاحتفاظ بها وحمايتها وإمكانية استرجاعها على نطاق واسع. وفي بيئات الحوسبة فائقة الحجم، حيث تُتخذ القرارات على مدى خمس أو سبع أو حتى عشر سنوات، تتحول هذه المتطلبات معادلةً اقتصادية بقدر ما هي تقنية.

تكلفة التخزين لكل تيرابايت واستهلاك الطاقة وكثافة السعة لكل رفّ، كلها أصبحت عوامل حاسمة. وكما أفاد موسلي: «الذكاء الاصطناعي لا يتوسع بالحوسبة فقط، بل يعتمد على اقتصاديات مستدامة، والتخزين هو ما يحدد هذه الاقتصاديات».

الذكاء الاصطناعي لا يستهلك البيانات فقط... بل يضاعفها عبر النسخ وإعادة التدريب والاستخدام المستمر (غيتي)

من النمو إلى التراكم

جزء من هذا التحول يرتبط بطبيعة البيانات نفسها. فالذكاء الاصطناعي لا يستهلك البيانات فحسب، بل يضاعفها. ويصرح بي إس تيه، الرئيس التجاري للشركة بأن «الذكاء الاصطناعي لا يستهلك البيانات فقط، بل يراكمها». عملياً، يعني ذلك أن البيانات تُنسخ وتُوزَّع وتُحفظ ويُعاد استخدامها لتدريب النماذج وإعادة تدريبها. ونتيجة لذلك؛ لم يعد نمو البيانات خطياً، بل أصبح متسارعاً ومتراكماً.

ويظهر هذا الواقع في توسّع مراكز البيانات عالمياً. فهناك اليوم أكثر من 11 ألف مركز بيانات، مع توقع ارتفاع العدد إلى نحو 15 ألفاً خلال السنوات المقبلة. لكن الأهم هو حجم هذه المراكز. فما كان يُعدّ مركزاً ضخماً سابقاً بقدرة 10 ميغاواط تحل محله اليوم مراكز «عملاقة» تصل إلى 100 أو حتى 300 ميغاواط.

ويذكر تيه أنه «لا يكاد يمر يوم دون الإعلان عن بناء مركز بيانات جديد في مكان ما من العالم». لكن التحول الحقيقي لا يكمن في العدد فقط، بل في الحجم والضغط المتزايد على البنية التحتية.

التوسع دون اضطراب

مع هذا النمو، لا يتمثل التحدي في زيادة السعة فقط، بل في تحقيق ذلك دون إحداث اضطراب. فمشغلو البنية التحتية الضخمة لا يمكنهم تحمل تغييرات جذرية متكررة. ويلفت موسلي إلى أن بعض العملاء يتخذون قرارات تمتد لخمس أو سبع أو حتى عشر سنوات، ويحتاجون إلى ثقة بأن كثافة التخزين ستستمر في التوسع دون تغييرات معمارية معطِّلة.هذا التركيز على القابلية للتنبؤ أصبح بحد ذاته ميزة أساسية. فالتطور يجب أن يكون تدريجياً ومستمراً، لا أن يفرض إعادة تصميم مكلفة في كل مرحلة.

من جانبه، يوضح جون موريس، المدير التقني، أن التقنيات التقليدية لزيادة الكثافة وصلت إلى حدودها ويتابع: «تقنية التسجيل المغناطيسي التقليدية اقتربت من حدودها، ونحتاج إلى ابتكارات جديدة لدفع الجيل القادم من التخزين».

ولهذا؛ طوّرت الشركة تقنية التسجيل المغناطيسي بمساعدة الحرارة (HAMR)، التي تستخدم تسخيناً دقيقاً بالليزر لزيادة كثافة البيانات دون تغيير الحجم الفيزيائي للأقراص. ويشرح موريس بأن «الزيادة في السعة تتحقق من خلال الفيزياء الأساسية للتسجيل؛ ما يتيح اقتصاديات أفضل من حيث التكلفة لكل تيرابايت والاستثمار المطلوب». الأهم أن هذه التقنية لم تعد في مرحلة التجارب، بل انتقلت إلى بيئات الإنتاج الفعلية، حيث تم اعتمادها من قِبل عملاء في قطاع الحوسبة السحابية واسعة النطاق.

من الابتكار إلى الإنتاج الصناعي

تحويل الابتكار منتجاً فعلياً يتطلب أكثر من اختراق تقني، بل يحتاج إلى قدرة على التصنيع على نطاق واسع بدقة عالية. وحول ذلك يقول موريس إن «نقل هذه التقنية من البحث إلى الإنتاج تطلب تطوير تقنيات جديدة بالكامل»، مشيراً إلى التقدم في المواد والفوتونيات وعمليات التصنيع الدقيقة. وهذا ما يتيح التوسع التدريجي دون انقطاع. فكل جيل جديد يبني على السابق؛ ما يسمح بزيادة السعة دون الحاجة إلى إعادة تصميم الأنظمة بالكامل.

التحدي الأساسي لم يعد سرعة النماذج... بل قدرة البنية التحتية على التوسع بشكل مستدام وموثوق (غيتي)

اقتصاديات الحجم

على مستوى البنية التحتية الضخمة، حتى التحسينات الصغيرة تُحدِث فرقاً كبيراً. ويفسر موسلي بأنه في بيئة تخزين بحجم إكسابايت واحد، يمكن تحقيق تحسن في كفاءة الطاقة بنحو 47 في المائة مقارنة بالأنظمة السابقة، مع تقليل عدد الأقراص من نحو 50 ألفاً إلى نحو 22 ألفاً؛ ما يؤدي إلى تقليل المساحة والتبريد والتعقيد التشغيلي.

هذه ليست تحسينات هامشية، بل تغييرات تؤثر مباشرة على التكلفة والبنية.

وأشار تيه إلى أن الاستدامة أصبحت عاملاً مؤثراً في قرارات الشراء، قائلاً: «لم تعد الاستدامة مسألة ثانوية»، في إشارة إلى أهمية استهلاك الطاقة والبصمة الكربونية. كما أن نظرة المؤسسات إلى البيانات تغيّرت، حيث إنه «في السابق كانت البيانات تُعدّ تكلفة، أما اليوم فهي أصل استراتيجي يتراكم بمرور الوقت».

السؤال الحاسم

تشير هذه التطورات إلى تحول أوسع في تصميم بنية الذكاء الاصطناعي. فالتخزين الذي كان في الخلفية، أصبح اليوم في صميم التخطيط. في السابق، كانت الأولوية للحوسبة والذاكرة والشبكات. أما اليوم، فأصبح التخزين عاملاً حاسماً في قدرة الأنظمة على التوسع. وكما وصفه تيه: «كان التخزين مثل الهواء أو الماء أساسي، لكنه غير مرئي... إلى أن يغيب». اليوم، لم يعد كذلك، بل أصبح محورياً في بناء القدرات الرقمية.

بالنسبة لقيادة الشركة، يتجاوز هذا التحول حدود التقنية ليطرح سؤالاً أساسياً حول مستقبل الذكاء الاصطناعي. وباعتقاد موسلي أن «السؤال الأهم لهذا العقد ليس مدى سرعة تدريب النماذج، بل مدى قدرة البنية التحتية للبيانات على التوسع بشكل مستدام».

هذا الطرح يعيد توجيه النقاش، حيث إن مستقبل الذكاء الاصطناعي قد لا يعتمد فقط على تطور النماذج، بل على القدرة على إدارة البيانات على نطاق غير مسبوق بكفاءة واستقرار ودون انقطاع. وبهذا المعنى، قد لا يُقاس تقدم الذكاء الاصطناعي بذكائه فقط، بل بالبنية التحتية التي تجعله ممكناً.