كيف يحصد عمالقة التكنولوجيا بيانات الذكاء الاصطناعي؟

استنساخ النصوص من الأصوات والفيديوهات واستنباط لغة اصطناعية

كيف يحصد عمالقة التكنولوجيا بيانات الذكاء الاصطناعي؟
TT

كيف يحصد عمالقة التكنولوجيا بيانات الذكاء الاصطناعي؟

كيف يحصد عمالقة التكنولوجيا بيانات الذكاء الاصطناعي؟

في أواخر عام 2021، واجهت شركة «أوبن إيه آي» مشكلة في الإمداد؛ إذ استنفد مختبر الذكاء الاصطناعي كل مخزونه من النصوص الإنجليزية ذات السمعة الطيبة على الإنترنت أثناء تطويره لأحدث نظام الذكاء الاصطناعي الخاص به.

من صوت الفيديو إلى النص

وكانت تحتاج إلى مزيد (وربما أكثر بكثير) من البيانات لتدريب النسخة المقبلة من تقنياتها. لذا أنشأ باحثو «أوبن إيه آي» أداة للتعرف على الكلام تسمى «ويسبر» (Whisper)، يمكنها استنساخ الصوت من مقاطع يوتيوب للفيديو، وإنتاج نص محادثة جديد يجعل نظام الذكاء الاصطناعي أكثر ذكاء.

ناقش بعض موظفي «أوبن إيه آي» كيف أن مثل هذه الخطوة قد تتعارض مع قواعد «يوتيوب».

في نهاية المطاف، قام فريق من «أوبن إيه آي» باستنساخ أكثر من مليون ساعة من مقاطع الفيديو على «يوتيوب»، حسب قول بعض الأشخاص. ثم تمَّت تغذية النصوص في نظام يُسمى «جي بي تي - 4»، الذي كان يُعدّ على نطاق واسع واحداً من أقوى نماذج الذكاء الاصطناعي في العالم، وكان الأساس لأحدث نسخة من روبوت الدردشة «تشات جي بي تي».

صار السباق نحو قيادة الذكاء الاصطناعي بمثابة هدف يائس للبحث عن البيانات الرقمية اللازمة لتطوير هذه التكنولوجيا. وللحصول على تلك البيانات، قامت شركات التكنولوجيا، بما في ذلك «أوبن إيه آي»، و«غوغل»، و«ميتا» بتقليص الوقت والجهد والنفقات، وتجاهلت سياسات الشركات، وناقشت الالتفاف على القوانين، بحسب فحص أجرته «نيويورك تايمز».

في «ميتا» التي تملك منصتَي «فيسبوك» و«إنستاغرام»، ناقش مديرون ومحامون ومهندسون، العام الماضي، شراء دار نشر «سايمون أند شوستر» لتأمين أعمال طويلة، طبقاً لتسجيلات اجتماعات داخلية حصلت عليها صحيفة «تايمز». كما تناولوا مسألة جمع البيانات المحمية بحقوق الطبع والنشر عبر الإنترنت، حتى لو كان ذلك يعني مواجهة الدعاوى القضائية. وقالوا إن التفاوض على التراخيص مع الناشرين والفنانين والموسيقيين وصناعة الأخبار سوف يستغرق وقتاً طويلاً.

على غرار شركة «أوبن إيه آي»، شرعت شركة «غوغل» باستنساخ مقاطع الفيديو على «يوتيوب» لجمع النصوص لنماذج الذكاء الاصطناعي الخاصة بها، وفقاً لما ذكره خمسة أشخاص على اطلاع بممارسات الشركة. وذلك من المحتمل أن ينتهك حقوق الطبع والنشر للفيديوهات، التي تنتمي لمبتكريها.

في العام الماضي، وسعت «غوغل» أيضاً من شروط الخدمة. ووفقاً لأعضاء فريق الخصوصية في الشركة والرسالة الداخلية التي اطلعت عليها صحيفة «نيويورك تايمز»، كان أحد الدوافع وراء هذا التغيير السماح لـ«غوغل» بأن تكون قادرة على الاستفادة من «مستندات غوغل» المتاحة للجمهور، ومراجعات المطاعم على خرائط «غوغل»، وغيرها من المواد على الإنترنت للحصول على المزيد من منتجات الذكاء الاصطناعي الخاصة بها.

إمدادات البيانات للذكاء الاصطناعي

توضح إجراءات الشركات كيف تحولت المعلومات عبر الإنترنت (القصص الإخبارية، والأعمال الخيالية، ونشرات منصات التراسل، ومقالات ويكيبيديا، وبرامج الحاسوب، والصور، والبودكاست، ومقاطع الأفلام) بشكل متزايد إلى شريان الحياة لصناعة الذكاء الاصطناعي المزدهرة؛ إذ يعتمد إنشاء أنظمة مبتكرة على وجود بيانات كافية لتعليم التقنيات اللازمة لإنتاج النصوص، والصور، والأصوات، ومقاطع الفيديو على الفور، التي تشبه ما يصنعه الإنسان.

إن حجم البيانات أمر بالغ الأهمية. وقد تعلمت روبوتات الدردشة الرائدة من مجموعات من النصوص الرقمية التي تصل إلى 3 تريليونات كلمة، أو ما يقرب من ضعف عدد الكلمات تقريبا المخزنة في مكتبة «بودليان» بجامعة أكسفورد، التي جمعت المخطوطات منذ عام 1602.

وقال الباحثون إن أكثر البيانات قيمة هي المعلومات عالية الجودة، مثل الكتب، والمقالات المنشورة، التي كتبها وحرَّرها المتخصصون بعناية.

لسنوات، كانت الإنترنت (مع مواقع مثل «ويكيبيديا»، و«ريديت») مصدراً لا نهاية له للبيانات. ولكن مع تقدم الذكاء الاصطناعي، سعت شركات التكنولوجيا إلى البحث عن المزيد من المستودعات. «غوغل» و«ميتا»، اللذين يملكان مليارات المستخدمين الذين ينتجون استعلامات البحث والمدونات على وسائل التواصل الاجتماعي كل يوم، كانتا مقيدتين إلى حد كبير بقوانين الخصوصية وسياساتهما الخاصة من الاعتماد على كثير من ذلك المحتوى للذكاء الاصطناعي.

إن حاجتها ملحَّة للغاية. ووفقاً لمعهد «إيبوك» للأبحاث، يمكن لشركات التكنولوجيا النفاذ إلى البيانات عالية الجودة على الإنترنت بحلول عام 2026؛ إذ تستخدم الشركات البيانات بوتيرة أسرع مما يجري إنتاجه.

معلومات «اصطناعية»

تتوق شركات التكنولوجيا بشدة إلى البيانات الجديدة، حتى إن بعض هذه الشركات تعمل على تطوير معلومات «اصطناعية». وهذه ليست بيانات عضوية صنعها البشر، وإنما النصوص، والصور، والرموز التي تنتجها نماذج الذكاء الاصطناعي (بمعنى آخر، تتعلم الأنظمة مما تولده بنفسها).

بالنسبة للمبدعين، أدى الاستخدام المتزايد لأعمالهم من قبل شركات الذكاء الاصطناعي إلى إقامة دعاوى قضائية حول حقوق النشر والترخيص. وقد قامت جريدة «نيويورك تايمز» بمقاضاة شركة «مايكروسوفت» وشركة «أوبن إيه آي»، العام الماضي، لاستخدام مقالات إخبارية ذات حقوق نشر مرخَّصة، ومن دون الحصول على ترخيص لتدريب روبوتات الدردشة العاملة بتقنيات الذكاء الاصطناعي. قالت شركة «أوبن إيه آي» و«مايكروسوفت» إن استخدام المقالات كان «استخداماً منصفاً»، أو مسموحاً به بموجب قانون حقوق الطبع والنشر، لأنهما غيّرا الأعمال لغرض مختلف.

قوانين التدرج والارتقاء

«الارتقاء هو كل ما يحتاجون إليه»... في يناير (كانون الثاني) 2020، نشر جاريد كابلان، عالم الفيزياء النظرية في جامعة جونز هوبكنز، بحثاً رائداً عن الذكاء الاصطناعي أثار الشهية للبيانات على الإنترنت.

كان استنتاجه واضحاً تماماً: كلما كانت هناك بيانات متاحة أكثر لتدريب النموذج اللغوي الكبير (التكنولوجيا المحركة لروبوتات الدردشة على الإنترنت) كان أداؤها أفضل. تماماً كما يتعلم الطالب أكثر من خلال قراءة المزيد من الكتب، يمكن للنماذج اللغوية الكبيرة أن تحدد الأنماط في النص بشكل أفضل، وتكون أكثر دقة مع المزيد من المعلومات.

قال كابلان، الذي نشر ورقته البحثية برفقة 9 باحثين من شركة «أوبن إيه آي»: «لقد فوجئ الجميع بأن هذه الاتجاهات (قوانين التدرج والارتقاء كما نسميها) كانت في الأساس دقيقة مثلما ترون في علم الفلك أو الفيزياء». (إنه يعمل الآن في شركة «أنثروبيك» الناشئة للذكاء الاصطناعي).

سرعان ما صار «الارتقاء هو كل ما تحتاجون إليه» الصرخة الحاشدة من أجل الذكاء الاصطناعي.

استخدم الباحثون منذ فترة طويلة قواعد بيانات عامة وكبيرة من المعلومات الرقمية لتطوير الذكاء الاصطناعي، بما في ذلك «ويكيبيديا» و«كومون كرول»، وهي قاعدة بيانات تضم أكثر من 250 مليار صفحة على شبكة الإنترنت تم جمعها منذ عام 2007. وغالباً ما «يُنظف» الباحثون البيانات بإزالة خطاب الكراهية، والنصوص غير المرغوب فيها قبل استخدامها في تدريب نماذج الذكاء الاصطناعي.

في عام 2020، كانت مجموعات البيانات صغيرة للغاية، وفقاً لمعايير اليوم. وقد عُدَّت قاعدة بيانات واحدة تحتوي على 30 ألف صورة من موقع «فليكر» للصور مصدراً حيوياً في ذلك الوقت.

بعد ورقة كابلان البحثية، لم يعد هذا الكم من البيانات كافياً. وقال براندون دوديرشتات، الرئيس التنفيذي لشركة «نوميك»، المتخصصة في الذكاء الاصطناعي بنيويورك، إن الأمر أصبح يتعلق «فقط بجعل الأشياء كبيرة حقاً».

عندما كشفت «أوبن إيه آي» عن «جي بي تي - 3»، في نوفمبر (تشرين الثاني) 2020، تم تدريبها على أكبر كمية من البيانات حتى الآن (نحو 300 مليار «رمز مميز») التي هي بالأساس كلمات أو أجزاء من الكلمات. وبعد التعلُّم من تلك البيانات، أنتج النظام نصوصاً بدقة مدهشة، وكتابة منشورات على المدونات، والشعر، وبرامج الحاسوب الخاصة بها.

في عام 2022، ذهب «ديب مايند»، مختبر الذكاء الاصطناعي المملوك لـ«غوغل»، إلى ما هو أبعد من ذلك؛ إذ اختبر 400 نموذج للذكاء الاصطناعي، وتنوعت كمية بيانات التدريب وعوامل أخرى. وقد استخدمت النماذج ذات الأداء الأعلى بيانات أكثر مما توقعه كابلان في ورقته. أحد النماذج (ويُدعى «شينشيلا») تم تدريبه على 1.4 تريليون رمز مميز.

وسرعان ما تم تجاوزه. ففي العام الماضي، أصدر باحثون من الصين نموذجاً للذكاء الاصطناعي يُدعى «سكاي وورك»، الذي تم تدريبه على 3.2 تريليون رمز من النصوص الإنجليزية والصينية. كشفت «غوغل» أيضاً عن نظام «بال إم 2» للذكاء الاصطناعي، الذي تجاوز حد 3.6 تريليون رمز مميز.

البيانات «الاصطناعية»

كان لدى ألتمان، صاحب شركة «أوبن إيه آي»، خُطة للتعامل مع النقص الوشيك في البيانات الذي يلوح في الأفق.

وصرح في مؤتمر مايو (أيار) بأن شركات مثل شركته سوف تعمل في نهاية المطاف على تدريب نماذجها للذكاء الاصطناعي على نصوص ينتجها الذكاء الاصطناعي، المعروفة أيضاً باسم «البيانات الاصطناعية».

بما أن نموذج الذكاء الاصطناعي يمكن أن ينتج نصاً يشبه الإنسان، كما يقول ألتمان وآخرون، يمكن للأنظمة إنشاء بيانات إضافية لتطوير نسخ أفضل من نفسها. وهذا من شأنه مساعدة المطورين في بناء تكنولوجيا قوية بصورة متزايدة مع الإقلال من اعتمادهم على البيانات المحمية بحقوق الطبع والنشر.

قال ألتمان: «ما دمتَ تستطيع تجاوز أفق البيانات الاصطناعية، حيث يكون النموذج ذكياً بدرجة كافية لإنتاج بيانات اصطناعية جيدة، فإن كل شيء سيكون على ما يرام».

استكشف باحثو الذكاء الاصطناعي البيانات الاصطناعية لسنوات. لكن الحديث عن بناء نظام ذكاء اصطناعي قادر على تدريب نفسه بنفسه هو أيسر قولاً من بنائه بالفعل. إلا أن نماذج الذكاء الاصطناعي التي تتعلم من مخرجاتها الخاصة يمكن أن تقع رهينة دائرة حيث تعزز من مراوغاتها، وأخطائها، وقيودها.

* خدمة «نيويورك تايمز»



أحدث نزعات الذكاء الاصطناعي المقبلة من مؤتمر «مايكروسوفت إغنايت 2024»

يستعرض مؤتمر «مايكروسوفت إغنايت 2024» أبرز تقنيات الذكاء الاصطناعي المقبلة
يستعرض مؤتمر «مايكروسوفت إغنايت 2024» أبرز تقنيات الذكاء الاصطناعي المقبلة
TT

أحدث نزعات الذكاء الاصطناعي المقبلة من مؤتمر «مايكروسوفت إغنايت 2024»

يستعرض مؤتمر «مايكروسوفت إغنايت 2024» أبرز تقنيات الذكاء الاصطناعي المقبلة
يستعرض مؤتمر «مايكروسوفت إغنايت 2024» أبرز تقنيات الذكاء الاصطناعي المقبلة

انطلقت قبل قليل فعاليات مؤتمر «مايكروسوفت إغنايت 2024» Microsoft Ignite 2024 من مدينة شيكاغو الأميركية، الذي يستمر إلى نهاية الخميس 21 نوفمبر (تشرين الثاني). وحصلت «الشرق الأوسط» على نظرة استباقية حول «عملاء الذكاء الاصطناعي» AI Agents، ونذكرها في هذا الموضوع.

بداية، تتوجه «مايكروسوفت» نحو تبني الذكاء الاصطناعي على صعيد أوسع في جميع خدماتها، وذلك من خلال ما يعرف بـ«عملاء الذكاء الاصطناعي» و«كوبايلوت» Copilot لتسريع عمليات الشركات والموظفين وتطوير البرامج والتحول إلى الذكاء الاصطناعي على جميع الصعد.

يمكن إيجاد «عميل ذكي» بكل سهولة باستخدام اللغة البشرية

مَن هم «عملاء الذكاء الاصطناعي»؟

«عملاء الذكاء الاصطناعي» هي أدوات لأتمتة الأعمال اليومية بذكاء باستخدام تقنيات الذكاء الاصطناعي، يمكن تطويرها بسهولة كبيرة وباستخدام النصوص البشرية وليس البرمجية. ويمكن لـ«العملاء» الرد على استفسارات الزبائن عبر الإنترنت بشكل آلي طوال الوقت وتنظيم الجداول المالية والبحث في آلاف الوثائق عن إجابة محددة للزبون، ومن ثم اتخاذ الإجراءات التالية آلياً أو رفعها إلى المستخدم ليعالج الحالات الخاصة يدويا. ويمكن تلخيص تعريف هذه الأدوات على أنها تطبيقات المستقبل المعتمدة على الذكاء الاصطناعي.

قدرات فائقة

ويستطيع «العملاء الأذكياء» مراجعة سجل منتجات الشركة وتحليلها وتلخيصها للمهتمين الذين يرسلون رسائل البريد الإلكتروني إلى الشركة للاستفسار عن منتج أو خدمة محددة، أو الذين يسألون عن ذلك عبر نظام الدردشة في موقع الشركة. ويمكنها كذلك إكمال سلسلة العمل لدى طلب منتج ما وإصدار وإرسال فاتورة الشراء إلى الزبون وطلب استلام المنتج من شركة التوصيل ومتابعة حالة الطلب، دون أي تدخل من المستخدم.

كما يمكنهم البحث في ملفات الشركة الموجودة في SharePoint أو في مجلدات خاصة فيها، والإجابة عن أسئلة الموظفين أنفسهم، مثل سؤال موظف: «ما عدد المنتجات التي تم تسليمها في آخر أسبوعين؟» أو «ما هو إجراء طلب نقل موظف إلى فرع آخر؟»، ليجيب «العميل الذكي» وكأن المتحدث يدردش مع خدمة ذكاء اصطناعي تقليدية، وبالأسلوب نفسه.

تحويل النصوص لغاتٍ مختلفة

ويستطيع بعض «العملاء» تحويل النصوص بين اللغات المختلفة في اجتماعات برنامج «تيمز» ومحاكاة صوت المستخدم ونبرته وتحويلها لغة أخرى بشكل مباشر دون أن يشعر أي شخص بذلك، ليستطيع المشاركون التحدث بلغات العالم وكسر حواجز اللغة بينهم خلال الاجتماعات والتركيز على المسائل المهمة في كل اجتماع. ويستطيع البعض الآخر حل المشاكل التقنية في كومبيوترات المستخدمين. ويستطيع البعض الآخر مساعدة المستخدم في ترتيب جدول أعماله، حيث يمكنه ملاحظة أن اجتماعاً ما قد تجاوز مدته المطلوبة، ليقوم بإعادة جدولة الاجتماع التالي آلياً، أو تلخيص رسائل البريد الإلكتروني غير المقروءة التي وصلت المستخدم خلال اجتماعه وذكر نقاط العمل التالية لكل رسالة.

هذا، وتمت إضافة «العملاء الأذكياء» إلى شبكة «لينكدإن» LinkedIn لمساعدة مديري التوظيف في العثور على الموظفين ذوي المهارات المناسبة وبكل سهولة.

كيفية إعداد «عميل ذكي»

ويمكن إعداد «عميل ذكي» جديد بشكل سهل وباستخدام اللغة البشرية، مع وضع تسلسل العمليات المطلوبة («مثل البحث عن المعلومة، ومن ثم الإجابة عن السؤال، ومن ثم إرسال بريد إلكتروني في حال طلب المستخدم ذلك، أو تحويل الطلب إلى شخص محدد في حال عدم العثور على المعلومة»، وغيرها) وتفعيل «العميل الذكي» فوراً.

ولا يحتاج المستخدم إلى أي خبرة برمجية لإعداد «عميل ذكي» جديد، وكأنه وثيقة نصية جديدة في برنامج «وورد» أو جدول حسابات في «إكسل». يكفي إعداد آلية العمل وكتابة ما الذي ينبغي القيام به في «مايكروسوفت 360 كوبايلوت» لبدء العمل.

برامج «تفهم» المستقبل الذكي

ويمكن للمطورين استخدام خدمة «أزور إيه آي إغنايت» Azure AI Agent Service لدمج «العملاء الأذكياء» مع نصوصهم البرمجية للحصول على برامج متقدمة مدعمة بالذكاء الاصطناعي دون الحاجة إلى كتابة نصوص برمجية معقدة مرتبطة بلغات الذكاء الاصطناعي، حيث يستطيع «العملاء الأذكياء» فهم وإدراك السياق الذي تعمل فيه وتقوم بتقسيم العمل أجزاء وخطوات عدّة والعمل على كل منها وإكمالها بشكل سريع وأكثر كفاءة مما سابق.

كما سيستطيع «العملاء الأذكياء» تقييم المخاطر وخفضها أو تجاوزها وتقديم تقارير الأداء ومتابعة تنفيذ التوصيات، مع وجود الإشراف البشري على الخطوات الأخيرة للتأكد من دقتها وصحتها وضمان عدم حدوث أي خطأ قد يتسبب بضرر على سير العمل.