كيف يحصد عمالقة التكنولوجيا بيانات الذكاء الاصطناعي؟

استنساخ النصوص من الأصوات والفيديوهات واستنباط لغة اصطناعية

كيف يحصد عمالقة التكنولوجيا بيانات الذكاء الاصطناعي؟
TT

كيف يحصد عمالقة التكنولوجيا بيانات الذكاء الاصطناعي؟

كيف يحصد عمالقة التكنولوجيا بيانات الذكاء الاصطناعي؟

في أواخر عام 2021، واجهت شركة «أوبن إيه آي» مشكلة في الإمداد؛ إذ استنفد مختبر الذكاء الاصطناعي كل مخزونه من النصوص الإنجليزية ذات السمعة الطيبة على الإنترنت أثناء تطويره لأحدث نظام الذكاء الاصطناعي الخاص به.

من صوت الفيديو إلى النص

وكانت تحتاج إلى مزيد (وربما أكثر بكثير) من البيانات لتدريب النسخة المقبلة من تقنياتها. لذا أنشأ باحثو «أوبن إيه آي» أداة للتعرف على الكلام تسمى «ويسبر» (Whisper)، يمكنها استنساخ الصوت من مقاطع يوتيوب للفيديو، وإنتاج نص محادثة جديد يجعل نظام الذكاء الاصطناعي أكثر ذكاء.

ناقش بعض موظفي «أوبن إيه آي» كيف أن مثل هذه الخطوة قد تتعارض مع قواعد «يوتيوب».

في نهاية المطاف، قام فريق من «أوبن إيه آي» باستنساخ أكثر من مليون ساعة من مقاطع الفيديو على «يوتيوب»، حسب قول بعض الأشخاص. ثم تمَّت تغذية النصوص في نظام يُسمى «جي بي تي - 4»، الذي كان يُعدّ على نطاق واسع واحداً من أقوى نماذج الذكاء الاصطناعي في العالم، وكان الأساس لأحدث نسخة من روبوت الدردشة «تشات جي بي تي».

صار السباق نحو قيادة الذكاء الاصطناعي بمثابة هدف يائس للبحث عن البيانات الرقمية اللازمة لتطوير هذه التكنولوجيا. وللحصول على تلك البيانات، قامت شركات التكنولوجيا، بما في ذلك «أوبن إيه آي»، و«غوغل»، و«ميتا» بتقليص الوقت والجهد والنفقات، وتجاهلت سياسات الشركات، وناقشت الالتفاف على القوانين، بحسب فحص أجرته «نيويورك تايمز».

في «ميتا» التي تملك منصتَي «فيسبوك» و«إنستاغرام»، ناقش مديرون ومحامون ومهندسون، العام الماضي، شراء دار نشر «سايمون أند شوستر» لتأمين أعمال طويلة، طبقاً لتسجيلات اجتماعات داخلية حصلت عليها صحيفة «تايمز». كما تناولوا مسألة جمع البيانات المحمية بحقوق الطبع والنشر عبر الإنترنت، حتى لو كان ذلك يعني مواجهة الدعاوى القضائية. وقالوا إن التفاوض على التراخيص مع الناشرين والفنانين والموسيقيين وصناعة الأخبار سوف يستغرق وقتاً طويلاً.

على غرار شركة «أوبن إيه آي»، شرعت شركة «غوغل» باستنساخ مقاطع الفيديو على «يوتيوب» لجمع النصوص لنماذج الذكاء الاصطناعي الخاصة بها، وفقاً لما ذكره خمسة أشخاص على اطلاع بممارسات الشركة. وذلك من المحتمل أن ينتهك حقوق الطبع والنشر للفيديوهات، التي تنتمي لمبتكريها.

في العام الماضي، وسعت «غوغل» أيضاً من شروط الخدمة. ووفقاً لأعضاء فريق الخصوصية في الشركة والرسالة الداخلية التي اطلعت عليها صحيفة «نيويورك تايمز»، كان أحد الدوافع وراء هذا التغيير السماح لـ«غوغل» بأن تكون قادرة على الاستفادة من «مستندات غوغل» المتاحة للجمهور، ومراجعات المطاعم على خرائط «غوغل»، وغيرها من المواد على الإنترنت للحصول على المزيد من منتجات الذكاء الاصطناعي الخاصة بها.

إمدادات البيانات للذكاء الاصطناعي

توضح إجراءات الشركات كيف تحولت المعلومات عبر الإنترنت (القصص الإخبارية، والأعمال الخيالية، ونشرات منصات التراسل، ومقالات ويكيبيديا، وبرامج الحاسوب، والصور، والبودكاست، ومقاطع الأفلام) بشكل متزايد إلى شريان الحياة لصناعة الذكاء الاصطناعي المزدهرة؛ إذ يعتمد إنشاء أنظمة مبتكرة على وجود بيانات كافية لتعليم التقنيات اللازمة لإنتاج النصوص، والصور، والأصوات، ومقاطع الفيديو على الفور، التي تشبه ما يصنعه الإنسان.

إن حجم البيانات أمر بالغ الأهمية. وقد تعلمت روبوتات الدردشة الرائدة من مجموعات من النصوص الرقمية التي تصل إلى 3 تريليونات كلمة، أو ما يقرب من ضعف عدد الكلمات تقريبا المخزنة في مكتبة «بودليان» بجامعة أكسفورد، التي جمعت المخطوطات منذ عام 1602.

وقال الباحثون إن أكثر البيانات قيمة هي المعلومات عالية الجودة، مثل الكتب، والمقالات المنشورة، التي كتبها وحرَّرها المتخصصون بعناية.

لسنوات، كانت الإنترنت (مع مواقع مثل «ويكيبيديا»، و«ريديت») مصدراً لا نهاية له للبيانات. ولكن مع تقدم الذكاء الاصطناعي، سعت شركات التكنولوجيا إلى البحث عن المزيد من المستودعات. «غوغل» و«ميتا»، اللذين يملكان مليارات المستخدمين الذين ينتجون استعلامات البحث والمدونات على وسائل التواصل الاجتماعي كل يوم، كانتا مقيدتين إلى حد كبير بقوانين الخصوصية وسياساتهما الخاصة من الاعتماد على كثير من ذلك المحتوى للذكاء الاصطناعي.

إن حاجتها ملحَّة للغاية. ووفقاً لمعهد «إيبوك» للأبحاث، يمكن لشركات التكنولوجيا النفاذ إلى البيانات عالية الجودة على الإنترنت بحلول عام 2026؛ إذ تستخدم الشركات البيانات بوتيرة أسرع مما يجري إنتاجه.

معلومات «اصطناعية»

تتوق شركات التكنولوجيا بشدة إلى البيانات الجديدة، حتى إن بعض هذه الشركات تعمل على تطوير معلومات «اصطناعية». وهذه ليست بيانات عضوية صنعها البشر، وإنما النصوص، والصور، والرموز التي تنتجها نماذج الذكاء الاصطناعي (بمعنى آخر، تتعلم الأنظمة مما تولده بنفسها).

بالنسبة للمبدعين، أدى الاستخدام المتزايد لأعمالهم من قبل شركات الذكاء الاصطناعي إلى إقامة دعاوى قضائية حول حقوق النشر والترخيص. وقد قامت جريدة «نيويورك تايمز» بمقاضاة شركة «مايكروسوفت» وشركة «أوبن إيه آي»، العام الماضي، لاستخدام مقالات إخبارية ذات حقوق نشر مرخَّصة، ومن دون الحصول على ترخيص لتدريب روبوتات الدردشة العاملة بتقنيات الذكاء الاصطناعي. قالت شركة «أوبن إيه آي» و«مايكروسوفت» إن استخدام المقالات كان «استخداماً منصفاً»، أو مسموحاً به بموجب قانون حقوق الطبع والنشر، لأنهما غيّرا الأعمال لغرض مختلف.

قوانين التدرج والارتقاء

«الارتقاء هو كل ما يحتاجون إليه»... في يناير (كانون الثاني) 2020، نشر جاريد كابلان، عالم الفيزياء النظرية في جامعة جونز هوبكنز، بحثاً رائداً عن الذكاء الاصطناعي أثار الشهية للبيانات على الإنترنت.

كان استنتاجه واضحاً تماماً: كلما كانت هناك بيانات متاحة أكثر لتدريب النموذج اللغوي الكبير (التكنولوجيا المحركة لروبوتات الدردشة على الإنترنت) كان أداؤها أفضل. تماماً كما يتعلم الطالب أكثر من خلال قراءة المزيد من الكتب، يمكن للنماذج اللغوية الكبيرة أن تحدد الأنماط في النص بشكل أفضل، وتكون أكثر دقة مع المزيد من المعلومات.

قال كابلان، الذي نشر ورقته البحثية برفقة 9 باحثين من شركة «أوبن إيه آي»: «لقد فوجئ الجميع بأن هذه الاتجاهات (قوانين التدرج والارتقاء كما نسميها) كانت في الأساس دقيقة مثلما ترون في علم الفلك أو الفيزياء». (إنه يعمل الآن في شركة «أنثروبيك» الناشئة للذكاء الاصطناعي).

سرعان ما صار «الارتقاء هو كل ما تحتاجون إليه» الصرخة الحاشدة من أجل الذكاء الاصطناعي.

استخدم الباحثون منذ فترة طويلة قواعد بيانات عامة وكبيرة من المعلومات الرقمية لتطوير الذكاء الاصطناعي، بما في ذلك «ويكيبيديا» و«كومون كرول»، وهي قاعدة بيانات تضم أكثر من 250 مليار صفحة على شبكة الإنترنت تم جمعها منذ عام 2007. وغالباً ما «يُنظف» الباحثون البيانات بإزالة خطاب الكراهية، والنصوص غير المرغوب فيها قبل استخدامها في تدريب نماذج الذكاء الاصطناعي.

في عام 2020، كانت مجموعات البيانات صغيرة للغاية، وفقاً لمعايير اليوم. وقد عُدَّت قاعدة بيانات واحدة تحتوي على 30 ألف صورة من موقع «فليكر» للصور مصدراً حيوياً في ذلك الوقت.

بعد ورقة كابلان البحثية، لم يعد هذا الكم من البيانات كافياً. وقال براندون دوديرشتات، الرئيس التنفيذي لشركة «نوميك»، المتخصصة في الذكاء الاصطناعي بنيويورك، إن الأمر أصبح يتعلق «فقط بجعل الأشياء كبيرة حقاً».

عندما كشفت «أوبن إيه آي» عن «جي بي تي - 3»، في نوفمبر (تشرين الثاني) 2020، تم تدريبها على أكبر كمية من البيانات حتى الآن (نحو 300 مليار «رمز مميز») التي هي بالأساس كلمات أو أجزاء من الكلمات. وبعد التعلُّم من تلك البيانات، أنتج النظام نصوصاً بدقة مدهشة، وكتابة منشورات على المدونات، والشعر، وبرامج الحاسوب الخاصة بها.

في عام 2022، ذهب «ديب مايند»، مختبر الذكاء الاصطناعي المملوك لـ«غوغل»، إلى ما هو أبعد من ذلك؛ إذ اختبر 400 نموذج للذكاء الاصطناعي، وتنوعت كمية بيانات التدريب وعوامل أخرى. وقد استخدمت النماذج ذات الأداء الأعلى بيانات أكثر مما توقعه كابلان في ورقته. أحد النماذج (ويُدعى «شينشيلا») تم تدريبه على 1.4 تريليون رمز مميز.

وسرعان ما تم تجاوزه. ففي العام الماضي، أصدر باحثون من الصين نموذجاً للذكاء الاصطناعي يُدعى «سكاي وورك»، الذي تم تدريبه على 3.2 تريليون رمز من النصوص الإنجليزية والصينية. كشفت «غوغل» أيضاً عن نظام «بال إم 2» للذكاء الاصطناعي، الذي تجاوز حد 3.6 تريليون رمز مميز.

البيانات «الاصطناعية»

كان لدى ألتمان، صاحب شركة «أوبن إيه آي»، خُطة للتعامل مع النقص الوشيك في البيانات الذي يلوح في الأفق.

وصرح في مؤتمر مايو (أيار) بأن شركات مثل شركته سوف تعمل في نهاية المطاف على تدريب نماذجها للذكاء الاصطناعي على نصوص ينتجها الذكاء الاصطناعي، المعروفة أيضاً باسم «البيانات الاصطناعية».

بما أن نموذج الذكاء الاصطناعي يمكن أن ينتج نصاً يشبه الإنسان، كما يقول ألتمان وآخرون، يمكن للأنظمة إنشاء بيانات إضافية لتطوير نسخ أفضل من نفسها. وهذا من شأنه مساعدة المطورين في بناء تكنولوجيا قوية بصورة متزايدة مع الإقلال من اعتمادهم على البيانات المحمية بحقوق الطبع والنشر.

قال ألتمان: «ما دمتَ تستطيع تجاوز أفق البيانات الاصطناعية، حيث يكون النموذج ذكياً بدرجة كافية لإنتاج بيانات اصطناعية جيدة، فإن كل شيء سيكون على ما يرام».

استكشف باحثو الذكاء الاصطناعي البيانات الاصطناعية لسنوات. لكن الحديث عن بناء نظام ذكاء اصطناعي قادر على تدريب نفسه بنفسه هو أيسر قولاً من بنائه بالفعل. إلا أن نماذج الذكاء الاصطناعي التي تتعلم من مخرجاتها الخاصة يمكن أن تقع رهينة دائرة حيث تعزز من مراوغاتها، وأخطائها، وقيودها.

* خدمة «نيويورك تايمز»



ساعة ذكية «صحية» جديدة

ساعة ذكية «صحية» جديدة
TT

ساعة ذكية «صحية» جديدة

ساعة ذكية «صحية» جديدة

أعلنت «لينك2كير»؛ المنصة التكنولوجية في مجال الأجهزة القابلة للارتداء المعنية بالرعاية الصحية الوقائية، حديثاً عن إطلاق ساعتها الذكية «ووتش2كير فايتال» في الولايات المتحدة، خلال معرض الإلكترونيات الاستهلاكية في لاس فيغاس.

ساعة «صحية»

وروجت المنصة لساعة «ووتش2كير فايتال (Watch2Care Vital Smartwatch)»، بوصفها أول ساعة ذكية تجمع بين 3 آلاف عام من الطب الصيني التقليدي، وبيانات صحية واقعية تخص أكثر من 9 ملايين حالة، علاوة على أنظمة ذكاء اصطناعي متطورة. صحيح أنها تتعقب خطواتك؛ الأمر الذي اعتاده كثيرون منا (وأنا منهم)، إلا إنها تقدم أكثر من ذلك بكثير...

* مبادئ الطب الصيني. تحتوي الساعة الذكية مستشعرات متطورة تلتقط وتحلل «البيانات الحيوية الغربية»، وكذلك بيانات نبضات القلب، وفق «مبادئ الطب الصيني التقليدي»، وذلك في الوقت الفعلي.

باختصار؛ تشكل هذه الساعة جهازاً متطوراً لتتبع الصحة يُرتدى على المعصم. وأوضح أحد ممثلي «لينك2كير» أن الساعة الجديدة تتبع نهجاً شاملاً.

وتتضمن ميزاتها تكنولوجيا رائدة لمراقبة الحالة الصحية؛ تركز على تحليل وظائف أعضاء الجسم، مثل القلب والكبد والطحال والرئتين والكليتين. وتركز النتائج على تنبيه المستخدمين حال ظهور مؤشرات مبكرة على مشكلات صحية محتملة، وتشجيعهم على تعديل نمط حياتهم ونظامهم الغذائي.

* مراقبة مستمرة: توفر الساعة مراقبة مستمرة لـ38 مؤشراً فسيولوجياً، بما في ذلك تحليل النوم الضروري والشائع، وتتبع نمط الحياة النشط، ومراقبة أجهزة الجسم، والبيانات الحيوية في الوقت الفعلي.

* تقارير صحية بالذكاء الاصطناعي: كما توفر ساعة «ووتش2كير فايتال»، يومياً، تقارير صحية مُولّدة بالذكاء الاصطناعي، بالإضافة إلى مؤشرات صحية شاملة، عبر تطبيق «لينك2كير»، المتوفر على متجر تطبيقات «أبل» ومتجر «غوغل بلاي»، الذي يُستخدم كذلك لتحديثات البرامج الثابتة. وتتولى ميزة مراقبة النوم متابعة أي ارتفاعات غير طبيعية في معدل خفقان القلب خلال الليل.

وخلال الفترة القصيرة التي استخدمتُ فيها الساعة، لم أتمكن من رصد أي شيء لافت في جسمي، لكن إمكاناتها لفتت انتباهي دونما شك. ورغم أنها ليست ساعة ذكية بالمعنى المتعارف عليه، مثل ساعة «أبل ووتش»، فإنها توفر مزايا الرسائل، والإشعارات، والبريد الإلكتروني، علاوة على عدد كبير من التطبيقات، وإمكانية الاتصال بـ«كار بلاي».

يذكر أنه يجري تسويق الميزات الصحية للساعة بوصفها تتجاوز بكثير ما تقدمه الساعات الذكية الأخرى، وذلك بالاعتماد على الطب الصيني التقليدي. ولدى ارتدائك ساعة «ووتش2كير فايتال»، فإنك تتلقى أول تقرير يستند إلى مبادئ الطب الصيني التقليدي في غضون 24 ساعة. ويتضمن التقرير معلوماتٍ؛ مثل تقييم من 100 درجة لوظائف القلب والكبد والكلى والطحال. كما يحتوي ميزة لقياس مستوى الأكسجين في الدم.

بريد إلكتروني ورسائل نصية

وبما أنها على اتصال بهاتفك الذكي، فإن ساعة «ووتش2كير فايتال» ترسل تنبيهاً لدى ورود رسائل بريد إلكتروني، أو رسائل نصية جديدة... كما تعرض الساعة الوقت، وتوفر منبهاً، بجانب معلومات عن حالة الطقس... وهي تُستقى من هاتفك الذكي.

من حيث التصميم، تتميز الساعة بتصميم أنيق يتفوق على الساعات الذكية الأوسع شيوعاً. كما تتمتع ببطارية تستمر 48 ساعة؛ الأمر الذي أثبتته تجربتي الشخصية، إضافة إلى إمكانية شحنها بسرعة في غضون نحو ساعة ونصف. كما يأتي معها كابل شحن «يو إس بي» خاص. وتعمل شاشتها، التي تأتي بمقاس 1.43 بوصة، باللمس، وتتميز بحواف دائرية، ومدمجة في هيكل من التيتانيوم، وتدعم تكنولوجيا «بلوتوث 5.3» للاتصال. وتتميز بدقة عرض فائقة الوضوح تبلغ 466 × 466 بيكسل، بجانب أنها مقاومة للماء بمعيار «آي بي67».

وبصفتي من مستخدمي «أبل ووتش» منذ مدة طويلة، فقد وجدتُ أن شاشة اللمس في ساعة «ووتش2كير فايتال» سريعة الاستجابة وسهلة الاستخدام للوصول إلى الميزات والشاشات الأخرى. وفي المجمل، تتوفر 6 واجهات للساعة للاختيار من بينها، ولا يوجد خيار صحيح أو خاطئ؛ الأمر يعتمد على ما تفضله والمعلومات التي ترغب في رؤيتها. شخصياً، اخترت الواجهة التي تعرض الوقت بأكبر خط. ويبلغ ثمن الساعة 2384 دولاراً.

http://www.link2care.asia

* خدمات «تريبيون ميديا»


خبراء ينصحون بإبعاد الأطفال عن الدمى الناطقة بالذكاء الاصطناعي

شخصية «باز لايت يير» (بيكساباي)
شخصية «باز لايت يير» (بيكساباي)
TT

خبراء ينصحون بإبعاد الأطفال عن الدمى الناطقة بالذكاء الاصطناعي

شخصية «باز لايت يير» (بيكساباي)
شخصية «باز لايت يير» (بيكساباي)

مع أفلام مغامرات «حكاية لعبة» الشيّقة، إلى حركات «تيد» الطفولية، أصبحت فكرة الدمى والدببة المحشوة، التي تدب فيها الحياة فكرةً سينمائيةً مبتذلة.

وبينما أتاحت التطورات الحديثة في مجال الذكاء الاصطناعي إمكانية صنع ألعاب تبدو واعية، فإنها تبدو أقرب إلى شخصيات شريرة مثل المهرج في فيلم «بولترجايست» وشخصية «تشاكي» في فيلم «لعبة طفل» منها إلى شخصيتَي «وودي» و«باز لايت يير».

ووفقاً لمنظمة «كومن سينس ميديا»، الأميركية غير الحكومية المعنية بمراقبة السلع الإلكترونية الاستهلاكية، فإن الدمى وألعاب الأطفال التي تعمل بالذكاء الاصطناعي تقول كلاماً غير لائق للأطفال، وتنتهك خصوصية المنزل من خلال جمع بيانات واسعة النطاق.

يقول روبي تورني، رئيس قسم التقييمات الرقمية في «كومن سينس»: «أظهر تقييمنا للمخاطر أن دمى الذكاء الاصطناعي تشترك في مشكلات جوهرية تجعلها غير مناسبة للأطفال الصغار».

ويقول تورني: «أكثر من رُبع المنتجات تتضمَّن محتوى غير لائق، مثل الإشارة إلى إيذاء النفس، والمخدرات، والسلوكيات الخطرة»، مشيراً إلى أن هذه الأجهزة تستلزم «جمع بيانات مكثف»، وتعتمد على «نماذج اشتراك تستغل الروابط العاطفية».

ووفقاً لمنظمة «كومن سينس»، تستخدم بعض هذه الألعاب «آليات ترابط لخلق علاقات شبيهة بالصداقة»، محذِّرة من أن هذه الأجهزة في الوقت نفسه «تجمع بيانات واسعة النطاق في المساحات الخاصة بالأطفال»، بما في ذلك التسجيلات الصوتية، والنصوص المكتوبة، و«البيانات السلوكية».

وتؤكد «كومن سينس» ضرورة عدم وجود أي طفل دون سن الخامسة بالقرب من لعبة ذكاء اصطناعي، وأنَّ على الآباء توخي الحذر فيما يتعلق بالأطفال الذين تتراوح أعمارهم بين 6 و12 عاماً.

ويقول جيمس ستاير، مؤسِّس ورئيس منظمة «كومن سينس»: «ما زلنا نفتقر إلى ضمانات فعّالة لحماية الأطفال من الذكاء الاصطناعي»، مقارِناً بين غياب هذه الحماية و«الاختبارات الصارمة» للسلامة والملاءمة التي تخضع لها الألعاب الأخرى قبل الموافقة على طرحها للبيع.


بالخطأ... منصة في كوريا الجنوبية توزع «بتكوين» بقيمة 44 مليار دولار

شعار منصة تداول العملات المشفرة الكورية الجنوبية «بيثامب» (رويترز)
شعار منصة تداول العملات المشفرة الكورية الجنوبية «بيثامب» (رويترز)
TT

بالخطأ... منصة في كوريا الجنوبية توزع «بتكوين» بقيمة 44 مليار دولار

شعار منصة تداول العملات المشفرة الكورية الجنوبية «بيثامب» (رويترز)
شعار منصة تداول العملات المشفرة الكورية الجنوبية «بيثامب» (رويترز)

كشفت منصة تداول العملات المشفرة الكورية الجنوبية «بيثامب»، اليوم السبت، عن أنها وزعت عملات «بتكوين» بقيمة تتجاوز 40 مليار دولار على عملاء بوصفها مكافآت ترويجية عن طريق الخطأ، ما أدى إلى موجة بيع حادة على المنصة.

واعتذرت «‌بيثامب» عن ‌الخطأ الذي ‌وقع ⁠أمس ​الجمعة، ‌وقالت إنها استعادت 99.7 في المائة من إجمالي 620 ألف «بتكوين» بقيمة تبلغ نحو 44 مليار دولار بالأسعار الحالية. وقيدت عمليات التداول والسحب ⁠على 695 عميلاً متأثراً بالواقعة في ‌غضون 35 دقيقة ‍من التوزيع ‍الخاطئ أمس.

وأفادت تقارير إعلامية بأن ‍المنصة كانت تعتزم توزيع مكافآت نقدية صغيرة في حدود 2000 وون كوري (1.40 دولار) ​أو أكثر لكل مستخدم في إطار حدث ترويجي، لكن ⁠الفائزين حصلوا بدلاً من ذلك على ألفي «بتكوين» على الأقل لكل منهم.

وقالت «‌بيثامب» في بيان: «نود أن نوضح أن هذا لا علاقة له بقرصنة خارجية أو انتهاكات أمنية، ولا توجد مشاكل في أمن النظام ‌أو إدارة أصول العملاء».