كيف يحصد عمالقة التكنولوجيا بيانات الذكاء الاصطناعي؟

استنساخ النصوص من الأصوات والفيديوهات واستنباط لغة اصطناعية

كيف يحصد عمالقة التكنولوجيا بيانات الذكاء الاصطناعي؟
TT

كيف يحصد عمالقة التكنولوجيا بيانات الذكاء الاصطناعي؟

كيف يحصد عمالقة التكنولوجيا بيانات الذكاء الاصطناعي؟

في أواخر عام 2021، واجهت شركة «أوبن إيه آي» مشكلة في الإمداد؛ إذ استنفد مختبر الذكاء الاصطناعي كل مخزونه من النصوص الإنجليزية ذات السمعة الطيبة على الإنترنت أثناء تطويره لأحدث نظام الذكاء الاصطناعي الخاص به.

من صوت الفيديو إلى النص

وكانت تحتاج إلى مزيد (وربما أكثر بكثير) من البيانات لتدريب النسخة المقبلة من تقنياتها. لذا أنشأ باحثو «أوبن إيه آي» أداة للتعرف على الكلام تسمى «ويسبر» (Whisper)، يمكنها استنساخ الصوت من مقاطع يوتيوب للفيديو، وإنتاج نص محادثة جديد يجعل نظام الذكاء الاصطناعي أكثر ذكاء.

ناقش بعض موظفي «أوبن إيه آي» كيف أن مثل هذه الخطوة قد تتعارض مع قواعد «يوتيوب».

في نهاية المطاف، قام فريق من «أوبن إيه آي» باستنساخ أكثر من مليون ساعة من مقاطع الفيديو على «يوتيوب»، حسب قول بعض الأشخاص. ثم تمَّت تغذية النصوص في نظام يُسمى «جي بي تي - 4»، الذي كان يُعدّ على نطاق واسع واحداً من أقوى نماذج الذكاء الاصطناعي في العالم، وكان الأساس لأحدث نسخة من روبوت الدردشة «تشات جي بي تي».

صار السباق نحو قيادة الذكاء الاصطناعي بمثابة هدف يائس للبحث عن البيانات الرقمية اللازمة لتطوير هذه التكنولوجيا. وللحصول على تلك البيانات، قامت شركات التكنولوجيا، بما في ذلك «أوبن إيه آي»، و«غوغل»، و«ميتا» بتقليص الوقت والجهد والنفقات، وتجاهلت سياسات الشركات، وناقشت الالتفاف على القوانين، بحسب فحص أجرته «نيويورك تايمز».

في «ميتا» التي تملك منصتَي «فيسبوك» و«إنستاغرام»، ناقش مديرون ومحامون ومهندسون، العام الماضي، شراء دار نشر «سايمون أند شوستر» لتأمين أعمال طويلة، طبقاً لتسجيلات اجتماعات داخلية حصلت عليها صحيفة «تايمز». كما تناولوا مسألة جمع البيانات المحمية بحقوق الطبع والنشر عبر الإنترنت، حتى لو كان ذلك يعني مواجهة الدعاوى القضائية. وقالوا إن التفاوض على التراخيص مع الناشرين والفنانين والموسيقيين وصناعة الأخبار سوف يستغرق وقتاً طويلاً.

على غرار شركة «أوبن إيه آي»، شرعت شركة «غوغل» باستنساخ مقاطع الفيديو على «يوتيوب» لجمع النصوص لنماذج الذكاء الاصطناعي الخاصة بها، وفقاً لما ذكره خمسة أشخاص على اطلاع بممارسات الشركة. وذلك من المحتمل أن ينتهك حقوق الطبع والنشر للفيديوهات، التي تنتمي لمبتكريها.

في العام الماضي، وسعت «غوغل» أيضاً من شروط الخدمة. ووفقاً لأعضاء فريق الخصوصية في الشركة والرسالة الداخلية التي اطلعت عليها صحيفة «نيويورك تايمز»، كان أحد الدوافع وراء هذا التغيير السماح لـ«غوغل» بأن تكون قادرة على الاستفادة من «مستندات غوغل» المتاحة للجمهور، ومراجعات المطاعم على خرائط «غوغل»، وغيرها من المواد على الإنترنت للحصول على المزيد من منتجات الذكاء الاصطناعي الخاصة بها.

إمدادات البيانات للذكاء الاصطناعي

توضح إجراءات الشركات كيف تحولت المعلومات عبر الإنترنت (القصص الإخبارية، والأعمال الخيالية، ونشرات منصات التراسل، ومقالات ويكيبيديا، وبرامج الحاسوب، والصور، والبودكاست، ومقاطع الأفلام) بشكل متزايد إلى شريان الحياة لصناعة الذكاء الاصطناعي المزدهرة؛ إذ يعتمد إنشاء أنظمة مبتكرة على وجود بيانات كافية لتعليم التقنيات اللازمة لإنتاج النصوص، والصور، والأصوات، ومقاطع الفيديو على الفور، التي تشبه ما يصنعه الإنسان.

إن حجم البيانات أمر بالغ الأهمية. وقد تعلمت روبوتات الدردشة الرائدة من مجموعات من النصوص الرقمية التي تصل إلى 3 تريليونات كلمة، أو ما يقرب من ضعف عدد الكلمات تقريبا المخزنة في مكتبة «بودليان» بجامعة أكسفورد، التي جمعت المخطوطات منذ عام 1602.

وقال الباحثون إن أكثر البيانات قيمة هي المعلومات عالية الجودة، مثل الكتب، والمقالات المنشورة، التي كتبها وحرَّرها المتخصصون بعناية.

لسنوات، كانت الإنترنت (مع مواقع مثل «ويكيبيديا»، و«ريديت») مصدراً لا نهاية له للبيانات. ولكن مع تقدم الذكاء الاصطناعي، سعت شركات التكنولوجيا إلى البحث عن المزيد من المستودعات. «غوغل» و«ميتا»، اللذين يملكان مليارات المستخدمين الذين ينتجون استعلامات البحث والمدونات على وسائل التواصل الاجتماعي كل يوم، كانتا مقيدتين إلى حد كبير بقوانين الخصوصية وسياساتهما الخاصة من الاعتماد على كثير من ذلك المحتوى للذكاء الاصطناعي.

إن حاجتها ملحَّة للغاية. ووفقاً لمعهد «إيبوك» للأبحاث، يمكن لشركات التكنولوجيا النفاذ إلى البيانات عالية الجودة على الإنترنت بحلول عام 2026؛ إذ تستخدم الشركات البيانات بوتيرة أسرع مما يجري إنتاجه.

معلومات «اصطناعية»

تتوق شركات التكنولوجيا بشدة إلى البيانات الجديدة، حتى إن بعض هذه الشركات تعمل على تطوير معلومات «اصطناعية». وهذه ليست بيانات عضوية صنعها البشر، وإنما النصوص، والصور، والرموز التي تنتجها نماذج الذكاء الاصطناعي (بمعنى آخر، تتعلم الأنظمة مما تولده بنفسها).

بالنسبة للمبدعين، أدى الاستخدام المتزايد لأعمالهم من قبل شركات الذكاء الاصطناعي إلى إقامة دعاوى قضائية حول حقوق النشر والترخيص. وقد قامت جريدة «نيويورك تايمز» بمقاضاة شركة «مايكروسوفت» وشركة «أوبن إيه آي»، العام الماضي، لاستخدام مقالات إخبارية ذات حقوق نشر مرخَّصة، ومن دون الحصول على ترخيص لتدريب روبوتات الدردشة العاملة بتقنيات الذكاء الاصطناعي. قالت شركة «أوبن إيه آي» و«مايكروسوفت» إن استخدام المقالات كان «استخداماً منصفاً»، أو مسموحاً به بموجب قانون حقوق الطبع والنشر، لأنهما غيّرا الأعمال لغرض مختلف.

قوانين التدرج والارتقاء

«الارتقاء هو كل ما يحتاجون إليه»... في يناير (كانون الثاني) 2020، نشر جاريد كابلان، عالم الفيزياء النظرية في جامعة جونز هوبكنز، بحثاً رائداً عن الذكاء الاصطناعي أثار الشهية للبيانات على الإنترنت.

كان استنتاجه واضحاً تماماً: كلما كانت هناك بيانات متاحة أكثر لتدريب النموذج اللغوي الكبير (التكنولوجيا المحركة لروبوتات الدردشة على الإنترنت) كان أداؤها أفضل. تماماً كما يتعلم الطالب أكثر من خلال قراءة المزيد من الكتب، يمكن للنماذج اللغوية الكبيرة أن تحدد الأنماط في النص بشكل أفضل، وتكون أكثر دقة مع المزيد من المعلومات.

قال كابلان، الذي نشر ورقته البحثية برفقة 9 باحثين من شركة «أوبن إيه آي»: «لقد فوجئ الجميع بأن هذه الاتجاهات (قوانين التدرج والارتقاء كما نسميها) كانت في الأساس دقيقة مثلما ترون في علم الفلك أو الفيزياء». (إنه يعمل الآن في شركة «أنثروبيك» الناشئة للذكاء الاصطناعي).

سرعان ما صار «الارتقاء هو كل ما تحتاجون إليه» الصرخة الحاشدة من أجل الذكاء الاصطناعي.

استخدم الباحثون منذ فترة طويلة قواعد بيانات عامة وكبيرة من المعلومات الرقمية لتطوير الذكاء الاصطناعي، بما في ذلك «ويكيبيديا» و«كومون كرول»، وهي قاعدة بيانات تضم أكثر من 250 مليار صفحة على شبكة الإنترنت تم جمعها منذ عام 2007. وغالباً ما «يُنظف» الباحثون البيانات بإزالة خطاب الكراهية، والنصوص غير المرغوب فيها قبل استخدامها في تدريب نماذج الذكاء الاصطناعي.

في عام 2020، كانت مجموعات البيانات صغيرة للغاية، وفقاً لمعايير اليوم. وقد عُدَّت قاعدة بيانات واحدة تحتوي على 30 ألف صورة من موقع «فليكر» للصور مصدراً حيوياً في ذلك الوقت.

بعد ورقة كابلان البحثية، لم يعد هذا الكم من البيانات كافياً. وقال براندون دوديرشتات، الرئيس التنفيذي لشركة «نوميك»، المتخصصة في الذكاء الاصطناعي بنيويورك، إن الأمر أصبح يتعلق «فقط بجعل الأشياء كبيرة حقاً».

عندما كشفت «أوبن إيه آي» عن «جي بي تي - 3»، في نوفمبر (تشرين الثاني) 2020، تم تدريبها على أكبر كمية من البيانات حتى الآن (نحو 300 مليار «رمز مميز») التي هي بالأساس كلمات أو أجزاء من الكلمات. وبعد التعلُّم من تلك البيانات، أنتج النظام نصوصاً بدقة مدهشة، وكتابة منشورات على المدونات، والشعر، وبرامج الحاسوب الخاصة بها.

في عام 2022، ذهب «ديب مايند»، مختبر الذكاء الاصطناعي المملوك لـ«غوغل»، إلى ما هو أبعد من ذلك؛ إذ اختبر 400 نموذج للذكاء الاصطناعي، وتنوعت كمية بيانات التدريب وعوامل أخرى. وقد استخدمت النماذج ذات الأداء الأعلى بيانات أكثر مما توقعه كابلان في ورقته. أحد النماذج (ويُدعى «شينشيلا») تم تدريبه على 1.4 تريليون رمز مميز.

وسرعان ما تم تجاوزه. ففي العام الماضي، أصدر باحثون من الصين نموذجاً للذكاء الاصطناعي يُدعى «سكاي وورك»، الذي تم تدريبه على 3.2 تريليون رمز من النصوص الإنجليزية والصينية. كشفت «غوغل» أيضاً عن نظام «بال إم 2» للذكاء الاصطناعي، الذي تجاوز حد 3.6 تريليون رمز مميز.

البيانات «الاصطناعية»

كان لدى ألتمان، صاحب شركة «أوبن إيه آي»، خُطة للتعامل مع النقص الوشيك في البيانات الذي يلوح في الأفق.

وصرح في مؤتمر مايو (أيار) بأن شركات مثل شركته سوف تعمل في نهاية المطاف على تدريب نماذجها للذكاء الاصطناعي على نصوص ينتجها الذكاء الاصطناعي، المعروفة أيضاً باسم «البيانات الاصطناعية».

بما أن نموذج الذكاء الاصطناعي يمكن أن ينتج نصاً يشبه الإنسان، كما يقول ألتمان وآخرون، يمكن للأنظمة إنشاء بيانات إضافية لتطوير نسخ أفضل من نفسها. وهذا من شأنه مساعدة المطورين في بناء تكنولوجيا قوية بصورة متزايدة مع الإقلال من اعتمادهم على البيانات المحمية بحقوق الطبع والنشر.

قال ألتمان: «ما دمتَ تستطيع تجاوز أفق البيانات الاصطناعية، حيث يكون النموذج ذكياً بدرجة كافية لإنتاج بيانات اصطناعية جيدة، فإن كل شيء سيكون على ما يرام».

استكشف باحثو الذكاء الاصطناعي البيانات الاصطناعية لسنوات. لكن الحديث عن بناء نظام ذكاء اصطناعي قادر على تدريب نفسه بنفسه هو أيسر قولاً من بنائه بالفعل. إلا أن نماذج الذكاء الاصطناعي التي تتعلم من مخرجاتها الخاصة يمكن أن تقع رهينة دائرة حيث تعزز من مراوغاتها، وأخطائها، وقيودها.

* خدمة «نيويورك تايمز»



تعرف على مزايا «بلايستيشن 5 برو»: جهاز الألعاب الأقوى في العالم

«بلايستيشن 5 برو»: جهاز الألعاب الأقوى في العالم
«بلايستيشن 5 برو»: جهاز الألعاب الأقوى في العالم
TT

تعرف على مزايا «بلايستيشن 5 برو»: جهاز الألعاب الأقوى في العالم

«بلايستيشن 5 برو»: جهاز الألعاب الأقوى في العالم
«بلايستيشن 5 برو»: جهاز الألعاب الأقوى في العالم

أطلقت «سوني» جهاز «بلايستيشن 5 برو» PlayStation 5 Pro المطور الذي يُعد الأقوى في العالم في أجهزة الألعاب إلى الآن، من حيث قدرات الرسومات للألعاب الحالية والسابقة، بتصميم أصغر حجماً وأقل وزناً، مقارنة بإصدار «بلايستيشن 5».

ويهدف هذا الإصدار إلى تشغيل الألعاب بالدقة الفائقة وبسرعات عالية مع دعم المؤثرات البصرية المتقدمة وتقنيات الذكاء الاصطناعي. واختبرت «الشرق الأوسط» الجهاز، ونذكر ملخص التجربة.

مؤثرات بصرية متقدمة في لعبة السباقات السريعة «إف1 24»

أداء رسومي وتقني مطور

بداية، جرى رفع سرعة الرسومات بنسبة 45 في المائة، وزيادة عدد نوى الرسومات بنسبة 67 في المائة، ورفع سرعة الذاكرة بنسبة 28 في المائة، وهي نسب عالية تسمح للمطورين تقديم ألعاب بالدقة الفائقة 4K وبسرعة 60 أو 120 صورة في الثانية. وكان يجب على اللاعبين في السابق اختيار إما نمط جودة الصورة أو الأداء، حيث يعرض نمط جودة الصورة الرسومات بالدقة الفائقة 4K ولكن على حساب سرعة اللعب، بينما يقوم نمط الأداء بعكس المعادلة بخفض دقة الصورة وتفاصيلها مقابل الحصول على سرعة لعب أعلى. ويغير «بلايستيشن 5 برو» هذا الأمر، حيث يعرض الصورة بالدقة الفائقة وبسرعة عالية، وذلك بفضل زيادة سرعة وحدة الرسومات واستخدام تقنيات الذكاء الاصطناعي لرفع الدقة من دون أن يشعر اللاعب بأي تأخير في مجريات اللعب.

ويقدم هذا الإصدار تجربة ألعاب مبهرة بالدقة الفائقة 4K ومعدل رسومات يتراوح بين 60 و120 صورة في الثانية، حسب اللعبة، للحصول على صورة أكثر وضوحاً وحركة أكثر سلاسة. يضاف إلى ذلك دعم تقنية تتبع الأشعة الضوئية من مصدرها Ray Tracing بالوقت الفعلي وبشكل متقدم، وهي واحدة من أفضل الابتكارات في مجال الألعاب الحديثة، حيث تصبح الإضاءة والانعكاسات داخل اللعبة أكثر واقعية، وسيستطيع اللاعب مشاهدة انعكاسات الضوء على الأسطح المعدنية وتفاعل الإضاءة في بيئة اللعب.

عالم مفتوح مليء بالتفاصيل الغنية والرسومات المبهرة في لعبة «سبايدر-مان 2»

ويقدم الجهاز تحسينات في التفاصيل والظلال، مثل التفاصيل الدقيقة في كل خصلة شعر في الشخصيات أو كل قطرة ماء على أوراق الشجر، مع عرض الظلال وتدرجات الألوان بدقة أعلى للحصول على تجربة لعب أكثر واقعية وانغماساً من السابق. كما يدعم هذا الإصدار تجربة ألعاب محسَّنة، حيث تبدو الألعاب السابقة أكثر وضوحاً بفضل التحسينات البصرية.

الذكاء الاصطناعي في عالم الألعاب

وبشكل يشابه تقنية Dynamic Learning Super Sampling DLSS على الكومبيوترات الشخصية، يدعم «بلايستيشن 5 برو» تقنية «الدقة الطيفية الفائقة» PlayStation Spectral Super Resolution PSSR المعززة بالذكاء الاصطناعي لمعالجة الصورة داخلياً بدقة معتدلة بشكل سريع جداً، ومن ثم استخدام وحدات معالجة الذكاء الاصطناعي لرفع دقة الرسومات بكل سرعة.

ولدى تجربة لعبتي Marvel’s Spider - Man 2 وThe Last of Us II Remastered وتفعيل نمطي جودة الصورة والأداء وعرض الصورة بتردد 120 هرتز، كانت التجربة انسيابية للغاية، مع ملاحظة أدق التفاصيل دون أي تراجع في الأداء مهما كانت بيئة اللعب مليئة بالعناصر، وكان التحكم بالشخصيات سلساً جداً. ولوحظ أن الأشعة تنعكس بواقعية عن المياه والأسطح المعدنية والزجاجية مما يزيد من مستويات الانغماس.

تطوير الألعاب الحالية والجيل السابق

ويوجد حالياً أكثر من 50 لعبة تدعم القدرات المتقدمة لـ«بلايستيشن 5 برو» تشمل رفع دقة الرسومات وزيادة معدل الرسومات في الثانية وتحقيق تردد عرض الصور يتراوح بين 60 و120 هرتز (تتطلب هذه الميزة دعم تلفزيون المستخدم للتردد المرغوب)، نذكر منها Alan Wake 2 وAlbatroz وApex Legends وAssassin’s Creed Mirage وBaldur’s Gate 3 وCall of Duty: Black Ops 6 وEA Sports College Football 25 وDead Island 2 وDemon’s Souls وDiablo IV وDragon Age: The Veilguard وDragon’s Dogma 2 وDying Light 2 Reloaded Edition وEA Sports FC 25 وEnlisted وF1 24 وFinal Fantasy VII Rebirth وFortnite وGod of War Ragnarök وGran Turismo 7 وHogwarts Legacy وHorizon Forbidden West وHorizon Zero Dawn Remastered وKayak VR: Mirage وLies of P وLords of the Fallen وMadden NFL 25.

ونذكر كذلك ألعاب Marvel’s Spider - Man Remastered وMarvel’s Spider - Man: Miles Morales وMarvel’s Spider - Man 2 وMetal Gear Solid Delta: Snake EaterوNaraka: Bladepoint وNBA 2K25 وNo Man’s Sky وPalworld وPaladin’s Passage وPlanet Coaster 2 وProfessional Baseball Spirits 2024 - 2025 وRatchet & Clank: Rift Apart وResident Evil 4 وResident Evil Village وRise of the Ronin وRogue Flight وStar Wars: Jedi Survivor وStar Wars: Outlaws وStellar Blade وTest Drive Unlimited: Solar Crown وThe Crew Motorfest وThe Finals وThe First Descendant وThe Last of Us Part I وThe Last of Us Part II Remastered وUntil Dawn وWar Thunder وWarframe وWorld of Warships: Legends.

انعكاس الأشعة الضوئية من مصدرها بشكل متقدم في لعبة «ذا كرو موتورفيست»

تجدر الإشارة إلى أنه يجب تحميل تحديث لهذه الألعاب قبل الاستفادة من القدرات الرسومية المطورة لها، واختيار نمط الرسومات المناسب من قائمة الإعدادات الخاصة بكل لعبة. وسنقوم بتجربة ألعاب مطورة لجهاز «بلايستيشن 5 برو» بشكل معمق قريباً ونشارككم النتائج (منها لعبتا Horizon Zero Dawn Remastered وLEGO Horizon Adventures). يضاف إلى ذلك دعم الجهاز تشغيل أكثر من 8500 لعبة لجهاز «بلايستيشن 4» ورفع دقة العديد منها، دون الحاجة لتحميل تحديث برمجي لها.

مواصفات تقنية

وبالنسبة للمواصفات التقنية، يستخدم الجهاز المعالج نفسه ثماني النوى الموجود في «بلايستيشن 5» الأساسي، لكن مع توفير القدرة على رفع سرعته من 3.5 إلى 3.85 غيغاهرتز عند الحاجة وبشكل آلي. إلا أن القفزة الأكبر هي في قدرة وحدة معالجة الرسومات، حيث ازدادت قدرتها بنسبة 62 في المائة من 10.28 إلى 16.67 تيرافلوب Teraflop (تريليون عملية حسابية في الثانية) وزيادة عدد النوى من 36 إلى 60. مع استخدام الذاكرة نفسها بسعة 16 غيغابايت ولكن بسرعة نقل بيانات تبلغ 18 غيغابت في الثانية، مقارنة بـ14 غيغابت في الثانية في الإصدار السابق، مع تقديم 2 غيغابايت إضافية خاصة لنظام التشغيل.

ويقدم الجهاز، الآن، ضِعف السعة التخزينية المدمجة (2 تيرابايت أو 2048 غيغابايت)، مع دعم شبكات «واي فاي 7» فائقة السرعة في الإصدار الجديد. يضاف إلى ذلك دعم تقنية «الدقة الطيفية الفائقة» PSSR لرفع دقة الصورة آلياً. وتبقى المنافذ نفسها مع خفض السماكة من 92 (الإصدار الأساسي الرقمي) إلى 89 ملليمترا وخفض الوزن من 3.9 إلى 3.1 كيلوغرام.

واستطعت نقل الألعاب من جهاز «بلايستيشن 5» الأساسي إلى «بلايستيشن 5 برو» بكل سهولة، حيث تم نسخ جميع الألعاب من وحدة التخزينية المدمجة إلى وحدة تخزين إضافية بتقنية NVME في بضع ثوان، وتم نقل تلك الوحدة من الإصدار السابق إلى الجديد وتشغيل أي لعبة في أقل من دقيقتين.

وتجدر الإشارة إلى أن هذا الإصدار لا يحتوي على مشغل أقراص ليزرية، وتجب إضافته إلى الجهاز بشكل منفصل، الأمر نفسه بالنسبة لقاعدة حمل الجهاز طولياً.

ويبلغ سعر الجهاز 3399 ريالاً سعودياً (نحو 906 دولارات أميركية)، وهو متوفر الآن في متاجر المنطقة العربية.