الإنترنت مليئة بـ«الروابط الميتة»

ربع صفحات الويب من العقد الماضي لم يعد الوصول إليها ممكناً

الإنترنت مليئة بـ«الروابط الميتة»
TT

الإنترنت مليئة بـ«الروابط الميتة»

الإنترنت مليئة بـ«الروابط الميتة»

هناك قول مأثور مفاده أن الإنترنت باقية إلى الأبد، لكن دراسة جديدة لمركز «بيو» للأبحاث وجدت أن هذا ليس صحيحاً تماماً. وظهر أن ربع صفحات الويب التي كانت موجودة بين أعوام 2013 و2023 لم يعد من الممكن الوصول إليها، وفقاً للبحث.

اضمحلال رقمي

وتترك هذه الظاهرة المسماة «الاضمحلال الرقمي» سلسلة من الروابط الميتة عبر المواقع الإلكترونية سواء منها الحكومية أو وسائل الإعلام الإخبارية وحتى موسوعة ويكيبيديا، مما يثير سؤالاً مهماً: ما التكلفة طويلة المدى لفقدان عدد من صفحات الويب ما يعادل موجودات مكتبة الإسكندرية على مدى عقد من الزمان؟

عيّنة من مليون صفحة

وكتب هانتر شوارتز أن الباحثين جمعوا عينة عشوائية مما يقرب من مليون صفحة ويب من مؤسسة «كومون كرول» Common Crawl، وهي خدمة أرشيف الإنترنت، وتحققوا مما إذا كان لا يزال من الممكن الوصول إليها حالياً.

ووجد مركز «بيو» Pew Research Center أن 38 في المائة من الصفحات الموضوعة من عام 2013 لم يعد من الممكن الوصول إليها؛ وبالمقابل لم يكن من الممكن الوصول إلى 15 في المائة من الصفحات الموضوعة منذ عام 2022 و8 في المائة منذ عام 2023، مما يوضح أن الاضمحلال يمثل مشكلة حتى بالنسبة للمواقع التي مضى عليها عام واحد فقط.

قام مركز «بيو» بتعريف المواقع التي لا يمكن الوصول إليها بأنها تلك التي لم تعد موجودة على خوادمها المضيفة. ويعرف المستخدمون ذلك أيضاً عندما يحصلون على نوع من رسالة «لم يتم العثور على 404» عند زيارتهم للصفحة.

صفحات حكومية وإخبارية ميتة

ووجد الباحثون رابطاً واحداً معطلاً على الأقل في 54 في المائة من أقسام «المرجع» في ويكيبيديا، وفي 23 في المائة من صفحات الويب الإخبارية، و21 في المائة من صفحات الويب الحكومية. وكتب المشرفون على الدراسة: «المواقع الإخبارية التي تتمتع بمستوى عالٍ من حركة المرور على الموقع وتلك التي تتمتع بمستوى أقل، من المرجح أن تحتوي على روابط معطلة على قدم المساواة». وكذلك «من المرجح بشكل خاص أن تحتوي صفحات الويب الحكومية على المستوى المحلي (تلك التابعة لحكومات المدن) على روابط مقطوعة».

مواقع التواصل الاجتماعي

وأشار الاستطلاع إلى أن مواقع التواصل الاجتماعي تتعامل أيضاً مع مستوى عالٍ من الروابط الميتة. ما يقرب من 20 في المائة من المنشورات لم تعد مرئية للعامة على منصة «إكسX»، الموقع المعروف سابقاً باسم «تويتر». ووجد الباحثون أن 60 في المائة من تلك المنشورات كانت من حسابات أصبحت الآن خاصة أو معلقة أو محذوفة، و40 في المائة كانت منشورات تم حذفها من حسابات لا تزال موجودة. ورغم أنهم لم يلقوا نظرة على موقع «ماي سبيس»، فإنه لن يكون هناك الكثير مما يمكن رؤيته حتى لو حاولوا ذلك. وفي عام 2019، فقد الموقع كل جزء من المحتوى الذي تم تحميله قبل عام 2016.

محتويات مختفية

وكتب المؤلفون: «إن الإنترنت عبارة عن مستودع ضخم للحياة الحديثة بشكل لا يمكن تصوره، حيث يضم مئات المليارات من صفحات الويب المفهرسة». «ولكن حتى مع اعتماد المستخدمين في جميع أنحاء العالم على الويب للوصول إلى الكتب والصور والمقالات الإخبارية وغيرها من الموارد، فإن هذا المحتوى يختفي أحياناً عن الأنظار». وتهدد ظاهرة الانحلال الرقمي الشاملة بترك معلومات أقل لنا وصورة غير مكتملة عن تطور شبكة الإنترنت.

في زمن ما قبل أجهزة الكمبيوتر الشخصية والهواتف الذكية، كان البحث يستلزم زيارة مكتبة للتصفح في الموسوعات أو عرض الصحف القديمة على الميكروفيلم. لكن اليوم، يفترض الناس أن الإنترنت ستكون مستودعاً أبدياً للمعرفة، ومتاحاً ببضع نقرات على لوحة المفاتيح. لكن اتضح أن المتاح داخل الإنترنت قد يكون أقل بكثير مما نفترض.

* مجلة «فاست كومباني» خدمات «تريبيون ميديا»


مقالات ذات صلة

انقطاع كامل للإنترنت في شمال غزة

المشرق العربي أطفال انفصلوا عن شقيقهم بعد فراره من شمال غزة ينظرون إلى صورته على هاتف جوال (رويترز)

انقطاع كامل للإنترنت في شمال غزة

أعلنت شركة الاتصالات الفلسطينية (بالتل)، اليوم (السبت)، عن انقطاع كامل لخدمات الإنترنت في محافظة شمال قطاع غزة، بسبب «عدوان الاحتلال المتواصل».

«الشرق الأوسط» (غزة)
يوميات الشرق حبُّ براد بيت سهَّل الوقوع في الفخ (رويترز)

«براد بيت زائف» يحتال بـ325 ألف يورو على امرأتين «مكتئبتين»

أوقفت الشرطة الإسبانية 5 أشخاص لاستحصالهم على 325 ألف يورو من امرأتين «ضعيفتين ومكتئبتين»... إليكم التفاصيل.

«الشرق الأوسط» (مدريد)
أوروبا سانيا أميتي المسؤولة في حزب الخضر الليبرالي (أ.ب)

مسؤولة محلية سويسرية تعتذر بعد إطلاق النار على ملصق ديني

قدمت عضوة في مجلس مدينة سويسرية اعتذارها، وطلبت الحماية من الشرطة بعد أن أطلقت النار على ملصق يُظهِر لوحة تعود إلى القرن الرابع عشر لمريم العذراء والسيد المسيح.

«الشرق الأوسط» (زيوريخ)
شؤون إقليمية كنعاني خلال مؤتمر صحافي في طهران (الخارجية الإيرانية)

إيران ترد على «مزاعم» اختراقها الانتخابات الأميركية

رفضت طهران ما وصفتها بـ«المزاعم المتكررة» بشأن التدخل في الانتخابات الأميركية، في حين دعت واشنطن شركات تكنولوجيا مساعدة الإيرانيين في التهرب من رقابة الإنترنت.

يوميات الشرق الملياردير الأميركي بيل غيتس (رويترز)

بيل غيتس يقرّ بأن لا حل لمشكلة المعلومات المضلِّلة

يقول غيتس لشبكة «سي إن بي سي» إن «المعلومات المضللة هي المشكلة التي تم تسليمها إلى الجيل الأصغر سناً».

«الشرق الأوسط» (واشنطن)

شركات الذكاء الاصطناعي التوليدي تلجأ إلى الكتب لتطوّر برامجها

شركات الذكاء الاصطناعي تتفق مع دور النشر بما يتيح لهذه الشركات استخدام الأعمال المنشورة لتدريب نماذجها القائمة على الذكاء الاصطناعي التوليدي (رويترز)
شركات الذكاء الاصطناعي تتفق مع دور النشر بما يتيح لهذه الشركات استخدام الأعمال المنشورة لتدريب نماذجها القائمة على الذكاء الاصطناعي التوليدي (رويترز)
TT

شركات الذكاء الاصطناعي التوليدي تلجأ إلى الكتب لتطوّر برامجها

شركات الذكاء الاصطناعي تتفق مع دور النشر بما يتيح لهذه الشركات استخدام الأعمال المنشورة لتدريب نماذجها القائمة على الذكاء الاصطناعي التوليدي (رويترز)
شركات الذكاء الاصطناعي تتفق مع دور النشر بما يتيح لهذه الشركات استخدام الأعمال المنشورة لتدريب نماذجها القائمة على الذكاء الاصطناعي التوليدي (رويترز)

مع ازدياد احتياجات الذكاء الاصطناعي التوليدي، بدأت أوساط قطاع النشر هي الأخرى في التفاوض مع المنصات التي توفر هذه التقنية سعياً إلى حماية حقوق المؤلفين، وإبرام عقود مع الجهات المعنية بتوفير هذه الخدمات لتحقيق المداخيل من محتواها.

واقترحت دار النشر «هاربر كولينز» الأميركية الكبرى أخيراً على بعض مؤلفيها، عقداً مع إحدى شركات الذكاء الاصطناعي تبقى هويتها طي الكتمان، يتيح لهذه الشركة استخدام أعمالهم المنشورة لتدريب نماذجها القائمة على الذكاء الاصطناعي التوليدي.

وفي رسالة اطلعت عليها «وكالة الصحافة الفرنسية»، عرضت شركة الذكاء الاصطناعي 2500 دولار لكل كتاب تختاره لتدريب نموذجها اللغوي «إل إل إم» لمدة 3 سنوات.

آراء متفاوتة

ولكي تكون برامج الذكاء الاصطناعي قادرة على إنتاج مختلف أنواع المحتوى بناء على طلب بسيط بلغة يومية، تنبغي تغذيتها بكمية مزدادة من البيانات.

وبعد التواصل مع دار النشر أكدت الأخيرة الموافقة على العملية. وأشارت إلى أنّ «(هاربر كولينز) أبرمت عقداً مع إحدى شركات التكنولوجيا المتخصصة بالذكاء الاصطناعي للسماح بالاستخدام المحدود لكتب معينة (...) بهدف تدريب نماذج الذكاء الاصطناعي وتحسين أدائها».

وتوضّح دار النشر أيضاً أنّ العقد «ينظّم بشكل واضح ما تنتجه النماذج مع احترامها حقوق النشر».

ولاقى هذا العرض آراء متفاوتة في قطاع النشر، إذ رفضه كتّاب مثل الأميركي دانييل كيبلسميث الذي قال في منشور عبر منصة «بلوسكاي» للتواصل الاجتماعي: «من المحتمل أن أقبل بذلك مقابل مليار دولار، مبلغ يتيح لي التوقف عن العمل، لأن هذا هو الهدف النهائي من هذه التكنولوجيا».

هامش تفاوض محدود

ومع أنّ «هاربر كولينز» هي إحدى كبرى دور النشر التي أبرمت عقوداً من هذا النوع، فإنّها ليست الأولى. فدار «ويلي» الأميركية الناشرة للكتب العلمية أتاحت لشركة تكنولوجية كبيرة «محتوى كتب أكاديمية ومهنية منشورة لاستخدام محدد في نماذج التدريب، مقابل 23 مليون دولار»، كما قالت في مارس (آذار) عند عرض نتائجها المالية.

ويسلط هذا النوع من الاتفاقيات الضوء على المشاكل المرتبطة بتطوير الذكاء الاصطناعي التوليدي، الذي يتم تدريبه على كميات هائلة من البيانات تُجمع من الإنترنت، وهو ما قد يؤدي إلى انتهاكات لحقوق الطبع والنشر.

وترى جادا بيستيلي، رئيسة قسم الأخلاقيات لدى «هاغينغ فايس»، وهي منصة فرنسية - أميركية متخصصة بالذكاء الاصطناعي، أنّ هذا الإعلان يشكل خطوة إلى الأمام، لأنّ محتوى الكتب يدرّ أموالاً. لكنها تأسف لأنّ هامش التفاوض محدود للمؤلفين.

وتقول: «ما سنراه هو آلية لاتفاقيات ثنائية بين شركات التكنولوجيا ودور النشر أو أصحاب حقوق الطبع والنشر، في حين ينبغي أن تكون المفاوضات أوسع لتشمل أصحاب العلاقة».

ويقول المدير القانوني لاتحاد النشر الفرنسي (SNE) جوليان شوراكي: «نبدأ من مكان بعيد جداً»، مضيفاً: «إنّه تقدم، فبمجرّد وجود اتفاق يعني أن حواراً ما انعقد وثمة رغبة في تحقيق توازن فيما يخص استخدام البيانات مصدراً، التي تخضع للحقوق والتي ستولد مبالغ».

مواد جديدة

وفي ظل هذه المسائل، بدأ الناشرون الصحافيون أيضاً في تنظيم هذا الموضوع. ففي نهاية 2023، أطلقت صحيفة «نيويورك تايمز» الأميركية اليومية ملاحقات ضد شركة «أوبن إيه آي» مبتكرة برنامج «تشات جي بي تي» وضد «مايكروسوفت» المستثمر الرئيسي فيها، بتهمة انتهاك حقوق النشر. وقد أبرمت وسائل إعلام أخرى اتفاقيات مع «أوبن إيه آي».

وربما لم يعد أمام شركات التكنولوجيا أي خيار لتحسين منتجاتها سوى باعتماد خيارات تُلزمها بدفع أموال، خصوصاً مع بدء نفاد المواد الجديدة لتشغيل النماذج.

وأشارت الصحافة الأميركية أخيراً إلى أنّ النماذج الجديدة قيد التطوير تبدو كأنها وصلت إلى حدودها القصوى، لا سيما برامج «غوغل» و«أنثروبيك» و«أوبن إيه آي».

ويقول جوليان شوراكي: «يمكن على شبكة الإنترنت، جمع المحتوى القانوني وغير القانوني، وكميات كبيرة من المحتوى المقرصن، مما يشكل مشكلة قانونية. هذا من دون أن ننسى مسألة نوعية البيانات».