تلفزيونك.. يعرف ما تود مشاهدته

باحثون يابانيون يطورون برامج لرصد خياراتك المفضلة

تلفزيونك.. يعرف ما تود مشاهدته
TT

تلفزيونك.. يعرف ما تود مشاهدته

تلفزيونك.. يعرف ما تود مشاهدته

مع وجود تلفزيونات الكابلات، والأقمار الصناعية، والأرضية التي يبلغ عددها المئات، إضافة إلى شركات المواد المسلية التي تعمل عبر الإنترنت، التي هي أيضا تتنافس على المشاهدين، فإن العثور على شيء يستحق المشاهدة هو من التحديات المتزايدة. وللمساعدة في تسهيل الأمور، قام الباحثون في «نيبون هوسو كايوكاي» (الإذاعة والتلفزيون الياباني العام)، المعروفون أكثر بـ«إن إتش كيه»، بالتخطيط لتجربة تقنية اختبارية للتقييم أوتوماتيكيا في الزمن الحقيقي، لاهتمام المشاهدين في البرنامج التلفزيوني أو الفيديو، ومن ثم اقتراح برامج تلفزيونية أخرى لمشاهدتها اعتمادا على النتائج.

* «قياس الرغبات»
ولقياس ما يهم المشاهد، استخدم نظام «إن إتش كيه» جهاز «مايكروسوفت كينيكت» للتلقيم وتحسس العمق والحركة. ويقوم «كينيكت» الذي يضم طاقم تطوير لبرنامج تعقب الوجوه (Microsoft’s face tracking software development kit) إس دي كيه، بتغذية معايير برمجية كثيرة في جهاز «بي سي»، بصور من المشهد.
والإشارة الأولى إلى أن المشاهد مهتم بما يشاهده، هو وجوده قبالة التلفزيون. إذن أحد المعايير المستخدمة هي لقياس ما إذا كان المشاهد حاضرا، إذ تقوم مسارات «في نقاط مهمة» بقياس نقاط من حركات الشخص من تسلسل صور، أو إطارات فيديو. ويمكن حتى استخلاص نحو 200 من هذه المسارات من كل صورة. ويجري تحويل سمات هذه المسارات إلى كلمات رمزية، وبالتالي توظيفها لتدريب برنامج تلقين إلى تمييز وجود المشاهد.
وثمة معياران آخران يعملان بالتوازي والتوالي، لتقدير وضعيات رأس المشاهد بالبعدين والـ3 أبعاد، وفقا للون الصورة، أو عمقها الملتقطة من قبل «كينيكت». ويجري بعد ذلك جمع نتائج المعايير الـ3 هذه لتقدير ما إذا كان المشاهد يحدق في الشاشة أم لا.
«إن تحديق المشاهد في الشاشة مهم للغاية لتقدير محتويات البرنامج»، كما يقول ماساكي تكاهاشي رئيس مهندسي الأبحاث في قسم أبحاث نظم البث المتكامل بالنطاق العريض في «إن إتش كيه»: «وبينما تخفق أحيانا النظم الأخرى للتحري عن الأشخاص التي أساسها تعقب الوجوه عندما يقوم الشخص بتحويل نظره عن الكاميرا. فتقنية مسارات النقاط المهمة مناسبة أكثر، نظرا لأنها تضم مؤقتا تاريخا طويل الأمد عن هذه النقاط».

* تعبيرات الوجوه
وجرى أخيرا إضافة معيارين جديدين للتعرف على تعبيرات الوجوه، فأحدهما يقوم بتقدير شدة التعبيرات الأساسية الـ6، والابتسام والتعجب بينها هما الأكثر تأثيرا. أما المعايير الأخرى، فتقيس وجود أو غياب تعبيرات الوجه، عن طريق مقارنة العوامل المتغيرة في حركة الجلد، مع قاعدة بيانات صور تعبيرات الوجوه المعروفة.
وعلى أساس تقدير مستوى اهتمام المشاهد لدى مشاهدته أحد البرامج، يجري استخلاص كلمات أساسية مهمة (مفتاح) من نصوص البرنامج وإدراجها على الكومبيوتر اللوحي، مع الرموز الانفعالية، التي تمثل أيا من تعابير الوجه التي يمكن تحريها في ذلك الوقت.
ويجري استخلاص هذه الكلمات من كلمات الصور والمشاهد عن طريق استخدام ما يسمى بالتحليل الصرفي (اللغوي). «فأسماء العلم، كأسماء الأشخاص، والمحلات، والأماكن، هي ترشيحات جيدة تدل على اهتمام المشاهد»، وفقا إلى سيمون كليبنغدايل كبير مهندسي الأبحاث في «إن إتش كيه».. ويضيق: «ونقوم بربطها بقاعدة بيانات (ويكيبيديا)، وصفحة مدخل البرنامج لغرض البحث اللاحق. فنحن نقوم أيضا بتطوير نظام تصفح للبرامج التلفزيونية يعتمد على اهتمام المشاهد»، كما نقلت مجلة المهندسين الكهربائيين الأميركية.
ويستخدم النظام خريطة برامج تلفزيونية يجري إنتاجها تلقائيا، التي تربط أحجاما كبيرة من البرامج التلفزيونية، والمفردات اللغوية اليابانية معا، وذلك باستخدام أنواع متعددة من الدلالات اللفظية والعلاقة بينها. وهذا ما يمكن المشاهد المهتم بالكلمة الرئيسية (المفتاح) المدرجة، ككلمة «تيمبورا» مثلا، مشاهدة كثير من الكلمات التي لها علاقة بها على الجهاز اللوحي، كالمطاعم، وأصناف مكونات الطعام، وغيرها. وهذه بدورها قد تفضي إلى روابط للبرامج لها علاقة لفظية بها.
وخلال الخريف الحالي، شرعت مجموعة الأبحاث باختبار اهتمام المشاهدين عبر المرحلة الأولى من النظام، عن طريق تقديم كلمات رئيسية بروابط إلى «ويكيبيديا» وصفحة مدخل البرنامج: «فقد أردنا معرفة مدى جودة عمل البرنامج في المنازل العادية، ونوع الاهتمامات الذي يبدونه، ثم نأمل في الشروع باختبار نظام تصفح البرنامج»، استنادا إلى تكاهاشي.
ويبقى كثير من التحديات الفنية الرئيسية قبل أن يقوم التلفزيون بمعرفة ما يرغب فيه المشاهد، والسبب أن النظام قد جرى تطويره لمستخدم واحد فقط، ولا حاجة إلى توسيعه ليشمل العائلة برمتها. وتبقى هنالك أيضا مشكلة معلقة، وهي التمييز بين استمتاع المشاهد بالبرنامج التلفزيوني، أو الضحك والقهقهة من نكتة سردها صديق جالس بقربه. بيد أن تكاهاشي واثق من تذليل هذه العقبات: «والتقنية ستكون جاهزة خلال سنتين إلى 3 سنوات»، كما يؤكد.



«جيميناي 2.0»... «غوغل» بدأت إتاحة نموذجها الأحدث للذكاء الاصطناعي التوليدي

شعار «جيميناي» يظهر على شاشة هاتف جوال (رويترز)
شعار «جيميناي» يظهر على شاشة هاتف جوال (رويترز)
TT

«جيميناي 2.0»... «غوغل» بدأت إتاحة نموذجها الأحدث للذكاء الاصطناعي التوليدي

شعار «جيميناي» يظهر على شاشة هاتف جوال (رويترز)
شعار «جيميناي» يظهر على شاشة هاتف جوال (رويترز)

أعلنت شركة «غوغل» اليوم (الأربعاء) بدء العمل بنموذجها الأكثر تطوراً إلى اليوم في مجال الذكاء الاصطناعي التوليدي «جيميناي 2.0» Gemini 2.0 الذي تسعى من خلاله إلى منافسة شركات التكنولوجيا العملاقة الأخرى في قطاع يشهد نمواً سريعاً، وفقاً لـ«وكالة الصحافة الفرنسية».

وتوقّع رئيس مجموعة «ألفابت» التي تضم «غوغل» سوندار بيشاي أن تفتح هذه النسخة الحديثة من البرنامج «عصراً جديداً» في مجال الذكاء الاصطناعي التوليدي القادر على أن يسهّل مباشرة الحياة اليومية للمستخدمين.

وأوضحت «غوغل» أن الصيغة الجديدة من «جيميناي» غير متاحة راهناً إلا لقلّة، أبرزهم المطوّرون، على أن تُوفَّر على نطاق أوسع في مطلع سنة 2025. وتعتزم الشركة دمج الأداة بعد ذلك في مختلف منتجاتها، وفي مقدّمها محركها الشهير للبحث، وبأكثر من لغة.

وشرح سوندار بيشاي ضمن مقال مدَوَّنة أعلن فيه عن «جيميناي 2.0» أن هذه الأداة توفّر «القدرة على جعل المعلومات أكثر فائدة، مشيراً إلى أن في وِسعها فهم سياق ما وتوقّع ما سيلي استباقياً واتخاذ القرارات المناسبة للمستخدم».

وتتنافس «غوغل» و«أوبن إيه آي» (التي ابتكرت تشات جي بي تي) و«ميتا» و«أمازون» على التوصل بسرعة فائقة إلى نماذج جديدة للذكاء الاصطناعي التوليدي، رغم ضخامة ما تتطلبه من أكلاف، والتساؤلات في شأن منفعتها الفعلية للمجتمع في الوقت الراهن.

وبات ما تسعى إليه «غوغل» التوجه الجديد السائد في سيليكون فالي، ويتمثل في جعل برنامج الذكاء الاصطناعي بمثابة «خادم رقمي» للمستخدم وسكرتير مطّلع على كل ما يعنيه، ويمكن استخدامه في أي وقت، ويستطيع تنفيذ مهام عدة نيابة عن المستخدم.

ويؤكد المروجون لهذه الأدوات أن استخدامها يشكّل مرحلة كبرى جديدة في إتاحة الذكاء الاصطناعي للعامّة، بعدما حقق «تشات جي بي تي» تحوّلاً جذرياً في هذا المجال عام 2022.

وأشارت «غوغل» إلى أن ملايين المطوّرين يستخدمون أصلاً النسخ السابقة من «جيميناي».

وتُستخدَم في تدريب نموذج «جيميناي 2.0» وتشغيله شريحة تنتجها «غوغل» داخلياً، سُمّيت بـ«تريليوم». وتقوم نماذج الذكاء الاصطناعي التوليدي بشكل أساسي على معدات تصنعها شركة «نفيديا» الأميركية العملاقة المتخصصة في رقائق وحدات معالجة الرسومات (GPUs).