على الرغم من أن تقنيات الذكاء الاصطناعي التوليدي (GPT) انتشرت بشكل كبير في الآونة الأخيرة بفضل خدمات «تشات جي بي تي ChatGPT» و«غوغل بارد Google Bard»، فإن هذه التقنية لا تزال تتطلب إرسال بيانات المستخدم إلى أجهزة خادمة في الإنترنت وتحليلها ومن ثم إيجاد النتيجة. وقد يكون هذا الأمر مشكلة متعلقة بخصوصية بيانات المستخدم، لا سيما عندما يتعلق الأمر بتحليل وثائق مهمة وحساسة، إلى جانب ضرورة وجود اتصال مستمر بالإنترنت، وهو أمر قد لا يكون ممكناً في مناطق ذات اتصال ضعيف.
ويوجد بديل لذلك على شكل نظام ذكاء اصطناعي في جهازك (أو جهاز قديم في المنزل أو بيئة العمل)، الأمر الذي يسمح لك بحماية خصوصية بياناتك. وسنذكر في هذا الموضوع أسس نظم الذكاء الاصطناعي التوليدي المحلي الخاص بك للإجابة عن الأسئلة بعد تحليل وثائقك المهمة، وكيفية إعداده.
ذكاء اصطناعي محلي
لإيجاد نظامك الذكي المحلي، يجب إعداد وثائقك الشخصية المسماة «وثائق المعرفة Knowledge documents» في قطاع الذكاء الاصطناعي، والتي قد تكون وثائق نصية أو بامتداد PDF، مثلاً.
العنصر الثاني هو إيجاد نموذج ضخم للغة Large Language Model LLM يستطيع التفاعل مع الوثائق وفهمها وإيجاد الروابط والعلاقات بين أقسامها. ويمكن تحقيق ذلك من خلال نموذج مفتوح المصدر Open-source LLM، الذي يمكن تحميل نصه البرمجي مجاناً من الإنترنت، مثل نماذج Dolly وVicuna وGPT4ALL وLLama CPP، التي تحتوي على بيانات تدريب مسبقة تسهّل على المستخدم البدء باستخدامها.

وننتقل إلى نموذج التضمين Embedding Model الذي يقوم بتحويل البيانات النصية إلى صيغة رقمية تسهل مقارنتها مع نصوص أخرى. وتتم هذه العملية من خلال تضمين الكلمات والجمل في آلية تسهّل على النظام العثور على الوثائق المرتبطة بسؤال المستخدم. ومن الأمثلة على هذه النماذج SentenceTransformers الغنيّ بالنماذج مسبقة التدريب.
العنصر الرابع هو قاعدة بيانات المتجهات Vector Database التي تقوم بحفظ واسترجاع بيانات عملية التضمين. ويمكن من خلال قاعدة البيانات هذه حفظ محتوى الوثائق الخاصة بك بطريقة سهلة على النظام وسريعة الاستجابة لأسئلة المستخدم. ومن الأمثلة على ذلك Faiss وQdrant وWeaviate وMilvus.
ويبقى عنصر واجهة الاستخدام User Interface، والذي يكون عبارة عن وسيلة لأخذ المعلومات من المستخدم وإرسالها إلى النظام، ومن ثم استقبال الإجابات من النظام وعرضها أمام المستخدم. ويمكن أن تكون واجهة الاستخدام بسيطة وعبارة عن شاشة استقبال الأوامر على شكل سطر واحد Command Line Interface CLI أو على شكل تطبيق، مثل Streamlit.
عمل النموذج المحلي للغة
ويعمل النموذج الضخم المحلي للغة Private LLM من خلال إعداد الوثائق التي تريد استخدامها كوثائق معرفة Knowledge documents، ومن ثم تقسيم كل وثيقة إلى أجزاء صغيرة بنحو 500 كلمة لكل جزء، ومن ثم إيجاد نموذج تضمين Embedding Model لكل جزء، يليه إيجاد قاعدة بيانات المتجهات Vector Database التي تخزّن كل المعلومات الخاصة بالوثائق الخاصة بك.
ويسير عمل Workflow، النموذج الضخم المحلي للغة، على النحو التالي: يكتب المستخدم السؤال المطلوب في واجهة الاستخدام، ويقوم النظام باستخدام نموذج التضمين لإيجاد روابط بين سؤال المستخدم والمعلومات الموجودة في قاعدة بيانات المتجهات، لتعيد قاعدة بيانات المتجهات قائمة بالوثائق المرتبطة بسؤال المستخدم وفقاً للروابط المشتركة. ويقوم النظام بإيجاد أمر جديد وفقاً لسؤال المستخدم والوثائق المرتبطة، ومن ثم يقوم بإرسالها إلى النموذج الضخم المحلي للغة الذي يقوم بكتابة الإجابة مع مصادر المعلومات من الوثائق التي تم العثور عليها، ومن ثم عرض تلك الإجابة على الشاشة من خلال واجهة الاستخدام.
وقد لا تكون هذه الآلية مقاربة لقدرات الذكاء الاصطناعي التوليدي في «تشات جي بي تي» و«بارد» نظراً للقدرات الحوسبية والتخزينية الضخمة لأجهزة الشركات المطورة لهذه الأنظمة، إلا أنها وسيلة فعالة للحفاظ على سرّية معلوماتك.
تسهيل إعداد نظامك الشخصي
وإن لم ترغب في تجميع هذه الآليات وربط بعضها ببعض بشكل يدوي، يوجد الكثير من المشاريع التي تساعدك في ذلك، منها مشروع PrivateGPT في منصة GitHub البرمجية الذي يجلب جميع العناصر المذكورة في مجموعة واحدة سهلة الإعداد. ويتضمن هذا المشروع دعم محتوى الكثير من الوثائق ورسائل البريد الإلكتروني والعروض التقديمية والكتب الرقمية والملاحظات بامتدادات TXT وPDF وDOC وDOCX وCSV وMD وHTML وePub وEML وMSG وPPT وPPTX وODT وENEX.
وتجدر الإشارة إلى أن هذا المشروع يتطلب تثبيت لغة البرمجة Python على جهازك مسبقاً، مع تقديمه لإرشادات الثبيت خطوة بخطوة. كما يجب وجود اتصال بالإنترنت خلال عملية التثبيت وإعداد نموذج التضمين لتحميل النماذج مسبقة الإعداد. وبعد الانتهاء من هذه العملية، سيعمل كل شيء مباشرة من جهازك دون الحاجة للاتصال بالإنترنت.
وقد يحتاج النظام المحلي إلى ما بين 20 و30 ثانية للإجابة عن سؤال المستخدم، ولكنّ هذا الأمر متوقَّع من جهاز شخصي مقارنةً بالأجهزة الخادمة فائقة القدرات الخاصة بالشركات الضخمة المشغلة لنظم الذكاء الاصطناعي التوليدي. ويوجد الكثير من المقالات والنصائح من بعض الأفراد الذين استطاعوا تعديل النصوص البرمجية لمشروع PrivateGPT لتسريع الأداء بنحو الضعف، ولكنها طرق تقنية بحتة وتتطلب دراية بالبرمجة قبل المباشرة بإعدادها.






