لقد بُنيت طفرة الذكاء الاصطناعي على البيانات، وتأتي البيانات من الإنترنت، وجاء الإنترنت منا. ويظهر تحليل جديد نشره موقع axios، لمجموعة بيانات عامة مستخدمة على نطاق واسع لتدريب الذكاء الاصطناعي، مدى اتساع صناعة الذكاء الاصطناعي اليوم في أخذ عينات من خزينة النشر على الإنترنت لمدة 30 عاما لتعليم شبكاتها العصبية.

لماذا يهمنا ذلك

هل كتبت مدونة من قبل؟ أنشأت صفحة ويب؟ أو شاركت بموضوع في أي مدونة؟ من المحتمل أن تكون كلماتك قد ساهمت في تعليم روبوتات الدردشة الذكية في كل مكان.

ففي حين أن هذا التغيير اللفظي الهائل يؤدي إلى نزاع قانوني مهم حول ما إذا كان ينبغي التعامل معه على أنه استخدام عادل أو سرق، فإنه يلهم أيضًا حسابًا شخصيًا للعديد من الملايين الذين بنت منشوراتهم عالم الإنترنت اليوم. ويقول الباحثون: "كنا نظن أننا نشارك قلوبنا وعقولنا، وبالطبع كنا كذلك. لكن دون أن ندرك، كنا ننشئ أيضا قاعدة بيانات غير مكتملة ولكنها غنية، للتعبير البشري".

أدوات الذكاء الاصطناعي

ونظرا لأن أدوات الذكاء الاصطناعي المرئية مثل Dall-E و Midjourney و Stable Diffusion أصبحت شائعة قبل انطلاق برامج الدردشة اللفظية مثل ChatGPT، كان المبدعون في كل المجالات مثل المصورين والرسامين والفنانين، هم أول من تصارع مع هذا الإدراك.

ويواجه الموسيقيون نفس النوع من الصراع، حيث يواجهون نسخا متضاعفة من أعمالهم مستوحاة من الذكاء الاصطناعي.

وو فريق البحث أن "مجموعة البيانات تحتوي على أكثر من نصف مليون مدونة شخصية، تمثل 3.8 % من إجمالي "الرموز" أو أجزاء اللغة المنفصلة في البيانات.

ولا تظهر المنشورات على منصات التواصل الاجتماعي المملوكة مثل فيسبوك أو إنستجرام وتويتر، لأن هذه الشركات حافظت على الوصول إلى بياناتها لأنفسهم.

فقاعة فكرية

إذا كان لديك أي نوع من تاريخ الإنترنت، فإن فرصة البحث الذاتي التي يوفرها بحث المنشور لا تُقاوم، مثل البحث عن اسمك على Google. (هناك أداة بحث مشابهة تسمى "هل تم تدريبي؟".

عندما تجد عملك مدرجا، ربما تسأل نفسك ، كما فعلت أنا ، "هل هذا ما أردته؟" و"لماذا لم يتم استشارتي؟" و"ماذا لو كنت أعرف أن هذا قادم؟"

كن ذكيا

يلقي تعطش الذكاء الاصطناعي لبيانات التدريب الضوء على تاريخ الإنترنت الشهير الممتد على مدى 30 عامًا. ولا يمكن أن تحدث اختراقات الذكاء الاصطناعي اليوم دون توافر المخزونات الرقمية والمعلومات والأفكار والمشاعر التي دفع الإنترنت الناس إلى إنتاجها. لكننا أنتجنا كل هذه الأشياء لبعضنا البعض، وليس للذكاء الاصطناعي.

من هذا المنطلق، كان وجود هذه "المجموعات" الضخمة من البيانات نتيجة مهمة للغاية وغير مقصودة لظهور الويب نفسه.

في عام 1995، عندما وقع الناس في حب الإنترنت ومن ثم المتصفحات ومحركات البحث واحتفل أيضا الجيل الأخير بظهور المدونات ومن ثم بمواقع التواصل الاجتماعي، كان الإنترنت يمثل مادة سهلة لكي يتعلمها الذكاء الاصطناعي ويتحكم بها بل إنه يدرسها بشكل يومي.

بحلول أوائل العقد الأول من القرن الحادي والعشرين، بدأت تحركات ثورة التعلم الآلي في جعل بعض الخبراء البعيدين غير مرتاحين. لكن الأمر استغرق نظرة طويلة جدًا للشعور بأن الويب بأكمله قد يكون على وشك التحول إلى علف تدريب على الذكاء الاصطناعي.

اليوم ، هذه النتيجة غير المقصودة هي في مقدمة ومركز تجربتنا عبر الإنترنت - تذكرنا أن كل ما نقوم به الآن مع الذكاء الاصطناعي، ومن أجله ، سيشكل بدوره المستقبل بطرق لا يمكننا توقعها.