محركات بحث
محركات درس «ارتقائية» تستخلص المعلومات من مئات الملايين من صفحات الإنترنت
قام باحثون أميركيون في جامعة واشنطن في سياتل، بتطوير برنامج لمحرك درس يمكنه سحب معلومات وحقائق من أكثر من 500 مليون صفحة على شبكة الإنترنت. وتقوم هذه الأداة باستخلاص المعلومات من مليارات الخطوط من النصوص عن طريق تحليل العلاقات والروابط الأساسية بين الحدثات. ويقول بعض الخبراء إذا هذا النوع من «الاستخلاص الأوتوماتيكي للمعلومات» سيشكل، ربما، الأساس للجيل المقبل الأكثر ذكاء للبحث عن طريق الشبكة، بحيث يجري جمع كنوز المعلومات أولا، ومن ثم توحيدها بصورة ذكية.
ويمثل مشروع جامعة واشنطن توجها لتضخيم تقنية حالية موجودة تدعى «تيكست رنر» TextRunner على صعيد عدد الصفحات ونطاق الموضوعات التي يمكنها حتى تحللها.
وأهمية «تيكست رنر» أنها «ارتقائية، لأنه لا يوجد إشراف أوسيطرة عليها»، كما يقول بيتر نورفغ مدير قسم الأبحاث في «غوغل» الذي تبرع بقاعدة المعلومات الخاصة بصفحات شبكة الإنترنت، التي قامت «تيكست رنر» بتحليلها. «والأخيرة بإمكانها اكتشاف واستيعاب ملايين من أوجه العلاقة والارتباط، لا واحدا منها في جميع مرة، إذ لا يوجد مع هذه التقنية عامل أوتدخل بشري، بل تقوم التقنية بإيجاد أوجه العلاقة والارتباط بنفسها»، كما نقلت عنه مجلة «تكنولوجي ريفيو» التي يصدرها معهد ماساشوستس للتكنولوجيا.
ويوضح نورفغ حتى التقنيات السابقة تطلبت كثيرا من الإرشاد والتوجيه من قبل المبرمجين. ومثال على ذلك، للعثور على أسماء أشخاص الذين هم في مرتبة، أومنصب كبار المديرين التطبيقيين ضمن ملايين الصفحات من الوثائق والمستندات.. عليك حتى تدرب البرنامج عن طريق إضافة أمثلة أخرى مثل: «إن عمل ستيف هوالمدير التطبيقي في شركة (أبل)، وشيريل ساندبيرغ هوالمدير التطبيقي في (فيس بوك). ويضيف نورفغ حتى «غوغل» تقوم بعمل مماثل، وهي تستخدم مثل هذه التقنية ضمن أطر أخرى محددة.
استخلاص أوتوماتيكي لكن تقنية «تيكست رنر» تتخلص من هذا العمل اليدوي بحيث يمكن للمستخدم مثلا إدخال تعبير «التخلص من البكتيريا وقتلها» ليقوم المحرك بالبحث عن الصفحات التي تقدم نظرة بأن «الكلورين يقتل البكتريا،» أو«الأشعة فوق البنفسجية تقتل البكتريا»، أو«الحرارة تقتل البكتريا»، وهي نتائج تدعى «ثلاثية»، وتقدم وسائل للحصول على نظرة مسبقة على النصوص قبل زيارتها على صفحات مواقعها التي أتت منها أصلا. والبرنامج هذا له قابلة استخدام بسيطة، وليس موجها للبحث العام من قبل الجمهور، بل لعرض الاستخلاص الأوتوماتيكي للمعلومات من 500 مليون صفحة من صفحات الإنترنت، كما يقول أورين إتزيوني عالم الحاسوب في جامعة واشنطن: «فالذي نعرضه هوقدرة البرنامج على تحقيق استيعاب أولي للنص على نطاق لم يسبق له مثيل من قبل». وتخدم تقنية «تيكست رنر» كنقطة ابتدائية لتشييد استقراءات، أواستنتاجات منطقية من الاستفهامات اللغوية الطبيعية، وهذه ما يعمل عليه حاليا فريق البحث. ولإعطاء مثال بسيط: إذا ما عثر «تيكست رنر» على صفحة على الشبكة تقول: «اللبائن هي من كائنات الدم الحار»، وصفحة أخرى تقول «الكلاب هي من اللبائن»، يقوم محرك للاستقراء المنطقي بتوفير معلومات تقول إذا الكلاب من الممكن هي من ذوات الدم الحار.
وهذا عمل تناظري تشابهي لتقنية طورت من قبل «باورسيت» التي حصلت عليها «مايكروسوفت» العام الماضي. وكانت «باورسيت» قبل حصول «مايكروسوفت» بقليل على هذه التقنية قد كشفت النقاب عن أداة محصورة مهمتها في استخلاص الحقائق والمعلومات من نحومليوني صفحة من «ويكيبيديا». وتقوم تقنية «تيكست رنر» بالتعامل مع صفحات «ويكيبيديا»، إضافة إلى النصوص الاعتباطية من أي صفحة، بما فيها مواقع المدونات، وكتالوغات المنتجات، والموضوعات الصحافية، والأكثر من ذلك بكثير.
«ومثل هذا العمل أخذ يحرز تقدما كبيرا على صعيد التعامل مع مثل هذه المهمات» كما يقول جون كلاينبيرغ عالم الحاسوب في جامعة كورنيل الذي كان يتابع أبحاث جامعة واشنطن. وأضاف حتى مثل هذا العمل يعكس الاتجاه نحوتصميم عدد وأدوات للبحث التي تقوم بشكل نشط بالجمع بين الأجزاء المعلوماتية التي تعثر عليها في الشبكة وتحويلها إلى هجريب كبير.