استرجاع المعلومات

عودة للموسوعة

استرجاع المعلومات

استرجاع المعلومات Information retrieval هوفهم البحث عن الوثائق وعن المعلومات داخل الوثائق وعن المعطيات المتحملة (metadata) التي تصف الوثائق، بالاضافة الى البحث في قواعد البيانات وشبكة الانترنت. هناك لغط رائج بين جميع من استرجاع البيانات واسترجاع الوثائق واسترجاع المعلومات واسترجاع النصوص، ولكن لكل منها كيانه الفهمي الخاص ونظرياته وتقنياته.

إن فهم استرجاع المعلومات عبر معهدي interdisciplinary، وهويعتمد على جميع من فهم الحاسوب، الرياضيات، فهم المخطات، فهم المعلومات، بنيان المعلومات information architecture، وفهم النفس الاستعرافي، واللسانيات، والإحصاء.


نظم استرجاع المعلومات

ٍٍ

نظم استرجاع المعلومات هي النظم التي تسمح بتخزين مجموعة من الوثائق وإدارتها ومعالجتها، وذلك بكيفية تسمح للمستخدم باسترجاع تلك الوثائق التي يتوافق محتواها مع حاجته من المعلومات. تستخدم نظم استرجاع المعلومات لتخفيض حمل المعلومات الزائد، حيث يستخدم الكثير من الجامعات والمخطات العامة هذه النظم لتأمين الوصول إلى الخط والمجلات والوثائق الأخرى.


الإطار العام لنظم استرجاع المعلومات

الإطار العام لنظم استرجاع المعلومات يتألف من ثلاث مراحل:

  1. استخلاص محتوى الوثائق وتوليد تمثيل لها.
  2. استخلاص محتوى الاستعلام وتوليد تمثيل له (معالجة الاستعلام).
  3. مقارنة تمثيل الوثائق مع تمثيل الاستعلام للحصول على الوثائق التي تطابق الاستعلام جزئياً، ثم ترتيبها وفقاً لدرجة موائمتها لحاجة المستخدم من المعلومات (عملية المطابقة والترتيب).

يتم إنجاز الفترة الأولى عادةً قبل قيام المستخدم بطرح استعلامه (offline) بينما يتم إنجاز المرحلتين التاليتين بعد طرح الاستعلام (online).


نماذج استرجاع المعلومات

يوجد الكثير من نماذج نظم استرجاع المعلومات، التي تختلف فيما بينها بكيفية تمثيل الوثائق والاستعلامات، وتابعي المطابقة والترتيب. يمكن تصنيف هذه النماذج وفقاً لبعدين:

  1. الأساس الرياضي
  2. خصائص النموذج

البعد الأول : الأساس الرياضي

  1. نماذج نظرية المعلومات: تمثّل هذه النماذج الوثائق كمجموعات. عادةً يُستمدّ التشابه من تطبيق عمليات المجموعات على هذه الوثائق. من النماذج الشائعة فيها:
  • النموذج البولياني (Standard Boolean Model)
  • النموذج البولياني الممدد (Extended Boolean Model)
  • (fuzzy retrieval)
  1. النماذج الجبرية: تمثل هذه النماذج الوثائق والاستعلامات كأشعةأومصفوفات أوحدوديات. يتم تحويل هذه الأشعة أوالمصفوفات أوالحدوديات باستخدام عدد محدود من العمليات الجبرية إلى قياس تشابه وحيد البعد. ومن النماذج الشائعة فيها:
  • نموذج الفضاء الشعاعي (Vector Space Model)
  • نموذج الفضاء الشعاعي المعمم (Generalized Vector Space Model)
  • نموذج تحليل الدلالة الكامنة(Latent Semantic Analysis)
  1. النماذج الاحتمالية: تعامل هذه النماذج عملية استرجاع الوثائق كتجربة عشوائية متعددة المراحل. ويتم تمثيل التشابه باحتمالات. عادة تستخدم النظريات الاحتمالية كنظرية Bayes في هذه النماذج.
  • النموذج الاحتمالي (Probabilistic Relevance Model)
  • (Uncertain Inference)
  • (Language Model)
  1. النماذج المنطقية : تستخدم المنطق بنوعية الكلاسيكي وغير الكلاسيكي

البعد الثاني: خصائص النموذج

تعامل بعض النماذج الحدثات المفتاحية كما لوأنها مستقلة فيما بينها من الناحية الدلالية، بينما تنظر نماذج أخرى إلى الترابط الدلالي بين هذه الحدثات، وتقوم بتمثيله بطريقة ما. ومن هذا المنظور تصنف نظم استرجاع المعلومات إلى:

  1. نماذج تعتمد استقلالية الحدثات المفتاحية (Models without term-interdependencies). تمثل استقلالية الحدثات المفتاحية في نماذج الفضاء الشعاعي بافتراض التعامد بين أشعة الحدثات المفتاحية (أي الاستقلال الخطي)، أما في النماذج الاحتمالية فتمثل بافتراض استقلالية متحولات الحدثات المفتاحية.
  2. نماذج تعتمد ترابط الحدثات المفتاحية في جوهرها (Models with immanent term-interdependencies). تسمح هذه النماذج بتمثيل الترابط بين الحدثات المفتاحية. ويقوم النموذج بتعريف درجة الترابط بين حدثتين مفتاحيتين. فهي تستند عادةً بشكل مباشر أوعلى نحوغير مباشر إلى الورود المشهجر لهاتين الحدثتين المفتاحيتين ضمن مجموعة الوثائق كاملةً.
  3. نماذج تعتمد ترابط الحدثات المفتاحية على نحومتحمل (Models with transcendent term-interdependencies). تسمح هذه النماذج بتمثيل الترابط بين الحدثات المفتاحية، لكنها لا تفرض كيفية تعريف الترابط بين حدثتين مفتاحيتين. فهي تستخدم مصدراً خارجياً لقياس درجة الترابط بين حدثتين (مثلاً إنسان خبير أوخوارزميات معقدة).


مقاييس تقييم الأداء

عملية التقييم من منظور نظم استرجاع المعلومات هي العمليّة التي تهدف إلى إعطاء قياس عددي يعبّر عن مدى قدرة النظام على تلبية حاجات المستخدمين بفعالية. وهنا لدينا ما يعهد بموائمة النظام (System Relevance)؛ بعبارة أخرى، هوقدرة النظام على استرجاع الوثائق الموائمة لحاجة المستخدم من المعلومات، وبنفس الوقت تجنب استرجاع الوثائق غير الموائمة. ويستخدم لذلك قياسات عديدة لقياس أداء نظم استرجاع المعلومات. بالنسبة للقياسات التي سنذكرها فإنها تفترض الموائمة الثنائية: أي إما حتى تكون الوثيقة ملائمة أوغير موائمة على الإطلاق. من هذه القياسات:

  1. الدقة (Precision)
  2. الاستذكار (Recall)


الدقة

يعبر هذا المقياس عن دقة النظام، وهوتعبير عن نسبة الوثائق الموائمة المسترجعة إلى إجمالي الوثائق المسترجعة (أي نسبة الوثائق الموائمة من الوثائق المسترجعة).

الاستذكار

هي نسبة الوثائق الموائمة المسترجعة إلى إجمالي الوثائق الموائمة (أي نسبة الوثائق المسترجعة من الوثائق الموائمة). الاستذكار وحده غير كافٍ، إنما نحتاج لقياس عدد الوثائق غير الموائمة أيضاً، لذلك نستخدمه مع الدقة


التاريخ

But do you know that, although I have kept the diary [on a phonograph] for months past, it never once struck me how I was going to find any particular part of it in case I wanted to look it up?

—د./ سوارد, برام ستوكر في قصته دراكولا، 1897

الشخصيات الرئيسية

  • توماس بايز
  • كلود شانون
  • Gerard Salton
  • Hans Peter Luhn
  • W. Bruce Croft
  • Karen Spärck Jones
  • C. J. van Rijsbergen
  • Stephen E. Robertson
  • Ricardo Baeza-Yates

جوائز في المجال

  • Tony Kent Strix award
  • Gerard Salton Award

انظر أيضاً

  • Adversarial information retrieval
  • Areas of IR application
  • Clustering
  • Compound term processing
  • Controlled vocabulary
  • Cross-language information retrieval
  • Educational psychology
  • European Summer School in Information Retrieval
  • Free text search
  • Gain
  • Human Computer Information Retrieval
  • Information extraction
  • Information need
  • Information Retrieval Facility
  • Information science
  • Knowledge visualization
  • Multisearch
  • Personal information management
  • Relevance (Information Retrieval)
  • Relevance feedback
  • Rocchio Classification
  • Subject indexing
  • Search index
  • Selection-based search
  • Tf-idf
  • XML-Retrieval
  • تنقيب في المعطيات


الهامش

وصلات خارجية

  • ACM SIGIR: Information Retrieval Special Interest Group
  • BCS IRSG: British Computer Society - Information Retrieval Specialist Group
  • Text Retrieval Conference (TREC)
  • Chinese Web Information Retrieval Forum (CWIRF)
  • Information Retrieval (online book) by C. J. van Rijsbergen
  • Information Retrieval Wiki
  • Information Retrieval Facility
  • Introduction to Information Retrieval (online book) by Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Cambridge University Press. 2008.

INFORMATION RETRIEVAL A book byC. J. van RIJSBERGEN

تاريخ النشر: 2020-06-04 09:20:46
التصنيفات: استرجاع المعلومات, معالجة اللغات الطبيعية

مقالات أخرى من الموسوعة

سحابة الكلمات المفتاحية، مما يبحث عنه الزوار في كشاف:

آخر الأخبار حول العالم

دينا فؤاد تكشف طريقة فقدانها للوزن الزائد.. وسبب رشاقتها

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-16 00:21:42
مستوى الصحة: 50% الأهمية: 60%

تعرف على موعد شهر "طوبة" 2023 وأسماء الشهور القبطية

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-16 00:21:18
مستوى الصحة: 52% الأهمية: 57%

«لوريس» يتطلع ليصبح أول قائد في التاريخ يرفع كأس العالم مرتين

المصدر: وطنى - مصر التصنيف: غير مصنف
تاريخ الخبر: 2022-12-16 00:21:54
مستوى الصحة: 58% الأهمية: 56%

خالد ميرى: أمريكا ترى مصر رمانة الميزان فى منطقة الشرق الأوسط

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-16 00:21:41
مستوى الصحة: 45% الأهمية: 51%

الأمم المتحدة تكشف آخر مستجدات التعداد السكانى فى العراق

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-16 00:21:30
مستوى الصحة: 56% الأهمية: 67%

عملات الأسواق الناشئة تنهى تعاملات الأسبوع على ارتفاع

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-16 00:21:39
مستوى الصحة: 60% الأهمية: 62%

عوامل غير متوقعة.. أزمة الطاقة في أوروبا خلال 2023

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-16 00:21:30
مستوى الصحة: 48% الأهمية: 58%

«نادر قمر الدولة» حكم مباراة الزمالك والبنك الأهلي

المصدر: وطنى - مصر التصنيف: غير مصنف
تاريخ الخبر: 2022-12-16 00:21:55
مستوى الصحة: 48% الأهمية: 63%

ضبط طالب تسبب فى مصرع صديقه بعد إصابته بحجر فى الوراق

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-16 00:21:16
مستوى الصحة: 47% الأهمية: 56%

تحريات مكثفة لكشف غموض العثور على جثة شخص بمنطقة الدقى

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-16 00:21:15
مستوى الصحة: 45% الأهمية: 68%

تعرف على موعد انطلاق فعاليات معرض القاهرة الدولي للكتاب 2023

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-16 00:21:19
مستوى الصحة: 48% الأهمية: 50%

رامي صبري يكشف تفاصيل ألبومه الجديد «معايا هتبدَّع» 2023

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-16 00:21:22
مستوى الصحة: 45% الأهمية: 52%

ننشر اعترافات قاتلة والدتها بمساعدة صديقها ببورسعيد

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-16 00:21:11
مستوى الصحة: 56% الأهمية: 59%

ندوة بحقوق القاهرة حول «تجربة التنسيقية في تمكين الشباب»

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-16 00:21:35
مستوى الصحة: 54% الأهمية: 68%

حالة قلق بين المستثمرين بشأن تشديد البنوك المركزية للسياسة النقدية

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-16 00:21:38
مستوى الصحة: 48% الأهمية: 62%

بعد إصابة «سيلين ديون».. ما هى أعراض متلازمة الشخص المتيبس؟

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-16 00:21:29
مستوى الصحة: 59% الأهمية: 68%

تحميل تطبيق المنصة العربية