مجمع نصوص

عودة للموسوعة

مجمع نصوص

في فهم اللغويات، مجمع النصوص corpus، (corpus، مفردها corpora)، هي مجموعة كبيرة ومنظمة من النصوص (التي أصبحت الآن عادة مخزنة ومعالجة إلكترونيا). وتستخدم للقيام بالتحليل الإحصائي واختبار الفرضيات، والتحقق من الوقائع أوالتحقق من صحة القواعد اللغوية على فضاء محدد.

قد تحتوي الذخيرة على نصوص من لغة واحدة (ذخيرة أحادية اللغة) أونصوص من لغات متعددة (ذخيرة متعددة اللغات). الذخائر التي تم تهيئتها خصيصا لمقارنتها جنبا إلى جنب تسمى الذخائر المتوازية.

استعراض عام

قد يحتوي المجمع على نصوص بلغة واحدة (مجمع أحادي اللغة monolingual corpus)، أوبيانات نصية بلغات متعددة )مجمع متعدد اللغات multilingual corpus).


مجمع النصوص متعدد اللغات الذي يتم صياغته خصيصاً للمقارنة الجانبية يطلق عليه المجمع المتوازي المحاذي aligned parallel corpora. هناك نوعان رئيسيان من المجامع المتوازية والتي تحتوي على نصوص بلغتين. في مجمع الترجمة، النصوص الواردة لغة ما هي ترجمات للنصوص الواردة باللغة الأخرى. في المجمع المقارن، تكون النصوص من نفس النوع وتغطي نفس المحتوى، لكنها ليست ترجمات للغات الأخرى. لاستخدام النص الموازي، نوع نوع محاذاة النص هوالذي يحدد مقاطع النص المكافئة (جمل أوعبارات) هوشرط أساسي للتحليل. خوارزميات الترجمة الآلية للترجمة من لغتين، غالباً ما يتم تدريبها باستخدام أجزاء متوازية تشتمل على مجمع اللغة الأولى ومجمع اللغة الثانية وهوتعبير عن ترجمة لكل عنصر من مجمع اللغة الأولى.

لجل المجمع أكثر فائدة للأبحاث اللغوية، عادة ما يخضع لعملية تُسمى الضبط. ومن أمثلة ضبط المجامع تصنيف أقسام الكلام، أوPOS-tagging، حيث تتم إضافة معلومات حول جميع جزء من الحدثة (العمل، الاسم، الصفة... الخ) إلى المجمع على شكل "علامات". ومن الأمثلة الأخرى الإشارة إلى اللـِما الشكل (الأساسي) لكل حدثة. عندما تكون لغة المجمع ليست لغة العمل للباحثين الذين يستخدمونه، تستخدم الترجمة بين السطور للحصول على ضبط ثنائي اللغة.

تتمتع بعض المجامع بمستويات أكثر هيكلة من التحليل التطبيقي. بشكل خاص، قد يحدث هناك عدد من المجامع الأصغر مجزأة بالكامل. عادة ما يُطلق على هذا النوع من المجامع الحزم الشجرية أوالمجمع المجزأ. تعني صعوبة التأكد من حتى المجمع بأكمله مضبوطاً بشكل تام ومتسق حتى هذه المجامع الصغيرة عادة ما تكون أصغر، وتحتوي على حوالي مليون إلى ثلاثة مليون حدثة. المستويات الأخرى من التحليل المهيكل لغوياً هي ممكنة، وتضم ضبط المورفولوجيا، فهم الدلالة والذرائع.

المجمع هوالأساس المعهدي الرئيسي في لغويات المجمع. تحليل ومعالجة أنواع مختلفة من المجامع خضعت أيضاً للكثير من العمل في اللسانيات الحاسوبية، تمييز الكلام والترجمة الآلية، حيث عادة ما يتم استخدامها لخلق نماذج ماركوڤ المخفية لوسم جزء من الكلام ولأغراض أخرى. المجمع وقوائم التواتر المشتقة منه]] تكون مفيدة لتعليم اللغات. قد يعتبر المجمع نوعاً من المساعدة في كتابة اللغات الأجنبية بكونه فهم نحوية السياق مخطة من قبل المستخدمين الغير أصليين للغة عن طريق التعهد على النصوص الأصلية في المجمع مما يمكن المتفهمين من فهم كيفية تشكيل الجملة في اللغة المقصودة، مما يتيح الكتابة الفعالة.


المجامع الأثرية

تستخدم مجامع النصوص أيضاً في دراسة الوثائق التاريخية، على سبيل المثال لفك رموز النصوص القديمة، أوفي دراسات الكتاب المقدس. بعض المجامع الأثرية قد تكون be of such short duration بحيث توفر a snapshot in time. ومن أقصر المجامع الأثرية زمنياً، نصوص رسائل تل العمارنة التي تغطي حقبة 15-30 سنة (1350 ق.م.). مجمع المدينة العتيقة، (على سبيل المثال "نصوص كول‌تپه في هجريا)، التي مرت عبر سلسلة من المجامع، تم تحديدها من خلال تواريخ المواقع التي اكتشفت فيها.

بعض مجامع النصوص البارزة

منطق رئيسي: قائمة مجامع النصوص

انظر أيضاً

  • فهرس
  • لسانيات المجمع
  • كوتسورتيوم البيانات اللسانية
  • معالجة اللغات الطبيعية
  • أدوات اللغات الطبيعية
  • محاذاة النص المتوازي
  • محركات البحث: تدخل على "مجمع الوب".
  • مجمع الكلام
  • ذاكرة الترجمة
  • حزمة شجرية
  • قانون زيف

المراجع

  1. ^ Wołk, K.; Marasek, K. "A Sentence Meaning Based Alignment Method for Parallel Text Corpora Preparation". Advances in Intelligent Systems and Computing. Springer. 275: 107–114. ISBN . ISSN 2194-5357.
  2. ^ Wołk, K.; Marasek, K. (2015). "Tuned and GPU-accelerated Parallel Data Mining from Comparable Corpora". Lecture Notes in Artificial Intelligence. Springer: 32–40. ISBN .
  3. ^ ESL Student Attitudes toward Corpus Use in L2 Writing. Journal of Second Language Writing, 13(4), 257–283. Retrieved 21 March 2012. Archived 2 April 2016[Date mismatch] at the Wayback Machine.
  4. ^ Wołk, K.; Marasek, K. "A Sentence Meaning Based Alignment Method for Parallel Text Corpora Preparation". Advances in Intelligent Systems and Computing. Springer. 275: 107–114. ISBN . ISSN 2194-5357.
  5. ^ Wołk, K.; Marasek, K. (2015). "Tuned and GPU-accelerated Parallel Data Mining from Comparable Corpora". Lecture Notes in Artificial Intelligence. Springer: 32–40. arXiv:1509.08639. ISBN .
  6. ^ Yoon, H., & Hirvela, A. (2004). ESL Student Attitudes toward Corpus Use in L2 Writing. Journal of Second Language Writing, 13(4), 257–283. Retrieved 21 March 2012.

وصلات خارجية

  • ACL SIGLEX Resource Links: Text Corpora
  • Developing Linguistic Corpora: a Guide to Good Practice
  • Free samples (not free), web-based corpora (45-425 million words each): American (COCA, COHA, TIME), British (BNC), Spanish, Portuguese
  • Intercorp Building synchronous parallel corpora of the languages taught at the Faculty of Arts of Charles University.
  • Sketch Engine: Open corpora with free access
  • TS Corpus - A Turkish Corpus freely available for academic research.
  • Turkish National Corpus - A general-purpose corpus for contemporary Turkish
  • Corpus of Political Speeches, publicly accessible with speeches from United States, Hong Kong, Taiwan, and China, provided by Hong Kong Baptist University Library
  • Russian National Corpus
  • American English Sentence Database
تاريخ النشر: 2020-06-09 04:38:49
التصنيفات: Webarchive template wayback links, Webarchive template warnings, Discourse analysis, Corpus linguistics, لسانيات حاسوبية, Test items

مقالات أخرى من الموسوعة

سحابة الكلمات المفتاحية، مما يبحث عنه الزوار في كشاف:

آخر الأخبار حول العالم

بدء إجراءات عزل وزير الأمن الداخلي الأمريكي أليخاندرو مايوركاس

المصدر: RT Arabic - روسيا التصنيف: سياسة
تاريخ الخبر: 2024-04-17 00:07:15
مستوى الصحة: 75% الأهمية: 92%

رئيس الحكومة يثمن موقف بروكسيل الداعم لمغربية الصحراء

المصدر: الأول - المغرب التصنيف: سياسة
تاريخ الخبر: 2024-04-16 21:25:59
مستوى الصحة: 47% الأهمية: 56%

عاجل.. المحكمة تحجز قضية "ولد الفشوش" المتهم بقتل بدر للمداولة

المصدر: الأول - المغرب التصنيف: سياسة
تاريخ الخبر: 2024-04-16 21:25:42
مستوى الصحة: 54% الأهمية: 53%

عاجل.. المحكمة تحجز قضية "ولد الفشوش" المتهم بقتل بدر للمداولة

المصدر: الأول - المغرب التصنيف: سياسة
تاريخ الخبر: 2024-04-16 21:25:50
مستوى الصحة: 54% الأهمية: 57%

رئيس الحكومة يثمن موقف بروكسيل الداعم لمغربية الصحراء

المصدر: الأول - المغرب التصنيف: سياسة
تاريخ الخبر: 2024-04-16 21:26:04
مستوى الصحة: 51% الأهمية: 55%

تحميل تطبيق المنصة العربية