قائمة مجامع النصوص

عودة للموسوعة

قائمة مجامع النصوص

الموضوعة التالي هي قائمة مجامع النصوص بمختلف اللغات. مجمع النصوص هومجموعة ضخمة ومنظمة (عادة ما تُخزن وتعالج إلكترونياً في الوقت الحالي). تستخدم مجامع النصوص للتحليل الإحصائي والفحص الافتراضي، التحقق من الأحداث أوالتحقق من صحة القواعد اللغوية داخل منطقة لغوية معينة.

اللغة الإنگليزية

  • مجمع نگرام على خط گوگل
  • المجمع الوطني الأمريكي
  • بنك الإنگليزية
  • المجمع الوطني البريطاني
  • مجمع الإنگليزية الأمريكية المعاصرة (COCA) 425  مليون حدثة 1990–2011. البحث المجاني أونلاين.
  • مجمع براون، يشكل جزءاً من "عائلة مجامع براون"، مع LOB، فراون وF-LOB.
  • مجمع GUM، مجمع مفتوح المصدر متعدد الطبقات من جامعة جورجتاون، مع عدد ضخم من طبقات الضبط
  • المجمع الدولي للإنگليزية
  • مجمع أكسفورد الإنگليزي
  • المجمع الإسكتلندي للنصوص والكلام
  • قاعدة بيانات المجمع (CoRD)، أكثر من 80 مجمع للغة الإنگليزية.
  • RE3D (Relationship and Entity Extraction Evaluation Dataset)


اللغات الأوروپية

  • CETENFolha
  • مجمع النصوص الإلكترونية
  • مجمع نگرام على خط گوگل
  • مجمع اللغة الجورجية
  • Thesaurus Linguae Graecae (اليونانية القديمة)
  • المجمع الوطني للأرمنية الشرقية (EANC) 110 مليون حدثة. البحث المجاني أونلاين
  • مجمع النصوص الإسپانية لمولينودى إيدياس، والذي يحتوي على 660 مليون حدثة.
  • CorALit: مجمع النصوص الأكاديمية للتوانية الأكاديمية نُشر عام 1999–2009 (حوالي 9 مليون حدثة). تم تجميعه في جامعة ڤيلنيوس، لتوانيا
  • المجمع المرجعي للپرتغالية المعاصرة (CRPC)
  • المجمع الوطني الهجري
  • CoRoLa - المجمع المرجعي للغة الرومانية المعاصرة (مجمع reprezentativ al limbii române contemporane)

السلاڤية

السلاڤية الشرقية

  • مجمع ن-البلاروسي
  • المجمع الوطني الروسي
  • مجمع الإنترنت العام للروسية
  • مجمع اللغة الأوكرانية

السلاڤية الجنوبية

  • المجمع الوطني البلغاري
  • مجمع اللغة الكرواتية
  • المجمع الوطني الكرواتي
  • المجمع الوطني السلوڤيني

السلاڤية الغربية

  • المجمع الوطني التشيكي
  • المجمع الوطني للپولندية

الألمانية

  • المجمع المرجعي الألماني (DeReKo) أكثر من أربعة مليون حدثة ألمانية مكتوبة حديثة.
  • مجمع مجاني للأخطاء الألمانية لمن يعانون عُسر القراءة


لغات الشرق الأوسط

  • مجمع همشهري (الفارسية)
  • الفارسية في مجمع MULTEXT-EAST (الفارسية)
  • رسائل تل العمارنة، (للغة الأكادية، المصرية والمقاطع السومرية، ..الخ.)
  • TEP: مجمع طهران للفارسية-الإنگليزية الموازية
  • TMC: مجمع طهران أحادي اللغة، مرجع قياسي لنمذجة اللغة الفارسية
  • مرجع الفارسية اليوم: أكثر حدثات الفارسية تكراراً، استناداً إلى مجمع من مليون حدثة (بالفارسية: Vāže-hā-ye Porkārbord-e Fārsi-ye Emrūz)، حامد حساني، طهران، معهد اللغات الإيراني (ILI)، 2005، 322 ص. ISBN 964-8699-32-1
  • Kurdish-corpus.uok.ac.ir (المجمع الكردي للهجة السورانية) جامعة كردستان، قسم اللغة الإنگليزية واللسانيات
  • مجمع بيجانخان، مجمع فارسي حديث لباحثي NLP ، جامعة طهران، 2012
  • مشروع مجمع النصوص الآشورية الجديدة
  • مجمع القرآن العربي (العربية الفصحى)
  • مجمع النصوص الإلكترونية للأدب السومري
  • مجمع أوپن ريتشلي للكتابة المسمارية المفصلة
  • مجمع نصوص أسوسوفت

لغات شرق آسيا

  • مجمع كوتونوها للغة اليابانية
  • LIVAC Synchronous Corpus (Chinese)

لغات جنوب آسيا

  • SinMin dataset (السنهالية)

مجامع متوازية من لغات شتى

  • مجمع يوروپال - إجراءات البرلمان الأوروپي من 1996–2011
  • مجمع EUR-Lex- مجموعة اللغات الرسمية للبرلمان الأوروپي، تأسس من قاعدة بيانات EUR-Lex
  • OPUS: مجمع متوازي مفتوح المصدر بالكثير من اللغات
  • تاتويبا مجمع متوازي يحتوي على حوالي 2288000 جملة في 122 لغة.
  • مجمع NTU متعدد اللغات بسبع لغات (ara, eng, ind, jpn, kor, mcn, vie) (legacy repo)
  • مجمع SeedLing - بذرة مجمع لمشروع اللغات الإنسانية بأكثر من 1000 لغة من مصادر مختلفة.
  • مجمع GRALIS لمختلف اللغات السلاڤية، جمعها معهد اللغات السلاڤية في جامعة گراتس (برانكوتوشوڤيتش وآخرون.)

{{#section-h::Parallel_text|Parallel corpora

المجامع المتقابلة

  • WaCky - The Web-As-Corpus Kool Yinitiative Web as Corpus (eng, fre, deu, ita)
  • Disambiguating Similar Language Corpora Collection (DSLCC) (Bosnian, Croatian, Serbian, Indonesian, Malay, Czech, Slovak, Brazilian Portuguese, European Portuguese, Peninsular Spanish, Argentine Spanish)
  • مجمع ويكيپديا المقارن (41 مليون منطقة في ويكيپديا متوافقة مع 253 لغة)
  • The TenTen Corpus Family – مجمع وب مقارن بحتوي علىعشرة بليون حدثة. هذا المجمع متاح بنظام ادارة المجامع محرك إسكتش، ويوجد حالياً مجمع تن تن بأكثر من 30 لغة (مثل مجمع تن تن الإنگليزي، مجمع تن تن العربي، مجمع تن تن الإسپاني، مجمع تن تن الروسي،). لمطالعة مجمع تن تن على الرابط التالي https://www.sketchengine.co.uk/documentation/tenten-corpora/
  • Timestamped JSI web corpora – مجمع وب للمنطقات الجميعة المجمعة من قائمة RSS. يتم إعداد مجمع نيوزفيد في إطار مشروع ينفذه معهد يوسف ستفان في المعهد السلوڤيني للبحث الفهمي. ونُشر في محرك إسكتش. لمزيد من المعلومات عن المشروع طالع المسقط الإلكرتوني.


L2 مجمع

  • مجمع مفهم كمبردج
  • مجمع الإنگليزية الأكاديمية المقروءة والمكتوبة (CAWSE)، مجموعة عينات اللغة الإنگليزية لطلبة صينيين بضبط أكاديمي. المجمع متاح مجاناً أونلاين.  
  • الإنگليزية كلغة تواتصل بضبط أكاديمي (ELFA)، مجمع ELF الأكاديمي.
  • مجمع مفهم الإنگليزية الدولي (ICLE)، a corpus of learner written English.
  • Louvain International Database of Spoken English Interlanguage (LINDSEI), مجمع مفهم الإنگليزية المنطوقة.
  • مجمع ترينتي لانكستر، من أكبر مجامع L2 للإنگليزية المنطوقة.
  • مجمع ڤيينا-أكسفورد الدولي للغة الإنگليزية (VOICE)، مجمع ELF.

المراجع

  1. ^ Professor Mark Davies at BYU created an online tool to search Google's English language corpus, drawn from Google Books, at http://googlebooks.byu.edu/x.asp.
  2. ^ "PhraseFinder". محرك بحثي لمجمع نگرام على خط گوگل يدعم wildcard queries and offers an API.
  3. ^ "Corpus Resource Database (CoRD)". Department of English, University of Helsinki.
  4. ^ (in إسپانية) "Molinolabs - corpus". molinolabs.com. Retrieved 12 January 2014.
  5. ^ "CorALit – CorALit - Lietuvių mokslo kalbos tekstynas". coralit.lt. Retrieved 12 January 2014.
  6. ^ "Turkish National Corpus - Türkçe Ulusal Derlemi - Homepage". tnc.org.tr. Retrieved 12 January 2014.
  7. ^ "Under Update". search.dcl.bas.bg. Retrieved 12 January 2014.
  8. ^ "Portál | Český národní korpus".
  9. ^ Zdravkova, Katrina; Tufiş, Dan; Simov, Kiril; Radziszewski, Adam; Qasemizadeh, Behrang; Priest-Dorman, Greg; Petkevič, Vladimír; Oravecz, Csaba; Krstev, Cvetana; Kotsyba, Natalia; Kaalep, Heiki-Jaan; Ide, Nancy; Garabík, Radovan; Dimitrova, Ludmila; Derzhanski, Ivan; Barbu, Ana-Maria; Erjavec, Tomaž (2010-05-14). "Available from CLARIN". http://nl.ijs.si/me/v4/. External link in |journal= (help)
  10. ^ "University of Tehran NLP Lab". ece.ut.ac.ir. Retrieved 12 January 2014.
  11. ^ Hadi Veisi, Mohammad MohammadAmini, Hawre Hosseini; Toward Kurdish language processing: Experiments in collecting and processing the AsoSoft text corpus, Digital Scholarship in the Humanities, fqy074, https://doi.org/10.1093/llc/fqy074
  12. ^ "KOTONOHA「現代日本語書き言葉均衡コーパス」 少納言". kotonoha.gr.jp. Retrieved 12 January 2014.
  13. ^ D. Upeksha, C. Wijayarathna, M. Siriwardena, L. Lasandun, C. Wimalasuriya, N. de Silva, and G. Dias . 2015. Implementing a Corpus for Sinhala Language. In Symposium on Language Technology for South Asia.
  14. ^ "EUR-Lex Corpus". sketchengine.co.uk. Retrieved 27 October 2016.
  15. ^ "OPUS - an open source parallel corpus". opus.lingfil.uu.se. Retrieved 12 January 2014.
  16. ^ "Tatoeba - Number of sentences per language". tatoeba.org. Retrieved 13 January 2014.
  17. ^ Liling Tan and Francis Bond (14 May 2012). "Building and Annotating the Linguistically Diverse NTU-MC (NTU — Multilingual Corpus)" (PDF). International Journal of Asian Language Processing. 22 (4): 161–174.
  18. ^ Guy Emerson, Liling Tan, Susanne Fertmann, Alexis Palmer and Michaela Regneri . 2014. SeedLing: Building and using a seed corpus for the Human Language Project. In Proceedings of the use of Computational methods in the study of Endangered Languages (ComputEL) Workshop. Baltimore, USA.
  19. ^ Liling Tan, Marcos Zampieri, Nikola Ljubešic, and Jörg Tiedemann. Merging comparable data sources for the discrimination of similar languages: The DSL corpus collection. In Proceedings of the 7th Workshop on Building and Using Comparable Corpora (BUCC). 2014.
  20. ^ Kilgarriff, Adam (2012). "Getting to Know Your Corpus". Text, Speech and Dialogue. Lecture Notes in Computer Science. 7499. pp. 3–15. CiteSeerX 10.1.1.452.8074. doi:10.1007/978-3-642-32790-2_1. ISBN .
  21. ^ Belinkov, Y., Habash, N., Kilgarriff, A., Ordan, N., Roth, R., & Suchomel, V. (2013). arTen-Ten: a new, vast corpus for Arabic. Proceedings of WACL.
  22. ^ Kilgarriff, A., & Renau, I. (2013). esTenTen, a vast web corpus of Peninsular and American Spanish. Procedia-Social and Behavioral Sciences, 95, 12-19.
  23. ^ Хохлова, М. В. (2016). Обзор больших русскоязычных корпусов текстов. In Материалы научной конференции" Интернет и современное общество" (pp. 74-77).
  24. ^ Khokhlova, M. (2016). Comparison of High-Frequency Nouns from the Perspective of Large Corpora. RASLAN 2016 Recent Advances in Slavonic Natural Language Processing, 9.
  25. ^ Trampuš, M., & Novak, B. (2012, October). Internals of an aggregated web news feed. In Proceedings of the Fifteenth International Information Science Conference IS SiKDD 2012 (pp. 431-434)
  26. ^ (in en)Cambridge English Corpus, 2019-09-27, https://en.wikipedia.org/w/index.php?title=Cambridge_English_Corpus&oldid=918173927, retrieved on 2020-01-07 
  27. ^ "CAWSE Corpus - The University of Nottingham Ningbo China - 宁波诺丁汉大学". www.nottingham.edu.cn. Retrieved 2020-01-07.
  28. ^ "English as a Lingua Franca in Academic Settings". University of Helsinki (in الإنجليزية). 2018-03-23. Retrieved 2020-01-07.
  29. ^ (in en)English as a lingua franca, 2019-12-14, https://en.wikipedia.org/w/index.php?title=English_as_a_lingua_franca&oldid=930727312, retrieved on 2020-01-07 
  30. ^ Mauranen, A. "English as an academic lingua franca: The ELFA project". English for Specific Purposes. 29: 183–190.
  31. ^ "ICLE". UCLouvain (in الإنجليزية). Retrieved 2020-01-07.
  32. ^ "LINDSEI". UCLouvain (in الفرنسية). Retrieved 2020-01-07.
  33. ^ "Trinity Lancaster Corpus | ESRC Centre for Corpus Approaches to Social Science (CASS)" (in الإنجليزية). Retrieved 2020-01-07.
  34. ^ Gablasova, D (2019). "The Trinity Lancaster Corpus: Development, Description and Application". International Journal of Learner Corpus Research. 5(2): 126–158.
  35. ^ "Project". www.univie.ac.at. Retrieved 2020-01-07.
تاريخ النشر: 2020-06-09 04:49:15
التصنيفات: Articles with إسپانية-language sources (es), CS1 errors: external links, CS1 الإنجليزية-language sources (en), CS1 الفرنسية-language sources (fr), Corpus linguistics, معالجة اللغات الطبيعية

مقالات أخرى من الموسوعة

سحابة الكلمات المفتاحية، مما يبحث عنه الزوار في كشاف:

آخر الأخبار حول العالم

روسيا تدرج 7 شخصيات إعلامية على قائمة «العملاء الأجانب»

المصدر: ألشرق الأوسط - السعودية التصنيف: سياسة
تاريخ الخبر: 2022-04-02 15:22:24
مستوى الصحة: 92% الأهمية: 96%

في اليوم الـ38 للحرب.. ما خسائر روسيا وأوكرانيا ؟ - أخبار السعودية

المصدر: صحيفة عكاظ - السعودية التصنيف: مجتمع
تاريخ الخبر: 2022-04-02 15:22:31
مستوى الصحة: 47% الأهمية: 66%

البحرين ترحب بإعلان الهدنة في اليمن

المصدر: مصراوى - مصر التصنيف: غير مصنف
تاريخ الخبر: 2022-04-02 15:22:00
مستوى الصحة: 57% الأهمية: 57%

البابا فرنسيس يفكر في زيارة كييف... ويحذر من «رياح الحرب الباردة»

المصدر: ألشرق الأوسط - السعودية التصنيف: سياسة
تاريخ الخبر: 2022-04-02 15:22:26
مستوى الصحة: 95% الأهمية: 98%

الجدول الكامل لمباريات دور المجموعات لبطولة كأس العالم فى قطر 2022

المصدر: اليوم السابع - مصر التصنيف: غير مصنف
تاريخ الخبر: 2022-04-02 15:21:44
مستوى الصحة: 36% الأهمية: 46%

موعد مباراة الأهلي والهلال السودانى فى دوري أبطال أفريقيا

المصدر: اليوم السابع - مصر التصنيف: غير مصنف
تاريخ الخبر: 2022-04-02 15:21:47
مستوى الصحة: 34% الأهمية: 45%

أمواج ضخمة تجتاح أحد شواطئ سيدني وتدخل المنازل

المصدر: ألشرق الأوسط - السعودية التصنيف: سياسة
تاريخ الخبر: 2022-04-02 15:22:27
مستوى الصحة: 86% الأهمية: 93%

بعد واقعة الليزر.. سنغالى يعتذر لـ محمد صلاح: "اغفر لنا أخي"

المصدر: اليوم السابع - مصر التصنيف: غير مصنف
تاريخ الخبر: 2022-04-02 15:21:45
مستوى الصحة: 39% الأهمية: 35%

زيلينسكي يتوقع تكثيف الهجمات الروسية شرق أوكرانيا

المصدر: مصراوى - مصر التصنيف: غير مصنف
تاريخ الخبر: 2022-04-02 15:22:03
مستوى الصحة: 55% الأهمية: 58%

الصيام يزيد إفراز مادة الإندروفين المسببة للسعادة.. اعرف التفاصيل

المصدر: اليوم السابع - مصر التصنيف: غير مصنف
تاريخ الخبر: 2022-04-02 15:21:50
مستوى الصحة: 35% الأهمية: 42%

بولندا تدعو إلى مزيد من التشديد لعقوبات الاتحاد الأوروبي على

المصدر: مصراوى - مصر التصنيف: غير مصنف
تاريخ الخبر: 2022-04-02 15:21:51
مستوى الصحة: 51% الأهمية: 64%

بابا الفاتيكان يفكر في السفر إلى العاصمة الأوكرانية كييف

المصدر: مصراوى - مصر التصنيف: غير مصنف
تاريخ الخبر: 2022-04-02 15:22:05
مستوى الصحة: 59% الأهمية: 54%

بابا الفاتيكان يدين الحرب في أوكرانيا دون توجيه انتقاد مباشر

المصدر: مصراوى - مصر التصنيف: غير مصنف
تاريخ الخبر: 2022-04-02 15:21:53
مستوى الصحة: 52% الأهمية: 59%

أسعار الذهب اليوم فى مصر.. عيار 21 يسجل 970 جنيها

المصدر: اليوم السابع - مصر التصنيف: غير مصنف
تاريخ الخبر: 2022-04-02 15:21:46
مستوى الصحة: 37% الأهمية: 38%

هلال رمضان يزين سماء مصر بعد غروب الشمس ويشاهد بالعين المجردة

المصدر: اليوم السابع - مصر التصنيف: غير مصنف
تاريخ الخبر: 2022-04-02 15:21:46
مستوى الصحة: 43% الأهمية: 47%

واشنطن وإسرائيل تبحثان الجهود المبذولة لتعزيز العلاقات الاقت

المصدر: مصراوى - مصر التصنيف: غير مصنف
تاريخ الخبر: 2022-04-02 15:21:58
مستوى الصحة: 59% الأهمية: 60%

روسيا تعلن تدمير عشرات الأهداف العسكرية في أوكرانيا

المصدر: ألشرق الأوسط - السعودية التصنيف: سياسة
تاريخ الخبر: 2022-04-02 15:22:26
مستوى الصحة: 83% الأهمية: 90%

تركيا: تحييد 4 إرهابيين من حزب العمال الكردستاني شمالي العرا

المصدر: مصراوى - مصر التصنيف: غير مصنف
تاريخ الخبر: 2022-04-02 15:21:56
مستوى الصحة: 58% الأهمية: 52%

ساره بايلين المؤيدة لترمب تحاول العودة إلى الساحة من باب الكونغرس

المصدر: ألشرق الأوسط - السعودية التصنيف: سياسة
تاريخ الخبر: 2022-04-02 15:22:28
مستوى الصحة: 92% الأهمية: 98%

بولندا تدعو الاتحاد الأوروبي إلى تشديد العقوبات على روسيا

المصدر: ألشرق الأوسط - السعودية التصنيف: سياسة
تاريخ الخبر: 2022-04-02 15:22:25
مستوى الصحة: 89% الأهمية: 98%

منظمة التعاون الإسلامي ترحب ببدء الهدنة في اليمن

المصدر: ألشرق الأوسط - السعودية التصنيف: سياسة
تاريخ الخبر: 2022-04-02 15:22:25
مستوى الصحة: 92% الأهمية: 85%

تحميل تطبيق المنصة العربية