المدقق الإملائي الآلي

عودة للموسوعة
  • في بعض البرامج ، تعتبر ميزة المدقق الإملائي (أوالتدقيق الإملائي ) ميزة برمجية للتحقق من الأخطاء الإملائية في النص . غالبًا ما يتم تضمين ميزات التدقيق الإملائي في البرامج أوالخدمات، مثل برامج معالجة النصوص أوبرامج عميل البريد الإلكتروني أوبرامج القاموس الإلكتروني أومحركات البحث .

Eye have a spelling chequer,
It came with my Pea Sea.
It plane lee marks four my revue
Miss Steaks I can knot sea.

Eye strike the quays and type a whirred
And weight four it two say
Weather eye am write oar wrong
It tells me straight a weigh.

Eye ran this poem threw it,
Your shore real glad two no.
Its vary polished in its weigh.
My chequer tolled me sew.

A chequer is a bless thing,
It freeze yew lodes of thyme.
It helps me right all stiles of righting,
And aides me when eye rime.

Each frays come posed up on my screen
Eye trussed too bee a joule.
The chequer pours o'er every word
Two cheque sum spelling rule.

The original version of this poem was written by Jerrold H. Zar in 1992. An unsophisticated spell checker will find little or no fault with this poem because it checks words in isolation. A more sophisticated spell checker will make use of a نطقب اللغة to consider the context in which a word occurs.
المدقق الإملائي لمتصفح Google Chrome في القصيدة أعلاه، تم تمييز حدثة "chequer" على أنها حدثة غير معترف بها

التصميم

يقوم المدقق الإملائي الأساسي بالعمليات التالية:

  • يقوم بمسح النص واستخراج الحدثات الواردة فيه.
  • ثم يقارن جميع حدثة بقائمة معروفة من الحدثات ذات الهاتى السليم (المقصود بالقائمة المعروفة هوالقاموس). قد يحتوي هذا على قائمة حدثات فقط، أوقد يحتوي أيضًا على معلومات إضافية، مثل نقاط الواصلة أوالسمات المعجمية والنحوية.
  • خطوة إضافية هي خوارزمية تعتمد على اللغة للتعامل مع فهم الصرف باللغة . حتى بالنسبة للغة ذات التأثير الخفيف مثل اللغة الإنجليزية ، سيحتاج المدقق الإملائي إلى النظر في أشكال مختلفة من نفس الحدثة، مثل الجمع، والأشكال اللفظية، والاختصارات، والملكيات . بالنسبة للعديد من اللغات الأخرى، مثل تلك التي تحتوي على التراص والانحراف والاقتران الأكثر تعقيدًا، فإن هذا الجزء من العملية أكثر تعقيدًا.

من غير الواضح ما إذا كان التحليل الصرفي — يسمح بالكثير من الأشكال المتنوعة للحدثة اعتمادًا على دورها النحوي — يوفر فائدة كبيرة للغة الإنجليزية، على الرغم من حتى فوائدها للغات الاصطناعية للغاية مثل الألمانية أوالمجرية أوالهجرية واضحة.

كملحق لهذه المكونات، ستسمح قابلة المستخدم بالبرنامج للمستخدمين بالموافقة على الاستبدالات أورفضها وتعديل تشغيل البرنامج.

يستخدم النوع البديل من المدققات الإملائية معلومات إحصائية فقط، مثل n-grams ، للتعهد على الأخطاء بدلاً من الحدثات ذات الهاتى السليم. يحتاج هذا النهج عادة الكثير من الجهد للحصول على معلومات إحصائية كافية. تتضمن المزايا الرئيسية الحاجة إلى مساحة تخزين أقل وقت التشغيل والقدرة على تسليم الأخطاء في الحدثات غير المدرجة في القاموس.

في بعض الحالات، تستخدم المدقق الإملائي قائمة ثابتة من الأخطاء الإملائية والاقتراحات لتلك الأخطاء الإملائية ؛ غالبًا ما يستخدم هذا النهج الأقل مرونة في طرق التسليم الورقية، مثل انظر أيضًا إدخالات الموسوعات.

كما تم استخدام خوارزميات التجميع للتدقيق الإملائي بالدمج مع المعلومات الصوتية للحدثات.

التاريخ

في عام 1961 ، رأى Les Earnest ، الذي رأس البحث في هذه التقنية الناشئة، أنه من الضروري تضمين المدقق الإملائي الأول الذي وصل إلى قائمة من 10000 حدثة مقبولة.

ثم قام رالف غورين، وهوطالب دراسات عليا في جامعة Earnest في ذلك الوقت، بإنشاء أول برنامج مدقق إملائي حقيقي مكتوب كبرنامج تطبيقات (بدلاً من البحث) للنص الإنجليزي العام: SPELL لـ DEC PDP-10 في مختبر الذكاء الاصطناعي بجامعة ستانفورد، في فبراير 1971. ، خط غورين برنامج SPELL بلغة التجميع من أجل إجراء أسرع، وقام بعمل أول مصحح إملائي من خلال البحث في قائمة الحدثات عن التهجئات السليمة المعقولة التي تختلف بحرف واحد أوتحويل الحروف المتجاورة وتقديمها إلى المستخدم.

جعل رالف غورين برنامجه SPELL متاحًا للجمهور، كما تم مع معظم برامج (مختبر الذكاء الاصطناعي في ستانفورد SAIL) ، وسرعان ما انتشر في جميع أنحاء العالم عبر شبكة وكالة مشاريع الأبحاث المتطورة أوشبكة وكالة مشاريع الأبحاث المتقدمة أوالأربانت ARPAnet ، قبل حوالي عشر سنوات من دخول أجهزة الكمبيوتر الشخصية إلى الاستخدام العام. ألهم برنامج SPELL وخوارزمياته وهياكل البيانات برنامج Unix ispell فيما بعد .

كانت المدققات الإملائية الأولى متاحة على نطاق واسع على أجهزة الكمبيوتر المركزية في أواخر السبعينيات.

ثم طور مجموعة من ستة لغويين من جامعة جورجتاون أول نظام تدقيق إملائي لشركة IBM.

وبعدها اخترع هنري Kučera آلة VAX لشركة Digital Equipment Corp في عام 1981.

ظهرت برامج التدقيق الإملائية الأولى لأجهزة الكمبيوتر الشخصية في عام 1980 ، مثل "WordCheck" لأنظمة Commodore التي تم إصدارها في أواخر عام 1980 في الوقت المناسب لطباعة الإعلانات في يناير 1981.

وقام مطورون آخرون مثل Maria Mariani وRandom House بنقل حزم برمجيات OEM أومنتجات المستخدم النهائي إلى سوق البرمجيات سريعة التوسع، خاصة لأجهزة الكمبيوتر الشخصية ولكن أيضًا لأجهزة Apple Macintosh وVAX وUnix .  

وعلى أجهزة الكمبيوتر الشخصية، كانت هذه المدققات الإملائية تعبير عن برامج مستقلة، يمكن تشغيل الكثير منها في وضع TSR من داخل حزم معالجة الحدثات على أجهزة الكمبيوتر ذات الذاكرة الكافية.

ومع ذلك، فإن سوق حزم البرمجيات المستقلة كان قصير الأجل، وبمنتصف الثمانينيات، قام مطوروحزم معالجة الحدثات الشائعة مثل برامج WordStar وWordPerfect بدمج المدقق الإملائي في حزمهم، المرخصة في الغالب من الشركات المذكورة أعلاه، الذين قاموا بتوسيع الدعم من مجرد دعم اللغة الإنجليزية إلى دعم عديد من اللغات الأوروبية وحتى الآسيوية بنهاية المطاف.

ومع ذلك، تطلب هذا زيادة التطور في إجراءات قواعد الصرف اللغوية لتلك البرامج، وخاصة فيما يتعلق اللغات المتراصة بكثافة مثل لغات الهنغارية والفنلندية .

وبالرغم من حتى حجم سوق برامج معالجة الحدثات في بلد مثل أيسلندا لم تبرر الاستثمار في تطبيق برامج المدقق الإملائي، ومع ذلك فأن شركات البرمجيات مثل WordPerfect سعت مع ذلك إلى توطين برامجها لأكبر عدد ممكن من الأسواق الوطنية كجزء من استراتيجيتها الترويجية العالمية.

وفيما يخص برامج التصفح :

فأن متصفح ويب Firefox 2.0 ،، لديه دعم التدقيق الإملائي للمحتوى الذي يخطه المستخدم، على سبيل المثال عند تحرير الويكبيديا بتنسيق Wikitext أوالكتابة على الكثير من مواقع بريد الويب والمدونات ومواقع الشبكات الاجتماعية .

متصفحات الويب الأخرى مثل جوجل كروم ، كونكيورر ، والأوبرا ، وعميل البريد الإلكتروني كاميل والرسائل الفورية العميل بجين تقدم أيضا دعم التدقيق الإملائي، باستخدام سابقا تطبيقات جنوالمفتوحة المصدر مثل آسبل وحاليا Hunspell كمحرك داخلي داخل المتصفح .

ويحتوي نظام التشغيل Mac OS X الآن على التدقيق الإملائي على مستوى النظام، مما يوسع الخدمة إلى جميع التطبيقات المجمعة وتطبيقات الطرف الثالث تقريبًا.

بعض برامج التدقيق الإملائي الأخرى لديها دعم منفصل للقواميس الطبية للمساعدة في منع الأخطاء الطبية.

وظائف

برامج التدقيق الإملائي الأولى كانت برامج "تحقق" بدلاً من كونها برامج "تسليم".

فلم تكن تقدم أي اقتراحات suggestions للحدثات المكتوبة بشكل غير سليم.

وكان ذلك مفيدًا للأخطاء المطبعية ولكنه لم يكن مفيدًا جدًا للأخطاء المنطقية أوالصوتية. وكان التحدي الرئيسي الذي قابل المطورين هوصعوبة تقديم اقتراحات مفيدة للحدثات التي بها أخطاء إملائية. وهذا يحتاج اختزال الحدثات إلى شكل هيكلي وتطبيق خوارزميات مطابقة الأنماط.

قد يظهر منطقيًا أنه فيما يتعلق بقواميس التدقيق الإملائي، انها تحقق فكرة "حدثا كان ذلك أكبر، حدثا كان ذلك أفضل" بحيث لا يتم وضع علامة على الحدثات السليمة على أنها غير سليمة.

ولكن من الناحية العملية، يظهر حتى الحجم الأمثل للمفردات الخاصة بللغة الإنجليزية هوحوالي 90,000 إدخال، أما إذا كان هناك أكثر من ذلك، فقد يتم تخطي الحدثات التي تحتوي على أخطاء إملائية بشكل خاطئ .

على سبيل المثال ، قد يحدد اللغوي طبقا لفهم الأصول اللغوية حتى حدثة baht هي في كثير من الأحيان خطأ إملائي لمدخلة مثل bath أوbat أكثر من الإشارة إلى العملة التايلاندية بات تايلاندي.

وبالتالي، سيشعر القائمين بالكتابة عن العملة التايلندية بالضيق من ظهور علامة الخطأ

لقطة شاشة لـ Enchant ، مدقق الإملاء في AbiWord .

تم استخدام المدقق الإملائي لبيئة تشغيل MS-DOS من داخل حزم برامج معالجة الحدثات. بحيث يبدأ من بعد تحضير مستند ليقوم المستخدم فيما بعد بمسح النص بحثًا عن الأخطاء الإملائية.

وفي وقت لاحق، تم تقديم المعالجة المجمعة batch processing في حزم برامج مثل CoAuthor لـ Oracle والتي سمحت للمستخدم بعرض النتائج بعد معالجة المستند وتسليم الحدثات التي عُرف عنها أنها خاطئة.

وعندما أصبحت الذاكرة (RAM ) وقوة المعالجة ( Processing ) كبيرتان، تم تطوير عمليات إجراء التدقيق الإملائي لتعمل في الخلفية بكيفية تفاعلية، كما كان الحال مع برنامج Spellbound الذي تم إصداره في عام 1987 وMicrosoft Word منذ Word 95.

في السنوات الأخيرة، أصبحj المدققات الإملائية أكثر تعقيدًا بشكل متزايد ؛ فالبعض منها الآن قادر على التعهد على الأخطاء النحوية البسيطة، ومع ذلك، حتى في أفضل حالاتها، نادرًا ما يتم التقاط جميع الأخطاء في النص (مثل أخطاء ) وسوف تضع علامة على الحدثات الجديدة والحدثات الأجنبية على أنها أخطاء إملائية.

ومع ذلك، يمكن اعتبار المدقق الإملائي نوعًا من أنواع المساعدة في الكتابة بلغة خارجية والتي يمكن لمتفهمي اللغة غير الأصليين الاعتماد عليها للكشف عن الأخطاء الإملائية وتسليمها في اللغة الهدف.

التدقيق الإملائي للغات غير الإنجليزية

اللغة الإنجليزية غير عادية في حتى معظم الحدثات المستخدمة في الكتابة الرسمية لها هاتى واحد يمكن العثور عليه في القاموس النموذجي، باستثناء بعض المصطلحات والحدثات المعدلة.

ولكن في كثير من اللغات الأخرى، غالبًا ما تكون الحدثات متسلسلة في مجموعات جديدة من الحدثات.

ففي الألمانية مثلا، غالبًا ما يتم صياغة الأسماء المركبة من الأسماء الأخرى الموجودة. ولذلك لا تفصل بعض البرامج النصية بوضوح حدثة واحدة عن الأخرى، مما يحتاج خوارزميات تقسيم الحدثات.

لذا تعتبر هذه الحالات تحديات فريدة لبرامج التدقيق الإملائي للغات أخرى غير اللغة الإنجليزية.

المدقق الإملائي الحساس للسياق

كان هناك درس في تطوير خوارزميات قادرة على التعهد على حدثة بها خطأ إملائي، حتى لوكانت الحدثة نفسها في المفردات، بناءً على سياق الحدثات المحيطة لها.

لا يسمح هذا فقط بالكشف أخطاء في حدثات مثل تلك الموجودة في القصيدة أعلاه (في أول هذه الموضوعة) ولكنه يخفف من التأثير الضار لتوسيع القواميس، مما يسمح بالتعهد على المزيد من الحدثات.

على سبيل المثال، لن يتم التعهد على baht في نفس الفقرة مثل التايلاندية أوتايلاند على أنه خطأ إملائي لحدثة الحمام bath .

المثال الأكثر شيوعًا للأخطاء التي يتم اكتشافها بواسطة مثل هذا النظام هي الأخطاء المتجانسة ، مثل الحدثات الغامقة في الجملة التالية:

Their coming too sea if its reel.

أنجح خوارزمية حتى الآن هي Andrew Golding وDan Roth "خوارزمية تسليم الهاتى التي تستند إلى Winnow " ، والتي نشرت في عام 1999 ، وهي قادرة على التعهد على حوالي 96 ٪ من الأخطاء الإملائية الحساسة للسياق، بالإضافة إلى عدم وجود حدثة عادية اخطاء املائية.

يظهر المدقق الإملائي الحساس للسياق في Microsoft Office 2007 ، وظهر أيضًا في Google Wave الذي تم إيقافه الآن.

ويجدر الإشارة إلى حتى برامج التدقيق النحوي تحاول إصلاح مشكلات القواعد النحوية متجاهلة الأخطاء الإملائية، بما في ذلك الاختيار غير السليم للحدثات.

انظر أيضا

  • مطابقة السلسلة التقريبية
  • تأثير كوبرتينو
  • مدقق نحوي
  • مشكلة ربط السجل
  • اقتراح إملائي
  • حدثات (يونكس)
  • معالجة اللغات الطبيعية
  • التشكيل الآلي بواسطة الحاسوب
  • التدقيق اللغوي

المراجع

  1. ^ U.S. Patent 6618697, Method for rule-based correction of spelling and grammar errors
  2. ^ de Amorim, R.C.; Zampieri, M. (2013) Effective Spell Checking Methods Using Clustering Algorithms. نسخة محفوظة 2017-08-17 على مسقط واي باك مشين. Proceedings of Recent Advances in Natural Language Processing (RANLP2013). Hissar, Bulgaria. p. 172-178.
  3. ^ Zampieri, M.; de Amorim, R.C. (2014) Between Sound and Spelling: Combining Phonetics and Clustering Algorithms to Improve Target Word Recovery. Proceedings of the 9th International Conference on Natural Language Processing (PolTAL). Lecture Notes in Computer Science (LNCS). Springer. p. 438-449. نسخة محفوظة 19 أغسطس 2017 على مسقط واي باك مشين.
  4. ^ Earnest, Les. "The First Three Spelling Checkers" (PDF). Stanford University. مؤرشف من الأصل (PDF) في 22 أكتوبر 2012. اطلع عليه بتاريخعشرة أكتوبر 2011.
  5. ^ Peterson, James (Dec 1980). (PDF). مؤرشف من الأصل (PDF) في 25 يونيو2018. اطلع عليه بتاريخ 18 فبراير 2011.
  6. ^ Earnest, Les. (PDF). مؤرشف من الأصل (PDF) في 20 يوليو2011. اطلع عليه بتاريخ 18 فبراير 2011.
  7. "Georgetown U Faculty & Staff: The Center for Language, Education & Development". مؤرشف من الأصل في 05 فبراير 2009. اطلع عليه بتاريخ 18 ديسمبر 2008.
  8. ^ Harvey, Charlotte Bruce (May–June 2010). "Teaching Computers to Spell (obituary for Henry Kučera)". Brown Alumni Magazine. صفحة 79. صيانة CS1: تنسيق التاريخ (link)
  9. ^ Advertisement (January 1981). "Micro Computer Industries, Ltd" (PDF). Compute! Magazine, Issue 8, Vol. 3, No. 1. صفحة 119. مؤرشف من الأصل (PDF) في 15 مارس 2020.
  10. ^ Advertisement (November 1982). "The Spelling Bee Is Over". PC Magazine. صفحة 165. مؤرشف من الأصل في 18 مارس 2020. اطلع عليه بتاريخ 21 أكتوبر 2013.
  11. ^ "Medical Spell Checker for Firefox and Thunderbird". e-MedTools. 2017. مؤرشف من الأصل في 04 مايو2019. اطلع عليه بتاريخ 29 أغسطس 2018.
  12. ^ Quathamer, Dr. Tobias (2016). "German medical dictionary words". Dr. Tobias Quathamer. مؤرشف من الأصل في 12 يونيو2018. اطلع عليه بتاريخ 29 أغسطس 2018.
  13. ^ Friedman, Richard A.; D, M (2003). "CASES; Do Spelling and Penmanship Count? In Medicine, You Bet". The New York Times. مؤرشف من الأصل في 29 أغسطس 2019. اطلع عليه بتاريخ 29 أغسطس 2018.
  14. ^ Banks, T. (2008).
  15. ^ Golding, Andrew R.; Roth, Dan (1999). "Journal Article". SpringerLink. 34: 107–130. doi:10.1023/A:1007545901558.
  16. ^ Walt Mossberg (4 January 2007). "Review". Wall Street Journal. مؤرشف من الأصل في 31 أغسطس 2018. اطلع عليه بتاريخ 24 سبتمبر 2010.
  17. ^ "Google Operating System". googlesystem.blogspot.com. مؤرشف من الأصل في 29 يوليو2019. اطلع عليه بتاريخ 25 سبتمبر 2010. "Google's Context-Sensitive Spell Checker". May 29, 2009. مؤرشف من الأصل فيعشرة أغسطس 2017. اطلع عليه بتاريخ 25 سبتمبر 2010.

روابط خارجية

  • List of spell checkers على مشروع الدليل المفتوح
  • Norvig.com ، "كيفية كتابة مصحح إملائي" ، بقلم بيتر نورفيج
  • BBK.ac.uk ، "التدقيق الإملائي عن طريق الكمبيوتر" ، بقلم روجر ميتون
  • CBSNews.com ، تسليم عكاز التدقيق الإملائي، بقلم لويد دي فريس
  • NIU.edu ، مرشح لمفاجأة الرصاص - قصيدة كاملة مصححة
  • Corrector.co ، لما أدوات المدقق النحوي مهمة،يا ترى؟ - شرح مشروح من قبل ماركوس كاميل


تاريخ النشر: 2020-06-01 20:47:50
التصنيفات: تهجئة, معالجة اللغات الطبيعية, قالب أرشيف الإنترنت بوصلات واي باك, صيانة CS1: تنسيق التاريخ, Articles with DMOZ links, بوابة برمجيات/مقالات متعلقة, بوابة تقنية المعلومات/مقالات متعلقة, بوابة علم الحاسوب/مقالات متعلقة, بوابة لسانيات/مقالات متعلقة, جميع المقالات التي تستخدم شريط بوابات

مقالات أخرى من الموسوعة

سحابة الكلمات المفتاحية، مما يبحث عنه الزوار في كشاف:

آخر الأخبار حول العالم

مونديال 2022: العربي بن مبارك "إله" الكرتين المغربية والفرنسية

المصدر: فرانس 24 - فرنسا التصنيف: سياسة
تاريخ الخبر: 2022-12-13 15:17:06
مستوى الصحة: 86% الأهمية: 90%

لويس إنريكي: "سفيان أمرابط أكثر من أعجبني في بطولة كأس العالم"

المصدر: البطولة - المغرب التصنيف: رياضة
تاريخ الخبر: 2022-12-13 15:16:38
مستوى الصحة: 53% الأهمية: 59%

أقسى شهر إضرابات تشهده بريطانيا منذ أكثر من 10 سنوات

المصدر: BBC News عربي - بريطانيا التصنيف: سياسة
تاريخ الخبر: 2022-12-13 15:16:58
مستوى الصحة: 78% الأهمية: 91%

تحميل تطبيق المنصة العربية