الإرباك

الإرباك في نظرية المعلومات هوقياس لمدى نجاح التوزيع الاحتمالي أولنجاح نموذج احصائي معين يقوم بتسقط عينة. ويمكن استخدامه لمقارنة نماذج الاحتمالات. يشير الإرباك المنخفض إلى حتى توزيع احتمالي جيد في تنبؤ العينة.

الإرباك في توزيع الاحتمال

يتم تعريف الإرباك للتوزيع الاحتمالي المنفصل p كما يلي:

{\displaystyle 2^{H(p) =2^{-\sum _{x p(x)\log _{2 p(x)

حيث حتى قيمة الاحتمال لـ H يمثل قيمة الاعتلاج (بالبت) للتوزيع ونطاقات س على الأحداث. يعهد هذا المقياس أيضًا في بعض المجالات بالتنوع (order-1 true) .

يمكن تعريف قيمة الإرباك للمتغير العشوائي X بأنها قيمة الإرباك للتوزيع على قيمه المحتملة x .

يستخدم الإرباك في بعض الأحيان كمقياس لمدى صعوبة معضلة التنبؤ. رغم حتى هذا ليس دقيقاً بشكل دائم. إذا كان لديك خياران، أحدهما باحتمال 0.9 ، فستكون فرصك في التخمين السليم 90 في المائة باستخدام الاستراتيجية المثلى. والإرباك سيكون اثنان مرفوعة للأس المساوي لحاصل طرح (لوغارتم 0.1 مضروبة في -0.1 من لوغارتم 0.9 مضروبة في -0.9)

إرباك نموذج الاحتمال

قد يتم اقتراح نموذج معين لتوزيع احتمالي غير معروف p ، بناءً على عينة تدريب تم الحصول عليها من p . بالاستناد إلى نموذج الاحتمال المقترح q ، هنا يمكن تقييم q من خلال السؤال عن مدى تسقطه لعينة اختبار منفصلة تمتد كما يلي: ₁ ، x ₂ ، ... ، x _N والعينة مأخوذة من p . يتم تعريف حيرة النموذج q :

{\displaystyle b^{-{\frac {1 {N \sum _{i=1 ^{N \log _{b q(x_{i )

حيث تكون b عادة بمقدار 2. تميل النماذج الأفضل q للتوزيع غير المعروف p إلى تعيين احتمالات أعلى (قيم q لـ Xi) للأحداث في بيانات الاختبار. وبالتالي، تكون قيمة الإرباك أقل (تقل الدهشة برؤية التطبيق على بيانات الاختبار).

يمكن اعتبار الأس أعلاه هومتوسط عدد البتات اللازمة لتمثيل وقع اختبار x _i إذا كان المرء يستخدم الكود الأمثل القائم على q . تؤدي النماذج ذات الإرباك المنخفض أداءً أفضل لضغط عينة الاختبار، حيث تتطلب وحدات بت أقل لكل عنصر اختبار في المتوسط لأن قيمة q لـ x _i تكون مرتفعة.

الإرباك للحدثات

في معالجة اللغة الطبيعية ، يعد الإرباك وسيلة لتقييم قوالب اللغة. نموذج اللغة هوتوزيع احتمالي للحدثات على جمل أونصوص بأكملها.

باستخدام تعريف الإرباك لنموذج الاحتمال، قد نجد حتى الجملة x _i مثلاً في عينة الاختبار يمكن حتى تكون مشفرة في 190 بت (أي حتى جمل الاختبار كان لها متوسط احتمال لوغارتمي يبلغ -190). هذا من شأنه حتى يعطي الإرباك نموذجاً كبيراً يعادل 2 ¹⁹⁰ لكل جملة. ومع ذلك، من الشائع أكثر حتى يتم اجراء التطبيع لطول الجملة والنظر في عدد البتات لكل حدثة فقط. وبالتالي، إذا تضمنت جمل عينة الاختبار ما مجموعه 1000 حدثة، ويمكن ترميزها باستخدام إجمالي 7.95 بت لكل حدثة، فيمكن الحصول على قيمة إرباك نموذجية تبلغ ^7.9 = 247 لكل حدثة. بمعنى آخر، فإن النموذج مرتبك في بيانات الاختبار كما لوكان عليه حتى يختار بشكل موحد ومستقل بين 247 الاحتمالات لكل حدثة.

أدنى قيمة إرباك تم نشرها في متن براون (Brown Corpus) (مليون حدثة من اللغة الإنجليزية الأمريكية ذات مواضيع وأنواع مختلفة) اعتبارًا من عام 1992 هي في الواقع حوالي 247 لكل حدثة، وهي تقابل إنتروبيا لوغارتمية 247 = 7.95 بت لكل حدثة أو1.75 بت لكل حرف باستخدام نموذج ثلاثي الحدثات (trigram). غالبًا ماقد يكون من الممكن تحقيق إرباك أقل على الأصول النصية المتخصصة، لأنها أسهل في التنبؤ.

المراجع

^ Brown, Peter F.; et al. (March 1992). "An Estimate of an Upper Bound for the Entropy of English" (PDF). Computational Linguistics. 18 (1). مؤرشف من الأصل (PDF) في 19 فبراير 2018. اطلع عليه بتاريخ 07 فبراير 2007.