معدل التعلم

في التفهم والإحصاء الآلي، يعد معدل التفهم (بالإنجليزية: learning rate)‏ مفهمة ضبط في خوارزمية التحسين التي تحدد حجم المستوى في جميع تكرار أثناء التحرك نحوالحد الأدنى من دالة الخسارة . نظرًا لأنها تؤثر على مدى تجاوز المعلومات المكتسبة حديثًا المعلومات القديمة، فإنها تمثل مجازًا السرعة التي يتفهم بها "نموذج التفهم الآلي". غالبًا ما يشار إلى معدل التفهم بالحرف η أوα.

في تحديد معدل التفهم، هناك مفاضلة بين معدل التقارب وتجاوز الحد. في حين حتى الاتجاه نحوالحد الأدنى يتم تحديده عادة من خلال التدرج اللوني لوظيفة الخسارة، فإن معدل التفهم يحدد حجم المستوى التي يتم اتخاذها في هذا الاتجاه. سيجعل معدل التفهم المرتفع جدًا قفزة التفهم أعلى من الحد الأدنى، لكن معدل التفهم المنخفض جدًا سيستغرق وقتًا طويلاً للغاية للالتقاء أوالتعثر في الحد الأدنى المحلي غير المرغوب فيه.

من أجل تحقيق تقارب أسرع، ومنع التذبذبات والتوقف في الحد الأدنى المحلي غير المرغوب فيه، غالبًا ما يتغير معدل التفهم أثناء التدريب إما وفقًا لجدول معدل التفهم أوباستخدام معدل تعليمي قابل للتكيف. في طريقة نيوتن، يتم تحديد معدل التفهم بشكل أساسي من الانحناء المحلي لوظيفة الخسارة، وذلك باستخدام معكوس المصفوفة الهيسية كحجم المستوى.

جدول معدل التفهم

يغير جدول معدل التفهم معدل التفهم أثناء التفهم وغالبًا ما يتم تغييره بين الحلقات / التكرارات. ويتم ذلك أساسا مع اثنين من المفهمات: الاضمحلال والزخم . هناك الكثير من الجداول الزمنية لمعدلات التفهم المتنوعة، لكن الأكثر شيوعًا هي تلك التي تستند إلى الوقت والمراحل الأسية .

الاضمحلال : يعمل الاضمحلال على تسوية التفهم وتجنب التذبذبات الناتجة، وهوالموقف الناتج عن ثبوت معدل التفهم ويتم التحكم به بواسطة المعاملات المتطورة لمقياس تشعبي (hyperparameter).

الزخم هوايجاد تسوية القيمة عند اقل نقطة لأقل خطأ، يعمل الزخم على تسريع عملية التفهم عندما يتدرج تدرج تكلفة الخطأ في نفس الاتجاه لفترة طويلة وتجنب الحد الادنى المحلي عن طريق تجاوز العثرات الصغيره. يتم التحكم في الزخم بواسطة المعاملات المتطورة أومقاييس تشعبية.

تعمل جداول التفهم القائمة على الوقت على تغيير معدل التفهم اعتمادًا على معدل التفهم في التكرار الزمني السابق. معاملات الانحلال في الصيغة الرياضية لمعدل التفهم هي:

${\displaystyle \eta _{n+1 ={\frac {\eta _{n {1+dn$

أين ${\displaystyle \eta$ هومعدل التفهم، ${\displaystyle d$ هومعامل الاضمحلال و ${\displaystyle n$ هي خطوة التكرار.

تعمل جداول التفهم القائمة على المستوى على تغيير معدل التفهم وفقًا لبعض المراحل المحددة مسبقًا. يتم تعريف صيغة تطبيق الاضمحلال على النحوالتالي:

${\displaystyle \eta _{n =\eta _{0 d^{floor({\frac {1+n {r )$

أين ${\displaystyle \eta _{n$ هومعدل التفهم في التكرار ${\displaystyle n$ ، ${\displaystyle \eta _{0$ هومعدل التفهم الأولي، ${\displaystyle d$ هومقدار معدل التفهم الذي يجب حتى يتغير عند جميع قطرة (0.5 يتوافق مع النصف) و ${\displaystyle r$ يتوافق مع droprate ، أوعدد المرات التي ينبغي حتى ينخفض معدل . تقوم دالة floor هنا بإسقاط قيمة مدخلاتها إلى 0 لجميع القيم الأصغر من 1.

تتشابه جداول التفهم الأسي مع المراحل المستندة إلى المستوى، ولكن بدلاً من المراحل، يتم استخدام دالة الأس المتناقص. الصيغة الرياضية في الاضمحلال هي:

${\displaystyle \eta _{n =\eta _{0 e^{-dn$

${\displaystyle d$ هومعامل الانحلال.

معدل التفهم التكيفي

تتمثل المشكلة في جداول معدلات التفهم في أنها تعتمد جميعها على مفهمات كبيرة يجب اختيارها يدويًا لكل جلسة تعليمية معيّنة وقد تختلف اختلافًا كبيرًا تبعًا للمشكلة المطروحة أوالنموذج المستخدم. لمكافحة هذا هناك الكثير من أنواع مختلفة من خوارزميات النسب التدرج التكيفي مثل Adagrad ، Adadelta ، RMSprop ، آدم والتي بنيت بشكل عام في مخطات التفهم العميق مثل Keras .

انظر أيضا

انتشار خلفي
توليف ذاتي

قراءة متعمقة

Géron, Aurélien (2017). "Gradient Descent". Hands-On Machine Learning with Scikit-Learn and TensorFlow. O'Reilly. صفحات 113–124. ISBN .
Plagianakos, V. P.; Magoulas, G. D.; Vrahatis, M. N. (2001). "Learning Rate Adaptation in Stochastic Gradient Descent". Advances in Convex Analysis and Global Optimization. Kluwer. صفحات 433–444. ISBN .

روابط خارجية

de Freitas, Nando (February 12, 2015). "Optimization". Deep Learning Lecture 6. مؤرشف من الأصل في 23 فبراير 2020.

مراجع

^ Murphy, Kevin P. (2012). . Cambridge: MIT Press. صفحة 247. ISBN . مؤرشف من الأصل فيخمسة يناير 2020.
^ Hafidz Zulkifli (21 January 2018). "Understanding Learning Rates and How It Improves Performance in Deep Learning". Towards Data Science. مؤرشف من الأصل في 24 يناير 2018. اطلع عليه بتاريخ 15 فبراير 2019. Learning rate is a hyper-parameter that controls how much we are adjusting the weights of our network with respect the loss gradient.
^ Nesterov, Y. (2004). . Boston: Kluwer. صفحة 25. ISBN . مؤرشف من الأصل فيتسعة يوليو2017.
↑ Suki Lau (29 July 2017). "Learning Rate Schedules and Adaptive Learning Rate Methods for Deep Learning". Towards Data Science. مؤرشف من الأصل في 04 يناير 2020. اطلع عليه بتاريخ 12 مارس 2019. In order to achieve faster convergence, prevent oscillations and getting stuck in local minima the learning rate is often varied during training either in accordance to a learning rate schedule or by using an adaptive learning rate.