لعنه الأبعاد

عودة للموسوعة

تشير لعنة الأبعاد إلى الكثير من الظواهر التي تنشأ عند تحليل وتنظيم البيانات في مسافات عالية الأبعاد لا تحدث في إعدادات منخفضة الأبعاد مثل المساحة المادية ثلاثية الأبعاد للتجربة اليومية.

تحدث الظواهر الملعونة في مجالات مثل التحليل العددي ، أخذ العينات، التوافقية، التفهم الآلي ، استخراج البيانات وقواعد البيانات. السمة الشائعة لهذه المشكلات هي أنه عندما تزداد البعد، يزداد حجم المساحة بسرعة كبيرة بحيث تصبح البيانات المتاحة قليلة. هذا التفرقة يمثل معضلة بالنسبة لأي كيفية تتطلب دلالة إحصائية. من أجل الحصول على نتيجة إحصائية سليمة وموثوق بها، فإن كمية البيانات اللازمة لدعم النتيجة غالبا ما تنموباطراد مع البعد. أيضًا، يعتمد تنظيم البيانات والبحث عنها غالبًا على اكتشاف المناطق التي تشكل فيها الكائنات مجموعات لها نفس الخصائص ؛ في البيانات عالية الأبعاد ، ومع ذلك، يظهر حتى جميع الكائنات متناثرة ومختلفة في نواح كثيرة، مما يمنع استراتيجيات تنظيم البيانات المشهجرة من حتى تكون فعالة.

المجالات

التوافقية

في بعض المشكلات، يمكن حتى يأخذ جميع متغير واحدة من عدة قيم منفصلة، أويتم تقسيم مجموعة القيم المحتملة لإعطاء عدد محدود من الاحتمالات. عند أخذ المتغيرات معًا، يجب مراعاة عدد كبير من مجموعات القيم. يُعهد هذا التأثير أيضًا باسم الانفجار التوافقي . حتى في أبسط الحالات المتغيرات الثنائية، وعدد المجموعات الممكنة بالعمل ، الأسي في البعد. بسذاجة، يضاعف جميع بُعد إضافي الجهد اللازم لتجربة جميع المجموعات.

أخذ العينات

هناك زيادة هائلة في حجم المرتبطة مع إضافة المزيد من الأبعاد إلى الفضاء الرياضي. على سبيل المثال، 102=100 متباعدة بشكل متساوعينة نقاط ويكفي حتى عينة وحدة الفاصل الزمني ("1-الأبعاد مكعب") مع أكثر من 10-2=0.01 المسافة بين نقطة، أي ما يعادل أخذ العينات من 10-الأبعاد وحدة المكعب الزائدي مع مجموعة شعرية له تباعد من 10-2=0.01 بين نقطتين متجاورتين يحتاج 1020=[(102)10] نقاط العينة. في عام، مع تباعد المسافة من 10−n 10-الأبعاد المكعب الزائدي يظهر حتى عامل 10ن(10-1)=[(10ن)10/(10ن)] "أكبر" من 1-الأبعاد المكعب الزائدي الذي هووحدة الفاصلة. في المثال أعلاه n=2: عند استخدام العينات بعد 0.01 10-الأبعاد المكعب الزائدي يظهر حتى 1018 "أكبر" من وحدة الفاصلة. هذا التأثير هومزيج من المشاكل التوافقيه المذكورة أعلاه والمسافة وظيفة المشاكل هومشروح أدناه.

الاقوي

عند حل مشاكل التحسين الديناميكي عن طريق الحث الرقمي الخلفي ، يجب حساب الوظيفة الموضوعية لكل مجموعة من القيم. هذه عقبة كبيرة عندماقد يكون بُعد "متغير الحالة" كبيرًا.

التفهم الالي

في مشاكل التفهم الآلي التي تتضمن تفهم "حالة طبيعية" من عدد محدود من عينات البيانات في مساحة ميزة عالية الأبعاد مع جميع ميزة لها مجموعة من القيم المحتملة، عادة ما تكون هناك حاجة إلى كمية هائلة من بيانات التدريب لضمان حتى هناك عدة عينات مع جميع مجموعة من القيم. هناك قاعدة نموذجية تتمثل في أنه ينبغي حتىقد يكون هناكخمسة أمثلة تدريبية على الأقل لكل بُعد في التمثيل. مع وجود عدد ثابت من عينات التدريب، تزداد القوة التنبؤية لأحد المصنفين أوالتراجع أولاً مع زيادة عدد الأبعاد / الميزات المستخدمة ولكن بعد ذلك تتناقص، والتي تعهد باسم ظاهرة هيوز أوالظواهر القصوى.

وظائف المسافة

عندما يتم تحديد مقياس مثل المسافة الإقليدية باستخدام الكثير من الإحداثيات، هناك اختلاف سهل في المسافات بين أزواج مختلفة من العينات.

تتمثل إحدى الطرق لتوضيح "اتساع" مساحة الإقليدية عالية الأبعاد في مقارنة نسبة منطقة فرط الغلاف المدرج بنصف القطر r والبعد d إلى نسبة فائق السرعة ذي الحواف الطولية 2r. حجم مثل هذا المجال هو

مثل .

وعلاوة على ذلك فإن المسافة بين المركز والزوايا هوالذي يزيد من دون متجهة ثابتة r. في هذا المعنى، تقريبا جميع من عالية الأبعاد الفضاء "بعيدا" من المركز. لوضع الأمر بطريقة أخرى، عالية الأبعاد وحدة المكعب الزائدي يمكن القول حتى تتكون بالكامل تقريبا من "زوايا" المكعب الزائدي، مع ما يقرب من أي "الأوسط".

هذا يساعد أيضًا على فهم التوزيع التربيعي. في الواقع،قد يكون التوزيع التربيعي (غير المركزي) المرتبط بنقطة عشوائية في الفاصل الزمني [-1 ، 1] هونفس توزيع الطول التربيعي لنقطة عشوائية في المكعب d. بموجب قانون الأعداد الكبيرة، يركز هذا التوزيع في نطاق ضيق حول d أضعاف الانحراف المعياري (σ2) للاشتقاق الأصلي. هذا ينير التوزيع التربيعي ويوضح أيضًا حتى معظم حجم المكعب d يهجرز بالقرب من سطح دائرة نصف قطرها

.

وهناك تطور آخر لهذه الظاهرة على النحوالتالي. أي توزيع ثابت على يحفز توزيع المنتج على النقاط في d . للحصول على أي الثابتة ن، تبين حتى الحد الأدنى والحد الأقصى للمسافة بين Q نقطة مرجعية عشوائي وقائمة ن عشوائية نقاط البيانات P 1. . . ، ف ن تصبح غير قابلة للفهم بالمقارنة مع الحد الأدنى للمسافة:

.

غالبًا ما يتم الاستشهاد بهذا كوظائف عن بُعد تفقد فائدتها (بالنسبة لمعيار الجوار الأقرب في خوارزميات مقارنة الميزات، على سبيل المثال) بأبعاد عالية. ومع ذلك، فقد أظهرت الأبحاث الحديثة حتى هذا لا يتم إلا في السيناريوالمصطنع عندما تكون التوزيعات أحادية البعد ℝ مستقلة وموزعة بشكل متطابق. عندما تكون السمات مرتبطة، يمكن حتى تصبح البيانات أسهل وتوفر تباينًا أعلى للمسافة، ووجد حتى نسبة الإشارة إلى الضوضاء تلعب دورًا مهمًا، وبالتالي يجب استخدام اختيار الميزة.

أقرب درس جار

يعمل التأثير على تعقيد أقرب درس جار في مساحة عالية الأبعاد. لا يمكن رفض المرشحين بسرعة عن طريق استخدام الفرق في إحداثي واحد كحد أدنى لمسافة تستند إلى جميع الأبعاد.

ومع ذلك، فقد لوحظ مؤخرًا حتى مجرد عدد الأبعاد لا يؤدي بالضرورة إلى صعوبات، نظرًا لأن الأبعاد الإضافية ذات الصلة يمكن حتى تزيد أيضًا من التباين. بالإضافة إلى ذلك، بالنسبة للترتيب الناتج، يظل من المفيد تمييز الجيران القريبين والبعيدين. ومع ذلك، فإن الأبعاد غير ذات الصلة ("الضوضاء") تقلل من التباين بالطريقة المشروحة أعلاه. في تحليل السلاسل الزمنية ، حيث تكون البيانات عالية الأبعاد بطبيعتها، تعمل وظائف المسافة أيضًا بشكل موثوق طالما كانت نسبة الإشارة إلى الضوضاء مرتفعة بدرجة كافية.

ك أقرب تصنيف الجار

تأثير آخر من الأبعاد عالية على مسافة وظائف المخاوف k-أقرب جار (ك-ن ن) الرسوم البيانية التي شيدت من مجموعة البيانات باستخدام المسافة وظيفة. كما البعد يزيد، توزيع شكل ك-ن ن يصبح منحرفا مع الذروة على الحق بسبب ظهور عدد غير متناسب من المحاور ، وهذا هو، نقاط البيانات التي تظهر في الكثير من ك-ن ن قوائم البيانات الأخرى نقاط من المتوسط. هذه الظاهرة يمكن حتىقد يكون لها أثر كبير على مختلف تقنيات التصنيف (بما في ذلك <i id="mwmA">ك</i>-ن ن المصنف), شبه إشراف التفهموالمجموعات, كما أنه يؤثر على استرجاع المعلومات.

إكتشاف عيب خلقي

في دراسة حديثة، Zimek et al. تحديد المشاكل التالية عند البحث عن الشذوذ في بيانات عالية الأبعاد:

  1. هجريز النقاط والمسافات: تصبح القيم المشتقة مثل المسافات متشابهة عدديًا
  2. سمات غير ذات صلة: في البيانات عالية الأبعاد، قد يحدث عدد كبير من السمات غير ذي صلة
  3. تعريف مجموعات المراجع: بالنسبة للطرق المحلية، غالبًا ما تكون مجموعات المراجع قائمة على الجوار
  4. درجات لا تضاهى للأبعاد المتنوعة: تنتج المساحات الفرعية المتنوعة درجات لا تضاهى
  5. قابلية تفسير النتائج: في الغالب، لم تعد النتائج تنقل معنى دلاليًا
  6. مساحة البحث الأسية: لم يعد من الممكن مسح مساحة البحث بشكل منهجي
  7. تحسس البيانات المتطفل : بالنظر إلى مساحة البحث الكبيرة، يمكن العثور على فرضية لكل دلالة مطلوبة
  8. محور نيس: كائنات معينة تحدث بشكل متكرر في قوائم الجوار أكثر من غيرها.

تعالج الكثير من الطرق المتخصصة التي تم تحليلها معضلة أوأخرى من هذه المشكلات، ولكن لا يزال هناك الكثير من الأسئلة البحثية المفتوحة.

انظر أيضا

معادلة بيلمان

تجميع البيانات عالية الأبعاد

هجريز التدبير

تخفيض البعد

نموذج طلب الحد

البرمجة الديناميكية

تحويلات فورييه ذات الصلة

أقل المربعات الخطية

متعدد الخطوط PCA

متعدد الفضاء التفهم الفرعي

تحليل المكون الرئيسي

تحلل القيمة المفرد

المراجع

  1. ^ Beyer, K.; Goldstein, J.; Ramakrishnan, R.; Shaft, U. (1999). . Proc. 7th International Conference on Database Theory - ICDT'99. 1540. صفحات 217–235. doi:10.1007/3-540-49257-7_15. ISBN . مؤرشف من الأصل في 28 ديسمبر 2019.
  2. ^ Marimont, R.B.; Shapiro, M.B. (1979). "Nearest Neighbour Searches and the Curse of Dimensionality". IMA J Appl Math. 24 (1): 59–70. doi:10.1093/imamat/24.1.59. مؤرشف من الأصل في 12 فبراير 2014.
  3. ^ Chávez, Edgar; Navarro, Gonzalo; Baeza-Yates, Ricardo; Marroquín, José Luis (2001). "Searching in Metric Spaces". ACM Computing Surveys. 33 (3): 273–321. doi:10.1145/502807.502808.
  4. ^ Radovanović, Miloš; Nanopoulos, Alexandros; Ivanović, Mirjana (2010). "Hubs in space: Popular nearest neighbors in high-dimensional data" (PDF). Journal of Machine Learning Research. 11: 2487–2531. مؤرشف من الأصل (PDF) في 17 يوليو2019.
  5. ^ Zimek, A.; Schubert, E.; Kriegel, H.-P. (2012). "A survey on unsupervised outlier detection in high-dimensional numerical data". Statistical Analysis and Data Mining. 5 (5): 363–387. doi:10.1002/sam.11161.
تاريخ النشر: 2020-06-01 19:06:44
التصنيفات: أبعاد, برمجة ديناميكية, تحليل عددي, تعلم آلي, مقالات غير مراجعة منذ ديسمبر 2019, جميع المقالات غير المراجعة, مقالات غير مراجعة منذ 2019, جميع المقالات التي بحاجة لصيانة, بوابة إحصاء/مقالات متعلقة, بوابة علم الحاسوب/مقالات متعلقة, جميع المقالات التي تستخدم شريط بوابات

مقالات أخرى من الموسوعة

سحابة الكلمات المفتاحية، مما يبحث عنه الزوار في كشاف:

آخر الأخبار حول العالم

عن فيدرالية اليسار أتحدث: مكتب سياسي هرم بخمسين عضوا...!

المصدر: تيل كيل عربي - المغرب التصنيف: سياسة
تاريخ الخبر: 2022-12-24 18:21:27
مستوى الصحة: 60% الأهمية: 54%

بنك فيصل الإسلامى يشيد بجهود الأزهر فى نشر علوم القرآن

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-24 18:21:14
مستوى الصحة: 51% الأهمية: 52%

حمادة هلال يحيي حفل رأس السنة بالإمارات العربية المتحدة

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-24 18:21:42
مستوى الصحة: 56% الأهمية: 50%

نماذج امتحانات الصف الخامس الابتدائي 2022 pdf

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-24 18:21:14
مستوى الصحة: 54% الأهمية: 63%

غزل المحلة يتعادل سلبيًا مع فاركو في الدوري

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-24 18:21:18
مستوى الصحة: 48% الأهمية: 62%

قائمة الزمالك مكتملة الصفوف قبل مباراة المقاولون العرب بالدوري

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-24 18:21:19
مستوى الصحة: 58% الأهمية: 68%

بيوت الله.. الحكومة المصرية ترمم المساجد القديمة في الصعيد

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-24 18:21:37
مستوى الصحة: 48% الأهمية: 53%

وزير الصحة يتابع مستجدات العمل بمشروع «الأدلة الاسترشادية الطبية»

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-24 18:21:12
مستوى الصحة: 60% الأهمية: 55%

بعد إصابته مع المنتخب..ويستهام يكشف الحالة الصحية لنايف أكرد

المصدر: تيل كيل عربي - المغرب التصنيف: سياسة
تاريخ الخبر: 2022-12-24 18:21:24
مستوى الصحة: 49% الأهمية: 64%

حرس الحدود يهزم البنك الأهلي بثنائية ويحقق انتصاره الأول في الدوري

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-24 18:21:19
مستوى الصحة: 60% الأهمية: 61%

مصرع طفل سقط من أعلى منزله فى محافظة البحيرة

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-24 18:21:31
مستوى الصحة: 48% الأهمية: 50%

جهود مكبرة لضبط المتهم بقتل نجله طعنا بسكين فى قليوب

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-24 18:21:33
مستوى الصحة: 49% الأهمية: 63%

محافظ المنيا يستقبل الأنبا انيانوس أسقف بني مزار والبهنسا

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-24 18:21:28
مستوى الصحة: 54% الأهمية: 69%

تأجيل محاكمة 57 متهما بإدارة «حراك الإخوان» ضد مؤسسات الدولة

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-24 18:21:32
مستوى الصحة: 54% الأهمية: 69%

موعد بداية الترم الثاني 2023.. وبداية إجازة نصف العام

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-24 18:21:15
مستوى الصحة: 53% الأهمية: 50%

محافظ سوهاج يتابع تنفيذ 175 مشروعًا بقرى مركز طما

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-24 18:21:29
مستوى الصحة: 59% الأهمية: 64%

رئيس المقاولون العرب يحفز اللاعبين قبل مباراة الزمالك (صور)

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-24 18:21:17
مستوى الصحة: 52% الأهمية: 61%

مهرجان جنوب سيناء الدولي

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-24 18:21:39
مستوى الصحة: 47% الأهمية: 62%

«صرف صحي مطروح»: سحب أكثر من 220 ألف طن من مياه الأمطار

المصدر: موقع الدستور - مصر التصنيف: سياسة
تاريخ الخبر: 2022-12-24 18:21:28
مستوى الصحة: 51% الأهمية: 51%

تحميل تطبيق المنصة العربية