تنقيب الأنماط المتسلسلة

يعد تنقيب الأنماط المتسلسلة أحد مواضيع تنقيب البيانات الذي يهتم بالعثور على أنماط ذات علاقة إحصائية بين أمثلة البيانات، حيث إذا القيم يتم إيصالها بواسطة متسلسلة.

بالعادة يفترض ان القيم مجزئة وبالتالي يرتبط تنقيب الزمن المتسلسل معه بشكل جيد، ولكن عادةً يعتبر نشاط مختلف .

يعتبر تنقيب البيانات المتسلسل حالة خاصم من تنقيب البيانات المهيكلة

هناك الكثير من المفاتيح التقليدية لحساب المشاكل المعنونة في المجال.

وهذا يتضمن بناء قاعدة بيانات فعالة وفهارس للتسلسل المعلومات، واستخراج الانماط ذات الحدوث المتكرر، مقارنة السلاسل للعثور على التشابهات، وتعويض اعضاء المتسلسلات المفقودة.

بشكل عام، تنقيب السلاسل معضلة يمكن تصنيفها كتنقيب المصفوفات التي تعتمد على خوارزميات معالجة المصفوفات والتنقيب عن العناصر التي ترتكز على تفهم قواعد الارتباط.

نماذج المعالجة المحلية تجعل تنقيب الانماط المتسلسلة انماط أكثر تعقيدا التي تستطيع ان تتضمن خيارات حصرية، حلقات وانشاء التزامن بالإضافة إلى ترتيب المنشاءات المتسلسلة.

تنقيب المصفوفات

تتعامل تنقيب المصفوفات بالعادة مع حروف محدودة لبنود تظهر في سلاسل، ولكن السلسلة بحد ذاتها ممكن ان تكون طويلة جدا .

امثلة على حروف يمكن ان تكون هكذا، رموز الاسكي في اللغة الطبيعية، النوكليوتيدات الادنين أوجوانين سايتوسين أوثايمين في تسلسل الحمض النووي أوالاحماض الامينية أوسلاسل البروتين .

في تطبيقات فهم الاحياء تحليل ترتيب الرموز في المصفوفة يمكن ان يستخدم لتشخيص سلاسل الحمض النووي والبروتين لفهم خصائصها.

فهم التسلسل للرموز الحمض النووي والبروتين ليس الهدف الاسمى بحد ذاته.

بدلا من ذلك المهمة الاساسية تكمن بفهم السلسلة، من ناحية هجريبها ووظائفها البيولوجية .

هذا عادتا يحقق اولا من خلال تعريف المناطق الفردية أووحدات البناء في جميع سلسلة ومن ثم نقوم بتعيين وظائف لكل وحدة بناء .

في الكثير من الحالات يحتاج مقارنة بين سلسلة معطاة واخرى معطاة سابقا .

المقارنة بين المصفوفات تصبح أكثر تعقيدا عند الادراج، الحذف والطفرات في السلسلة

يقدم Abouelhoda & Ghanem (2010) دراسة استقصائية وتصنيف للخوارزميات الرئيسية للمقارنة التسلسلية للمعلوماتية الحيوية، والتي تضم:

المشاكل المرتبطة بالتكرار: التي تتعامل مع العمليات على تسلسل واحد ويمكن حتى تستند إلى مطابقة سلاسل دقيقة أوطرق مطابقة تقريبية للسلاسل لإيجاد طول ثابت متكرر وتكرار أقصى طول، والعثور على تكرار مترادف، وإيجاد متابعات فريدة ومفقودة (غير مكتوبة) المتتالية.
مشاكل المحاذاة: التي تتعامل مع المقارنة بين السلاسل عن طريق محاذاة أولاً تسلسل واحد أوأكثر ؛ تتضمن أمثلة الطرق الشائعة BLAST لمقارنة تسلسل واحد مع تسلسلات متعددة في قاعدة بيانات، وClustalW لمحاذاة متعددة. يمكن حتى تستند خوارزميات المحاذاة إلى طرق دقيقة أوتقريبية، ويمكن أيضًا تصنيفها على أنها محاذاة عالمية، ومحاذاة شبه عالمية ومحاذاة محلية. انظر محاذاة التسلسل .

تنقيب العناصر

بعض المشاكل في التنقيب المتسلسل تضفي على نفسها اكتشاف البنود المتكررة وترتيب ظهورها، مثالا على ذلك، إنسان يبحث عن نماذج

إذا قام عميل بشراء سيارة، فمن المتسقط ان يشتري تامين خلال اسبوع أوفي مجال اسعار الاسهم,

" في غضون يومين {Nokia up وEricsson up ، فمن المحتمل حتى {Motorola up وSamsung up إذا "

عادتا التنقيب عن البنود يستخدم في تطبيقات الترويج لاكتشاف الانتظام بين الحوادث المتكررة في المعاملات الكبيرة

وعلى سبيل المثال، بواسطة تحليل معاملات العملاء ك سلال الشراء في المتاجر، إنسان يستطيع ان يستحدث قاعدة إذا ما قام العميل بشراء البصل والبطاطا سويا فانه من الممكن ان يشتري لحم البرغر في نفس العملية

يقدم Han et al مسحًا وتصنيفًا للخوارزميات الرئيسية لتعدين مجموعة العناصر. (2007).

الاسلوبان الشائعان اللذان يطبقان على متسلسلات قواعد البيانات للتنقيب عن البنود المتكررة هما خوارزمية apriori والمستحدثة مؤخرا تقنية FP-growth

تطبيقات

مع التنوع الكبير في المنتجات وتصرفات المشترين، يعد ذلك الرف احد أبرز الموارد في بيئة البيع.

بائعوالتجزئة لا يستطيعون زيادة ارباحهم لكن، تقليل التكلفة بواسطة الإدارة الملائمة لتخصيص مساحة التخزين وعرض المنتجات .

لحل هذه المشكلة George and Binu (2013) قاموا بتقديم وسيلة للتنقيب انماط الشراء باستخدام خوارزمية PrefixSpan

ووضع المنتجات على الرفوف بالاعتماد على ترتيب انماط الشراء الذهنية.

خوارزميات

الخوارزميات شائعة الاستخدام تضم:

خوارزمية نظام الأفضليات المعمم
اكتشاف متسلسل باستخدام فئات التكافؤ (SPADE)
FreeSpan
PrefixSpan
MAPres

انظر أيضا

عملية التعدين
تحليل التسلسل (المعلوماتية الحيوية)
تجميع تسلسل
وسم التسلسل

المراجع

^ Abouelhoda, M.; Ghanem, M. (2010). "String Mining in Bioinformatics". In Gaber (المحرر). Scientific Data Mining and Knowledge Discovery. Springer. doi:10.1007/978-3-642-02788-8_9. ISBN .
^ Han, J.; Cheng, H.; Xin, D.; Yan, X. (2007). "Frequent pattern mining: current status and future directions". Data Mining and Knowledge Discovery. 15 (1): 55–86. doi:10.1007/s10618-006-0059-1.
^ Ahmad, Ishtiaq; Qazi, Wajahat M.; Khurshid, Ahmed; Ahmad, Munir; Hoessli, Daniel C.; Khawaja, Iffat; Choudhary, M. Iqbal; Shakoori, Abdul R.; Nasir-ud-Din (1 May 2008). "MAPRes: Mining association patterns among preferred amino acid residues in the vicinity of amino acids targeted for post-translational modifications". Proteomics. 8 (10): 1954–1958. doi:10.1002/pmic.200700657. PMID 18491291.