تحليل البيانات

عودة للموسوعة

تحليل البيانات

تحليل البيانات Data analysis، هي عملية فحص، تطهير، تحويل ونمذجة البيانات بهدف الكشف عن المعلومات المفيدة، استنباط الاستنتاجات ودعم اتخاذ القرارات. لتحليل البيانات جوانب وأساليب متعددة، تضم تقنيات متنوعة تحت مجموعة متنوعة من الأسماء، ويستخدم في مجالات تجارية وفهمية وفهمية اجتماعية مختلفة. في عالم الأعمال اليوم، يلعب تحليل البيانات دوراً هاماً في اتخاذ قرارات أكثر فهمية ومساعدة الشركات على العمل بشكل أكثر فعالية.

التنقيب في البيانات هي تقنية معينة لتحليل البيانات هجرز على نمذجة واكتشاف الفهم لأغراض تنبؤية وليست وصفية بحتة، بينما يغطي ذكاء الأعمال تحليل البيانات الذي يعتمد بشكل كبير على التجميع، مع الهجريز بشكل أساسي على معلومات الأعمال.

أنواع تحليل البيانات

  • تحليل وصفي: يُراد منه وصف ملخص للبيانات ولا يحتاج إيجاد تفسيرات لها، مثل ما يقدمه تحليل البيانات لإحصاء السكاني لبلد معين، حيث لا يقدم التحليل أكثر من خلاصة لما يضمه إستبيان الاحصاء من جنس، وعمر، وعنوان وغيرها.
  • تحليل إستكشافي: تحليل البيانات الاستكشافي يحاول إيجاد علاقات، اكتشافات، ارتباطات، ميول من القياسات لعدة متغيرات بغرض إيجاد أفكار وفرضيات معينة. مثال على التحليل الاستكشافي هوما قام به مجموعة من الهواة الذين حللوا بيانات فضائية كثيرة جمعها مقراب كبلر فوجدوا نظاماً شمسياً من أربعة كواكب من خلال تحليل خصائص الضوء.
  • تحليل إستنتاجي: أحد أكثر تحليلات البيانات شيوعاً في البحوث الفهمية، ويمضى إلى ما وراء التحليل الاستكشافي ليرى إذا كانت الأنماط المكتشفة صالحة لكي تكون وراء مجاميع البيانات المتوفرة. مثال عليه كشف العلاقة بين التلوث البيئي ومتوسط العمر على مستوى الولايات في الولايات المتحدة. يقوم هذا التحليل بتقييس واحتساب العلاقات المتنوعة بين القياسات المتوفرة.
  • تحليل تنبؤي: بينما يقوم النوع السابق بتقييس العلاقات واحتساب قيمها، يقوم التحليل التنبؤي بتسقط قياسات معينة من قياسات موجودة. مثلاً ما تقوم به مؤسسات الاحصاء في تنبؤ نتيجة الانتخابات من خلال تحليل سلوك التنبؤ الذي تتم ملاحظته في الإستبيانات.
  • تحليل سببي: يقوم هذا التحليل بإحتساب مقاييس معينة طالما تغير مقاييس أخرى، مثلاً إحتساب تأثير ممارسة طبية معينة على تقليل الإصابة بسقم معين.
  • تحليل ميكانيكي: يقوم التحليل السببي السابق بإيجاد علاقة لها نسبة معينة من الحدوث وعلى أثر بيانات قد تكون ضخمة جداً، مثلاً على مدى عقود تقول البيانات حتى التدخين يؤدي إلى الإصابة بالسرطان، لكن الأمر ليس مؤكداً فقد لا تموت بالسرطان رغم تدخينك. ما يقوم به التحليل الميكانيكي هوإيجاد علاقة مؤكدة وحتمين بين قياسين.


الأهداف

يهدف تحليل البيانات إلى اعداد ما يسمى بنموذج بيانات النظام. وتعتبر هذه العملية من الأنشطة الرئيسية لفترة التحليل وتتم نمذجة البيانات غالبا باستخدام النماذج البيانية،أي المخططات والرسوم التي تشبه إلى حد ما مخططات تدفق البيانات .

عملية تحليل البيانات

مخطط بيانات معالجة البيانات الفهمية من Doing Data Science,لسكوت أونيل (2013).



تحديد متطلبات البيانات

هي المستوى الأولي في تحليل البيانات ويقصد بها التعريف والتحديد بنوعية وكمية وغيرها من الأمور المهمة المطلوب توافراها في البيانات المراد تحليلها.مثال: البيانات المطلوبة هل هي ارقام، نصوص ام صور، هل ستكون البيانات محسوبة لشخص واحد ام لكل الاشخاص في هذا المكان، .... الخ من المتطلبات.


تجميع البيانات

The phases of the intelligence cycle used to convert raw information into actionable intelligence or knowledge are conceptually similar to the phases in data analysis.

يتم فيها تجميع البيانات من مصادر مختلفة بحيث تحقق المتطالبات في المستوى الاولي . ومن الممكن ان يقوم بجمعها اشخاص، اوالحصول عليها من خلال التقنيات الحديثة مثل الاقمار الصناعية، اشارات المرور،الانترنت ... الخ.

تنظيم البيانات

بعد فترة تجميع البيانات تبدأ عملية توزيع البيانات في شكل جداول لها صفوف واعمد كما في ملفات Excel.


فحص البيانات

من الضروري فحص البيانات حتي لا تكون المعلومات الناتجة بها اخطاء وغير سليمة. ويتم ذلك من خلال مراجعة البيانات وازالة اوتسليم المغلوطة . البيانات المغلوطة قد تكون ارقام غير سليمة ،بيانات مكررة ،بيانات مرتبات ولكن يوجد بها حروف ابجدية. ومن الممكن التخلص من البيانات المغلوطة بازالة المكرر واعادة حساب الارقام وفي عملية تدخيل البيانات نتأكد ان البيانات المدخلة لها نفس النوع لنفس العمود.


اعداد النموذج المفاهيمي للبيانات

تسمى هذه المستوى أيضا نمذجة بيانات النظام. ويتم خلالها بناء النموذج الذي يعكس الموضوعات(الأمور) الرئيسية للبيانات ، وعلاقاتها مع بعضها البعض.ويسمى التحليل في هذا المستوى بتحليل المضمون أوالمعنى.


تحليل العلاقات

ويتم فيه تحسين النموذج المفاهيمي بإعادة تصميم الكينونات بكيفية تقلل التكرارات وتحول الكينونات إلى علاقات مبسطة يمكن التعامل معها بمرونة وسهولة .وتسمى هذه العملية أيضا تسوية أوتطبيع البيانات وبناء النموذج العلاقي للبيانات.

تصميم قاعدة البيانات

وتهتم بتحويل النموذج العلاقاني إلى توصيف قاعدة بيانات النظام .


التواصل

تصوير البيانات لفهم نتائج تحليل البيانات.


الرسائل الكمومية

منطق رئيسي: تصوير البيانات
A time series illustrated with a line chart demonstrating trends in U.S. federal spending and revenue over time.
A scatterplot illustrating correlation between two variables (inflation and unemployment) measured at points in time.



تقنيات تحليل البيانات الكمومية

  • Check raw data for anomalies prior to performing your analysis;
  • Re-perform important calculations, such as verifying columns of data that are formula driven;
  • Confirm main totals are the sum of subtotals;
  • Check relationships between numbers that should be related in a predictable way, such as ratios over time;
  • Normalize numbers to make comparisons easier, such as analyzing amounts per person or relative to GDP or as an index value relative to a base year;
  • Break problems into component parts by analyzing factors that led to the results, such as DuPont analysis of return on equity.

الأنشطة التحليلية لمستخدمي البيانات

# المهمة وصف
عام
Pro Forma
Abstract
أمثلة
1 Retrieve Value Given a set of specific cases, find attributes of those cases. What are the values of attributes {X, Y, Z, ... in the data cases {A, B, C, ... ? - What is the mileage per gallon of the Ford Mondeo?

- How long is the movie Gone with the Wind?

2 Filter Given some concrete conditions on attribute values, find data cases satisfying those conditions. Which data cases satisfy conditions {A, B, C... ? - What Kellogg's cereals have high fiber?

- What comedies have won awards?

- Which funds underperformed the SP-500?

3 Compute Derived Value Given a set of data cases, compute an aggregate numeric representation of those data cases. What is the value of aggregation function F over a given set S of data cases? - What is the average calorie content of Post cereals?

- What is the gross income of all stores combined?

- How many manufacturers of cars are there?

4 Find Extremum Find data cases possessing an extreme value of an attribute over its range within the data set. What are the top/bottom N data cases with respect to attribute A? - What is the car with the highest MPG?

- What director/film has won the most awards?

- What Marvel Studios film has the most recent release date?

5 Sort Given a set of data cases, rank them according to some ordinal metric. What is the sorted order of a set S of data cases according to their value of attribute A? - Order the cars by weight.

- Rank the cereals by calories.

6 Determine Range Given a set of data cases and an attribute of interest, find the span of values within the set. What is the range of values of attribute A in a set S of data cases? - What is the range of film lengths?

- What is the range of car horsepowers?

- What actresses are in the data set?

7 Characterize Distribution Given a set of data cases and a quantitative attribute of interest, characterize the distribution of that attribute’s values over the set. What is the distribution of values of attribute A in a set S of data cases? - What is the distribution of carbohydrates in cereals?

- What is the age distribution of shoppers?

8 Find Anomalies Identify any anomalies within a given set of data cases with respect to a given relationship or expectation, e.g. statistical outliers. Which data cases in a set S of data cases have unexpected/exceptional values? - Are there exceptions to the relationship between horsepower and acceleration?

- Are there any outliers in protein?

9 Cluster Given a set of data cases, find clusters of similar attribute values. Which data cases in a set S of data cases are similar in value for attributes {X, Y, Z, ... ? - Are there groups of cereals w/ similar fat/calories/sugar?

- Is there a cluster of typical film lengths?

10 Correlate Given a set of data cases and two attributes, determine useful relationships between the values of those attributes. What is the correlation between attributes X and Y over a given set S of data cases? - Is there a correlation between carbohydrates and fat?

- Is there a correlation between country of origin and MPG?

- Do different genders have a preferred payment method?

- Is there a trend of increasing film length over the years?

11 Contextualization Given a set of data cases, find contextual relevancy of the data to the users. Which data cases in a set S of data cases are relevant to the current users' context? - Are there groups of restaurants that have foods based on my current caloric intake?

عقبات التحليل الفعال

الخلط بين الحقيقة والرأي

You are entitled to your own opinion, but you are not entitled to your own facts.

Daniel Patrick Moynihan


التحيزات المعهدية

عدم فهم القواعد الحسابية

موضوعات أخرى

المباني الذكية

التحليل وذكاء الأعمال

منطق رئيسي: تحليل (فهم الحاسوب)


التعليم

الأنشطة التحليلية لتصوير بيانات المستخدمين.


ملاحظات الممارس

تحليل البيانات الأولية

تحليل البيانات الرئيسية

برمجيات حرة لتحليل البيانات

  • DevInfo – a database system endorsed by the United Nations Development Group for monitoring and analyzing human development.
  • ELKI – data mining framework in Java with data mining oriented visualization functions.
  • KNIME – the Konstanz Information Miner, a user friendly and comprehensive data analytics framework.
  • أورانج – A visual programming tool featuring interactive data visualization and methods for statistical data analysis, data mining, and machine learning.
  • Pandas – Python library for data analysis
  • PAW – FORTRAN/C data analysis framework developed at CERN
  • R – a programming language and software environment for statistical computing and graphics.
  • ROOT – C++ data analysis framework developed at CERN
  • SciPy – Python library for data analysis

المسابقات الدولية لتحليل البيانات

  • Kaggle competition held by Kaggle
  • LTPP data analysis contest held by FHWA and ASCE.

انظر أيضاً

  • Actuarial science
  • Analytics
  • Big data
  • Business intelligence
  • Censoring (statistics)
  • Computational physics
  • Data acquisition
  • Data blending
  • Data governance
  • Data mining
  • Data Presentation Architecture
  • Data science
  • Digital signal processing
  • Dimension reduction
  • Early case assessment
  • Exploratory data analysis
  • Fourier analysis
  • Machine learning
  • Multilinear PCA
  • Multilinear subspace learning
  • Multiway data analysis
  • Nearest neighbor search
  • Nonlinear system identification
  • Predictive analytics
  • Principal component analysis
  • Qualitative research
  • Scientific computing
  • Structured data analysis (statistics)
  • System identification
  • Test method
  • Text analytics
  • Unstructured data
  • Wavelet

المصادر

الهوامش

  1. ^ Xia, B. S., & Gong, P. (2015). Review of business intelligence through data analysis. Benchmarking, 21(2), 300-311. doi:10.1108/BIJ-08-2012-0050
  2. ^ Exploring Data Analysis
  3. ^ Adèr, 2008, p. 334-335.
  4. ^ Grandjean, Martin (2014). "La connaissance est un réseau" (PDF). Les Cahiers du Numérique. 10 (3): 37–54. doi:10.3166/lcn.10.3.37-54.
  5. ^ خطأ استشهاد: وسم <ref> غير سليم؛ لا نص تم توفيره للمراجع المسماة Koomey1
  6. ^ خطأ استشهاد: وسم <ref> غير سليم؛ لا نص تم توفيره للمراجع المسماة ConTaaS
  7. ^ "The machine learning community takes on the Higgs". Symmetry Magazine. July 15, 2014. Retrieved 14 January 2015.
  8. ^ Nehme, Jean (September 29, 2016). "LTPP International Data Analysis Contest". Federal Highway Administration. Retrieved October 22, 2017.
  9. ^ "Data.Gov:Long-Term Pavement Performance (LTPP)". May 26, 2016. Retrieved November 10, 2017.

المراجع

  • Adèr, Herman J. (2008a). "Chapter 14: Phases and initial steps in data analysis". In Adèr, Herman J.; Mellenbergh, Gideon J.; Hand, David J (eds.). . Huizen, Netherlands: Johannes van Kessel Pub. pp. 333–356. ISBN . OCLC 905799857.
  • Adèr, Herman J. (2008b). "Chapter 15: The main analysis phase". In Adèr, Herman J.; Mellenbergh, Gideon J.; Hand, David J (eds.). . Huizen, Netherlands: Johannes van Kessel Pub. pp. 357–386. ISBN . OCLC 905799857.
  • Tabachnick, B.G. & Fidell, L.S. (2007). Chapter 4: Cleaning up your act. Screening data prior to analysis. In B.G. Tabachnick & L.S. Fidell (Eds.), Using Multivariate Statistics, Fifth Edition (pp. 60–116). Boston: Pearson Education, Inc. / Allyn and Bacon.

قراءات إضافية

At Wikiversity, you can learn about: تحليل البيانات
  • Adèr, H.J. & Mellenbergh, G.J. (with contributions by D.J. Hand) (2008). Advising on Research Methods: A Consultant's Companion. Huizen, the Netherlands: Johannes van Kessel Publishing.
  • Chambers, John M.; Cleveland, William S.; Kleiner, Beat; Tukey, Paul A. (1983). Graphical Methods for Data Analysis, Wadsworth/Duxbury Press. ISBN 0-534-98052-X
  • Fandango, Armando (2008). Python Data Analysis, 2nd Edition. Packt Publishers.
  • Juran, Joseph M.; Godfrey, A. Blanton (1999). Juran's Quality Handbook, 5th Edition. New York: McGraw Hill. ISBN 0-07-034003-X
  • Lewis-Beck, Michael S. (1995). Data Analysis: an Introduction, Sage Publications Inc, ISBN 0-8039-5772-6
  • NIST/SEMATECH (2008) ,
  • Pyzdek, T, (2003). Quality Engineering Handbook, ISBN 0-8247-4614-7
  • Richard Veryard (1984). Pragmatic Data Analysis. Oxford : Blackwell Scientific Publications. ISBN 0-632-01311-7
  • Tabachnick, B.G.; Fidell, L.S. (2007). Using Multivariate Statistics, 5th Edition. Boston: Pearson Education, Inc. / Allyn and Bacon, ISBN 978-0-205-45938-4

نطقب:Data

تاريخ النشر: 2020-06-06 04:51:36
التصنيفات: صفحات بأخطاء في المراجع, Portal templates with all redlinked portals, تحليل البيانات, منهج علمي, حقول الدراسة الحاسوبية

مقالات أخرى من الموسوعة

سحابة الكلمات المفتاحية، مما يبحث عنه الزوار في كشاف:

آخر الأخبار حول العالم

عمرو أديب يتوقع أشياءً غريبة ستحدث قريبًا: ناس ماتت هترجع تاني!

المصدر: المصريون - مصر التصنيف: غير مصنف
تاريخ الخبر: 2023-02-04 15:22:41
مستوى الصحة: 46% الأهمية: 57%

حرس الحدود الأوكراني: إحباط محاولات روسية لاختراق الحدود الش

المصدر: مصراوى - مصر التصنيف: غير مصنف
تاريخ الخبر: 2023-02-04 15:23:12
مستوى الصحة: 45% الأهمية: 68%

أسعار تذاكر قطار تالجو على خط القاهرة الأقصر.. إنفوجراف

المصدر: اليوم السابع - مصر التصنيف: غير مصنف
تاريخ الخبر: 2023-02-04 15:23:06
مستوى الصحة: 38% الأهمية: 46%

انقطاع الكهرباء عن عشرات الآلاف في التشيك إثر سقوط الأشجار ع

المصدر: مصراوى - مصر التصنيف: غير مصنف
تاريخ الخبر: 2023-02-04 15:23:24
مستوى الصحة: 54% الأهمية: 50%

موعد مباراة الأهلى وسياتل الأمريكى فى كأس العالم للأندية بعد التعديل

المصدر: اليوم السابع - مصر التصنيف: غير مصنف
تاريخ الخبر: 2023-02-04 15:23:07
مستوى الصحة: 31% الأهمية: 44%

السفير الروسي بواشنطن: أمريكا تسعى لتصعيد الصراع عمدا في أوك

المصدر: مصراوى - مصر التصنيف: غير مصنف
تاريخ الخبر: 2023-02-04 15:23:16
مستوى الصحة: 59% الأهمية: 65%

القضاء ينظر دعوى وقف قرار تغيير ديانة "الطفل شنودة" للإسلام

المصدر: المصريون - مصر التصنيف: غير مصنف
تاريخ الخبر: 2023-02-04 15:22:40
مستوى الصحة: 48% الأهمية: 55%

طريقة احتساب درجات الطلاب بامتحانات صفوف النقل للفصل الدراسى الأول

المصدر: اليوم السابع - مصر التصنيف: غير مصنف
تاريخ الخبر: 2023-02-04 15:22:57
مستوى الصحة: 35% الأهمية: 47%

الإعلام العبري "يُلمحّ" إلى قرب تطبيع دولتين إسلاميتين مع إسرائيل

المصدر: أخبارنا المغربية - المغرب التصنيف: سياسة
تاريخ الخبر: 2023-02-04 15:23:33
مستوى الصحة: 69% الأهمية: 77%

الكلية الفنية العسكرية توقع بروتوكول تعاون مع جامعة الجلالة

المصدر: وطنى - مصر التصنيف: غير مصنف
تاريخ الخبر: 2023-02-04 15:22:37
مستوى الصحة: 57% الأهمية: 54%

البابا فرنسيس يدعو رجال الدين في جنوب السودان إلى الوقوف في

المصدر: مصراوى - مصر التصنيف: غير مصنف
تاريخ الخبر: 2023-02-04 15:23:21
مستوى الصحة: 58% الأهمية: 54%

بالاسم ورقم الجلوس.. نتيجة الشهادة الإعدادية بالإسماعيلية

المصدر: اليوم السابع - مصر التصنيف: غير مصنف
تاريخ الخبر: 2023-02-04 15:22:58
مستوى الصحة: 38% الأهمية: 44%

باكستان تحجب "ويكيبيديا" بسبب محتوى ينطوي على تجديف

المصدر: مصراوى - مصر التصنيف: غير مصنف
تاريخ الخبر: 2023-02-04 15:23:33
مستوى الصحة: 48% الأهمية: 65%

البرتغال تتعهد بإرسال دبابات ليوبارد لأوكرانيا

المصدر: مصراوى - مصر التصنيف: غير مصنف
تاريخ الخبر: 2023-02-04 15:23:28
مستوى الصحة: 47% الأهمية: 67%

تحميل تطبيق المنصة العربية