تحليل البيانات

عودة للموسوعة

تحليل البيانات

تحليل البيانات Data analysis، هي عملية فحص، تطهير، تحويل ونمذجة البيانات بهدف الكشف عن المعلومات المفيدة، استنباط الاستنتاجات ودعم اتخاذ القرارات. لتحليل البيانات جوانب وأساليب متعددة، تضم تقنيات متنوعة تحت مجموعة متنوعة من الأسماء، ويستخدم في مجالات تجارية وفهمية وفهمية اجتماعية مختلفة. في عالم الأعمال اليوم، يلعب تحليل البيانات دوراً هاماً في اتخاذ قرارات أكثر فهمية ومساعدة الشركات على العمل بشكل أكثر فعالية.

التنقيب في البيانات هي تقنية معينة لتحليل البيانات هجرز على نمذجة واكتشاف الفهم لأغراض تنبؤية وليست وصفية بحتة، بينما يغطي ذكاء الأعمال تحليل البيانات الذي يعتمد بشكل كبير على التجميع، مع الهجريز بشكل أساسي على معلومات الأعمال.

أنواع تحليل البيانات

  • تحليل وصفي: يُراد منه وصف ملخص للبيانات ولا يحتاج إيجاد تفسيرات لها، مثل ما يقدمه تحليل البيانات لإحصاء السكاني لبلد معين، حيث لا يقدم التحليل أكثر من خلاصة لما يضمه إستبيان الاحصاء من جنس، وعمر، وعنوان وغيرها.
  • تحليل إستكشافي: تحليل البيانات الاستكشافي يحاول إيجاد علاقات، اكتشافات، ارتباطات، ميول من القياسات لعدة متغيرات بغرض إيجاد أفكار وفرضيات معينة. مثال على التحليل الاستكشافي هوما قام به مجموعة من الهواة الذين حللوا بيانات فضائية كثيرة جمعها مقراب كبلر فوجدوا نظاماً شمسياً من أربعة كواكب من خلال تحليل خصائص الضوء.
  • تحليل إستنتاجي: أحد أكثر تحليلات البيانات شيوعاً في البحوث الفهمية، ويمضى إلى ما وراء التحليل الاستكشافي ليرى إذا كانت الأنماط المكتشفة صالحة لكي تكون وراء مجاميع البيانات المتوفرة. مثال عليه كشف العلاقة بين التلوث البيئي ومتوسط العمر على مستوى الولايات في الولايات المتحدة. يقوم هذا التحليل بتقييس واحتساب العلاقات المتنوعة بين القياسات المتوفرة.
  • تحليل تنبؤي: بينما يقوم النوع السابق بتقييس العلاقات واحتساب قيمها، يقوم التحليل التنبؤي بتسقط قياسات معينة من قياسات موجودة. مثلاً ما تقوم به مؤسسات الاحصاء في تنبؤ نتيجة الانتخابات من خلال تحليل سلوك التنبؤ الذي تتم ملاحظته في الإستبيانات.
  • تحليل سببي: يقوم هذا التحليل بإحتساب مقاييس معينة طالما تغير مقاييس أخرى، مثلاً إحتساب تأثير ممارسة طبية معينة على تقليل الإصابة بسقم معين.
  • تحليل ميكانيكي: يقوم التحليل السببي السابق بإيجاد علاقة لها نسبة معينة من الحدوث وعلى أثر بيانات قد تكون ضخمة جداً، مثلاً على مدى عقود تقول البيانات حتى التدخين يؤدي إلى الإصابة بالسرطان، لكن الأمر ليس مؤكداً فقد لا تموت بالسرطان رغم تدخينك. ما يقوم به التحليل الميكانيكي هوإيجاد علاقة مؤكدة وحتمين بين قياسين.


الأهداف

يهدف تحليل البيانات إلى اعداد ما يسمى بنموذج بيانات النظام. وتعتبر هذه العملية من الأنشطة الرئيسية لفترة التحليل وتتم نمذجة البيانات غالبا باستخدام النماذج البيانية،أي المخططات والرسوم التي تشبه إلى حد ما مخططات تدفق البيانات .

عملية تحليل البيانات

مخطط بيانات معالجة البيانات الفهمية من Doing Data Science,لسكوت أونيل (2013).



تحديد متطلبات البيانات

هي المستوى الأولي في تحليل البيانات ويقصد بها التعريف والتحديد بنوعية وكمية وغيرها من الأمور المهمة المطلوب توافراها في البيانات المراد تحليلها.مثال: البيانات المطلوبة هل هي ارقام، نصوص ام صور، هل ستكون البيانات محسوبة لشخص واحد ام لكل الاشخاص في هذا المكان، .... الخ من المتطلبات.


تجميع البيانات

The phases of the intelligence cycle used to convert raw information into actionable intelligence or knowledge are conceptually similar to the phases in data analysis.

يتم فيها تجميع البيانات من مصادر مختلفة بحيث تحقق المتطالبات في المستوى الاولي . ومن الممكن ان يقوم بجمعها اشخاص، اوالحصول عليها من خلال التقنيات الحديثة مثل الاقمار الصناعية، اشارات المرور،الانترنت ... الخ.

تنظيم البيانات

بعد فترة تجميع البيانات تبدأ عملية توزيع البيانات في شكل جداول لها صفوف واعمد كما في ملفات Excel.


فحص البيانات

من الضروري فحص البيانات حتي لا تكون المعلومات الناتجة بها اخطاء وغير سليمة. ويتم ذلك من خلال مراجعة البيانات وازالة اوتسليم المغلوطة . البيانات المغلوطة قد تكون ارقام غير سليمة ،بيانات مكررة ،بيانات مرتبات ولكن يوجد بها حروف ابجدية. ومن الممكن التخلص من البيانات المغلوطة بازالة المكرر واعادة حساب الارقام وفي عملية تدخيل البيانات نتأكد ان البيانات المدخلة لها نفس النوع لنفس العمود.


اعداد النموذج المفاهيمي للبيانات

تسمى هذه المستوى أيضا نمذجة بيانات النظام. ويتم خلالها بناء النموذج الذي يعكس الموضوعات(الأمور) الرئيسية للبيانات ، وعلاقاتها مع بعضها البعض.ويسمى التحليل في هذا المستوى بتحليل المضمون أوالمعنى.


تحليل العلاقات

ويتم فيه تحسين النموذج المفاهيمي بإعادة تصميم الكينونات بكيفية تقلل التكرارات وتحول الكينونات إلى علاقات مبسطة يمكن التعامل معها بمرونة وسهولة .وتسمى هذه العملية أيضا تسوية أوتطبيع البيانات وبناء النموذج العلاقي للبيانات.

تصميم قاعدة البيانات

وتهتم بتحويل النموذج العلاقاني إلى توصيف قاعدة بيانات النظام .


التواصل

تصوير البيانات لفهم نتائج تحليل البيانات.


الرسائل الكمومية

منطق رئيسي: تصوير البيانات
A time series illustrated with a line chart demonstrating trends in U.S. federal spending and revenue over time.
A scatterplot illustrating correlation between two variables (inflation and unemployment) measured at points in time.



تقنيات تحليل البيانات الكمومية

  • Check raw data for anomalies prior to performing your analysis;
  • Re-perform important calculations, such as verifying columns of data that are formula driven;
  • Confirm main totals are the sum of subtotals;
  • Check relationships between numbers that should be related in a predictable way, such as ratios over time;
  • Normalize numbers to make comparisons easier, such as analyzing amounts per person or relative to GDP or as an index value relative to a base year;
  • Break problems into component parts by analyzing factors that led to the results, such as DuPont analysis of return on equity.

الأنشطة التحليلية لمستخدمي البيانات

# المهمة وصف
عام
Pro Forma
Abstract
أمثلة
1 Retrieve Value Given a set of specific cases, find attributes of those cases. What are the values of attributes {X, Y, Z, ... in the data cases {A, B, C, ... ? - What is the mileage per gallon of the Ford Mondeo?

- How long is the movie Gone with the Wind?

2 Filter Given some concrete conditions on attribute values, find data cases satisfying those conditions. Which data cases satisfy conditions {A, B, C... ? - What Kellogg's cereals have high fiber?

- What comedies have won awards?

- Which funds underperformed the SP-500?

3 Compute Derived Value Given a set of data cases, compute an aggregate numeric representation of those data cases. What is the value of aggregation function F over a given set S of data cases? - What is the average calorie content of Post cereals?

- What is the gross income of all stores combined?

- How many manufacturers of cars are there?

4 Find Extremum Find data cases possessing an extreme value of an attribute over its range within the data set. What are the top/bottom N data cases with respect to attribute A? - What is the car with the highest MPG?

- What director/film has won the most awards?

- What Marvel Studios film has the most recent release date?

5 Sort Given a set of data cases, rank them according to some ordinal metric. What is the sorted order of a set S of data cases according to their value of attribute A? - Order the cars by weight.

- Rank the cereals by calories.

6 Determine Range Given a set of data cases and an attribute of interest, find the span of values within the set. What is the range of values of attribute A in a set S of data cases? - What is the range of film lengths?

- What is the range of car horsepowers?

- What actresses are in the data set?

7 Characterize Distribution Given a set of data cases and a quantitative attribute of interest, characterize the distribution of that attribute’s values over the set. What is the distribution of values of attribute A in a set S of data cases? - What is the distribution of carbohydrates in cereals?

- What is the age distribution of shoppers?

8 Find Anomalies Identify any anomalies within a given set of data cases with respect to a given relationship or expectation, e.g. statistical outliers. Which data cases in a set S of data cases have unexpected/exceptional values? - Are there exceptions to the relationship between horsepower and acceleration?

- Are there any outliers in protein?

9 Cluster Given a set of data cases, find clusters of similar attribute values. Which data cases in a set S of data cases are similar in value for attributes {X, Y, Z, ... ? - Are there groups of cereals w/ similar fat/calories/sugar?

- Is there a cluster of typical film lengths?

10 Correlate Given a set of data cases and two attributes, determine useful relationships between the values of those attributes. What is the correlation between attributes X and Y over a given set S of data cases? - Is there a correlation between carbohydrates and fat?

- Is there a correlation between country of origin and MPG?

- Do different genders have a preferred payment method?

- Is there a trend of increasing film length over the years?

11 Contextualization Given a set of data cases, find contextual relevancy of the data to the users. Which data cases in a set S of data cases are relevant to the current users' context? - Are there groups of restaurants that have foods based on my current caloric intake?

عقبات التحليل الفعال

الخلط بين الحقيقة والرأي

You are entitled to your own opinion, but you are not entitled to your own facts.

Daniel Patrick Moynihan


التحيزات المعهدية

عدم فهم القواعد الحسابية

موضوعات أخرى

المباني الذكية

التحليل وذكاء الأعمال

منطق رئيسي: تحليل (فهم الحاسوب)


التعليم

الأنشطة التحليلية لتصوير بيانات المستخدمين.


ملاحظات الممارس

تحليل البيانات الأولية

تحليل البيانات الرئيسية

برمجيات حرة لتحليل البيانات

  • DevInfo – a database system endorsed by the United Nations Development Group for monitoring and analyzing human development.
  • ELKI – data mining framework in Java with data mining oriented visualization functions.
  • KNIME – the Konstanz Information Miner, a user friendly and comprehensive data analytics framework.
  • أورانج – A visual programming tool featuring interactive data visualization and methods for statistical data analysis, data mining, and machine learning.
  • Pandas – Python library for data analysis
  • PAW – FORTRAN/C data analysis framework developed at CERN
  • R – a programming language and software environment for statistical computing and graphics.
  • ROOT – C++ data analysis framework developed at CERN
  • SciPy – Python library for data analysis

المسابقات الدولية لتحليل البيانات

  • Kaggle competition held by Kaggle
  • LTPP data analysis contest held by FHWA and ASCE.

انظر أيضاً

  • Actuarial science
  • Analytics
  • Big data
  • Business intelligence
  • Censoring (statistics)
  • Computational physics
  • Data acquisition
  • Data blending
  • Data governance
  • Data mining
  • Data Presentation Architecture
  • Data science
  • Digital signal processing
  • Dimension reduction
  • Early case assessment
  • Exploratory data analysis
  • Fourier analysis
  • Machine learning
  • Multilinear PCA
  • Multilinear subspace learning
  • Multiway data analysis
  • Nearest neighbor search
  • Nonlinear system identification
  • Predictive analytics
  • Principal component analysis
  • Qualitative research
  • Scientific computing
  • Structured data analysis (statistics)
  • System identification
  • Test method
  • Text analytics
  • Unstructured data
  • Wavelet

المصادر

الهوامش

  1. ^ Xia, B. S., & Gong, P. (2015). Review of business intelligence through data analysis. Benchmarking, 21(2), 300-311. doi:10.1108/BIJ-08-2012-0050
  2. ^ Exploring Data Analysis
  3. ^ Adèr, 2008, p. 334-335.
  4. ^ Grandjean, Martin (2014). "La connaissance est un réseau" (PDF). Les Cahiers du Numérique. 10 (3): 37–54. doi:10.3166/lcn.10.3.37-54.
  5. ^ خطأ استشهاد: وسم <ref> غير سليم؛ لا نص تم توفيره للمراجع المسماة Koomey1
  6. ^ خطأ استشهاد: وسم <ref> غير سليم؛ لا نص تم توفيره للمراجع المسماة ConTaaS
  7. ^ "The machine learning community takes on the Higgs". Symmetry Magazine. July 15, 2014. Retrieved 14 January 2015.
  8. ^ Nehme, Jean (September 29, 2016). "LTPP International Data Analysis Contest". Federal Highway Administration. Retrieved October 22, 2017.
  9. ^ "Data.Gov:Long-Term Pavement Performance (LTPP)". May 26, 2016. Retrieved November 10, 2017.

المراجع

  • Adèr, Herman J. (2008a). "Chapter 14: Phases and initial steps in data analysis". In Adèr, Herman J.; Mellenbergh, Gideon J.; Hand, David J (eds.). . Huizen, Netherlands: Johannes van Kessel Pub. pp. 333–356. ISBN . OCLC 905799857.
  • Adèr, Herman J. (2008b). "Chapter 15: The main analysis phase". In Adèr, Herman J.; Mellenbergh, Gideon J.; Hand, David J (eds.). . Huizen, Netherlands: Johannes van Kessel Pub. pp. 357–386. ISBN . OCLC 905799857.
  • Tabachnick, B.G. & Fidell, L.S. (2007). Chapter 4: Cleaning up your act. Screening data prior to analysis. In B.G. Tabachnick & L.S. Fidell (Eds.), Using Multivariate Statistics, Fifth Edition (pp. 60–116). Boston: Pearson Education, Inc. / Allyn and Bacon.

قراءات إضافية

At Wikiversity, you can learn about: تحليل البيانات
  • Adèr, H.J. & Mellenbergh, G.J. (with contributions by D.J. Hand) (2008). Advising on Research Methods: A Consultant's Companion. Huizen, the Netherlands: Johannes van Kessel Publishing.
  • Chambers, John M.; Cleveland, William S.; Kleiner, Beat; Tukey, Paul A. (1983). Graphical Methods for Data Analysis, Wadsworth/Duxbury Press. ISBN 0-534-98052-X
  • Fandango, Armando (2008). Python Data Analysis, 2nd Edition. Packt Publishers.
  • Juran, Joseph M.; Godfrey, A. Blanton (1999). Juran's Quality Handbook, 5th Edition. New York: McGraw Hill. ISBN 0-07-034003-X
  • Lewis-Beck, Michael S. (1995). Data Analysis: an Introduction, Sage Publications Inc, ISBN 0-8039-5772-6
  • NIST/SEMATECH (2008) ,
  • Pyzdek, T, (2003). Quality Engineering Handbook, ISBN 0-8247-4614-7
  • Richard Veryard (1984). Pragmatic Data Analysis. Oxford : Blackwell Scientific Publications. ISBN 0-632-01311-7
  • Tabachnick, B.G.; Fidell, L.S. (2007). Using Multivariate Statistics, 5th Edition. Boston: Pearson Education, Inc. / Allyn and Bacon, ISBN 978-0-205-45938-4

نطقب:Data

تاريخ النشر: 2020-06-06 04:51:36
التصنيفات: صفحات بأخطاء في المراجع, Portal templates with all redlinked portals, تحليل البيانات, منهج علمي, حقول الدراسة الحاسوبية

مقالات أخرى من الموسوعة

سحابة الكلمات المفتاحية، مما يبحث عنه الزوار في كشاف:

آخر الأخبار حول العالم

77 ناديًا مؤهلاً للدخول في مرحلة جمع النقاط الموحد

المصدر: صحيفة اليوم - السعودية التصنيف: مجتمع
تاريخ الخبر: 2021-02-08 14:31:16
مستوى الصحة: 42% الأهمية: 35%

ذكرى أحداث ساقية سيدي يوسف… سعيد لتبون: تونس والجزائر شعب واحد

المصدر: تونس الرقمية - تونس التصنيف: مجتمع
تاريخ الخبر: 2021-02-08 14:33:07
مستوى الصحة: 46% الأهمية: 65%

‫بنزرت: إحالة 6 أشخاص على أنظار الوحدة الوطنية لمكافحة الإرهاب

المصدر: جوهرة أف أم - تونس التصنيف: مجتمع
تاريخ الخبر: 2021-02-08 14:33:14
مستوى الصحة: 43% الأهمية: 48%

ضبط 26 مركبة محملة بالحطب المحلي المعروض للبيع

المصدر: صحيفة اليوم - السعودية التصنيف: مجتمع
تاريخ الخبر: 2021-02-08 14:30:57
مستوى الصحة: 32% الأهمية: 36%

الأرواح ليست لعبة..”فاجعة” طنجة تثير غضب المغاربة

المصدر: كِشـ24 - المغرب التصنيف: سياسة
تاريخ الخبر: 2021-02-08 15:11:18
مستوى الصحة: 43% الأهمية: 41%

هل يتم الإفراج عن سامي الفهري اليوم؟

المصدر: أم تونيزيا - تونس التصنيف: مجتمع
تاريخ الخبر: 2021-02-08 14:33:25
مستوى الصحة: 32% الأهمية: 40%

ثقافي / تعليم تبوك ينفذ ورشة عمل لتعزيز المهارات القرائية والكتابية للطلبة

المصدر: وكالة الأنباء السعودية - السعودية التصنيف: سياسة
تاريخ الخبر: 2021-02-08 14:30:50
مستوى الصحة: 52% الأهمية: 56%

ذاكر لهيذب: كورونا سيصبح “مجرّد ذكرى” إن تمّ الالتزام بهذا الإجراء

المصدر: تونس الرقمية - تونس التصنيف: مجتمع
تاريخ الخبر: 2021-02-08 14:33:06
مستوى الصحة: 45% الأهمية: 70%

‫نائب عن قلب تونس : المشيشي لم يخطئ أبدا حتى اليوم

المصدر: جوهرة أف أم - تونس التصنيف: مجتمع
تاريخ الخبر: 2021-02-08 14:33:15
مستوى الصحة: 35% الأهمية: 47%

الصحة: تعافي 298 من كورونا وتسجيل 356 إصابة

المصدر: صحيفة اليوم - السعودية التصنيف: مجتمع
تاريخ الخبر: 2021-02-08 14:30:55
مستوى الصحة: 43% الأهمية: 39%

المشيشي يُوجه تذكيرا بموعد اداء اليمين الى رئيس الجمهورية

المصدر: أم تونيزيا - تونس التصنيف: مجتمع
تاريخ الخبر: 2021-02-08 14:33:25
مستوى الصحة: 30% الأهمية: 50%

عمليه ناجحه للفرج

المصدر: صحيفة اليوم - السعودية التصنيف: مجتمع
تاريخ الخبر: 2021-02-08 14:31:14
مستوى الصحة: 34% الأهمية: 36%

‫ القصرين : 3 مصابين جدُد في حادثة القوارص

المصدر: جوهرة أف أم - تونس التصنيف: مجتمع
تاريخ الخبر: 2021-02-08 14:33:16
مستوى الصحة: 39% الأهمية: 43%

تونس : عبد السلام اليونسي يُفاجئ جماهير النادي الإفريقي

المصدر: تونس الرقمية - تونس التصنيف: مجتمع
تاريخ الخبر: 2021-02-08 14:33:07
مستوى الصحة: 55% الأهمية: 64%

«الصحة»: 3 وفيات و996 إصابة جديدة بـفيروس كورونا

المصدر: الراي - الكويت التصنيف: مجتمع
تاريخ الخبر: 2021-02-08 14:34:01
مستوى الصحة: 55% الأهمية: 60%

سمو أمير البلاد يعزي رئيس جمهورية الهند بضحايا انهيار كتلة جليدية

المصدر: كويت نيوز - الكويت التصنيف: مجتمع
تاريخ الخبر: 2021-02-08 14:34:23
مستوى الصحة: 53% الأهمية: 53%

إغلاق 103 منشآت خالفت التدابير الوقائية في جدة 

المصدر: صحيفة اليوم - السعودية التصنيف: مجتمع
تاريخ الخبر: 2021-02-08 14:30:53
مستوى الصحة: 31% الأهمية: 42%

منصة الكراس التعليمية