بيانات ضخمة

عودة للموسوعة

بيانات ضخمة

A visualization of Wikipedia edits created by IBM. At multiple terabytes in size, the text and images of Wikipedia are a classic example of big data.

البيانات الضخمة Big data، هومصطلح تام لأي مجموعة بيانات ضخمة ومعقدة للغاية والتي من الصعوبة معالجتها باستخدام التطبيقات التقليدية لمعالجة البيانات.

حيث تضم التحديات الالتقاط، والمدة، والتخزين، والبحث، والمشاركة، والنقل، والتحليل والتصور. ويرجع الاتجاه إلي مجموعات البيانات الضخمة بسبب المعلومات الإضافية المشتقة من تحليل مجموعة واحدة كبيرة من البيانات ذات الصلة، بالمقارنة مع المجموعات المنفصلة الأصغر حجماً مع نفس الحجم الإجمالي للبيانات، مما يسمح بوجود ارتباطات تكشف "الاتجاهات التجارية المحورية، وتحديد جودة البحث، وربط الاستشهادات القانونية، ومكافحة الجريمة وتحديد ظروف حركة تدفق البيانات في الوقت الحقيقي".

اعتباراً من عام 2012، كانت الحدود المفروضة على حجم مجموعات البيانات الملائمة للمعالجة في مدة معقولة من الوقت خاضعة لوحدة قياس البيانات إكسابايت. عادة ما يقابل الفهماء عددا من القيود بسبب مجموعات البيانات الضخمة الموجودة في الكثير من المجالات، والتي تتضمن الأرصاد الجوية(فهم الطقس)، وفهم الجينات(فهم الجينوم)، والمحاكاة الفيزيائية. المعقدة والبحوث البيولوجية والبيئية, وتؤثر القيود أيضاً علي درس الانترنت(محرك بحث)، وتقنية الأعمال التجارية والتمويل. وتنمومجموعات البيانات في الحجم بشكل جزئي، ويرجع ذلك لأنها يتم جمعها بشكل متزايد عن طريق أجهزة استشعار المعلومات المتنقلة، والتقنيات الحسية الجوية (الاستشعار عن بعد)، وسجلات البرامج، والكاميرات، والميكروفونات، وأجهزة تحديد ذبذبات الإرسال(تحديد الهوية بإستخدام موجات الراديو) وشبكات استشعار اللاسلكية. وتضاعفت القدرة التكنولوجية العالمية لتخزين المعلومات للفرد الواحد تقريباً جميع 40 شهر من الثمانينات، واعتباراً من عام 2012، ينشيء 2.5 كوينتيليون بايت ( 2.5 × 1018) من البيانات يوميا. والتحدي بالنسبة للشركات الكبيرة هوتحديد من يجب حتى يمتلك مبادرات البيانات الضخمة التي تنتشر على المنظمة بأكملها.

من الصعب العمل مع البيانات الضخمة باستخدام معظم أنظمة إدارة قواعد البيانات العلائقية وإحصائيات سطح المخط وحزم المحاكاة، حيث يحتاج الأمر بدلاً من ذلك "برامج متوازية واسعة النطاق تعمل على عشرات أومئات أوحتي آلاف الخوادم". وما يُعتبر "بيانات ضخمة" يختلف باختلاف قدرات المنظمة التي تقوم بإدارة المجموعة، وعلي قدرات التطبيقات التي تستخدم بشكل تقليدي لمعالجة وتحليل مجموعة البيانات في النطاق الخاص بها. "فبالنسبة لبعض المنظمات، من الممكن تؤدي لقاءة مئات الغيغا بايت من البيانات لأول مرة إلى إعادة النظر في خيارات إدارة البيانات. وبالنسبة للبعض الآخر، من الممكن يستغرق الأمر عشرات أومئات تيرابايت من البيانات قبل حتى يصبح حجم البيانات شأناً مهماً".

التعريف

البيانات الضخمة عادة ما تتضمن مجموعات بيانات ذات أحجام تتخطي قدرة البرامج التي يشيع استخدامها لالتقاط وإدارة ومعالجة البيانات في غضون فترة زمنية مقبولة. وبالنسبة لأحجام البيانات الضخمة فهي هدف متحرك باستمرار، فاعتباراً من عام 2012، يتراوح حجمها بين بضع عشرات من تيرابايت إلي الكثير من بيتابايت من البيانات في مجموعة واحدة فقط. ومع هذه الصعوبة، يتم تطوير منصات حديث من أدوات "البيانات الضخمة" للتعامل مع مختلف الجوانب الخاصة بالكميات الكبيرة من البيانات.

في تقرير بحثي وعدد من المحاضرات المتعلقة به عام 2001، قام "دوغ لاني" محلل مجموعة META Group (المعروفة الآن باسم Gartner) بتعريف تحديات نموالبيانات وفرصها كعنصر ثلاثي الأبعاد، بمعني زيادة الحجم (كمية البيانات)، السرعة (سرعة البيانات الصادرة والواردة) والتنوع (تنوع أنواع البيانات ومصادرها). وتقوم Gartner والكثير من الشركات في هذه الصناعة الآن بالاستمرار في استخدام نموذج "3Vs" لوصف البيانات الضخمة. وفي 2012، قامت Gartner بتحديث تعريفها ليصبح كالتالي: "البيانات الضخمة هي أصول معلومات كبيرة الحجم، عالية السرعة، و/أوعالية التنوع تتطلب أشكال جديدة من المعالجة لتعزيز عملية خلق القرار والفهم العميق وتحسين العملية".

تعريف TBDI للبيانات الضخمة: البيانات الضخمة هومصطلح ينطبق علي الأجسام الضخمة للبيانات التي تتنوع في طبيعتها سواء أكانت منظمة، غير منظمة أوشبه منظمة، بما في ذلك من المصادر الداخلية أوالخارجية للمنظمة، ويتم توليدها بدرجة عالية من السرعة مع نموذج مضطرب، والتي لا تتفق تماماً مع مخازن البيانات التقليدية والمنظمة وتتطلب نظام إيكولوجي قوي ومعقد مع منصة حوسبة عالية الأداء وقدرات تحليلية للالتقاط ومعالجة وتحويل وكشف واستخلاص القيمة والرؤى العميقة في غضون وقت زمني مقبول".


أمثلة

تتضمن الأمثلة الفهم الضخم، سجلات الويب، تحديد الهوية بإستخدام موجات الراديوبالإنگليزية: RFID، شبكات الاستشعار، الشبكات الاجتماعية، البيانات الاجتماعية (يرجع هذا لثورة البيانات الاجتماعية)، نصوص الانترنت والوثائق، فهرسة درس الانترنت، تفاصيل سجلات الاتصال، فهم الفلك، علوم الغلاف الجوي، فهم الجينات، العلوم الكيميائية والبيولوجية وغيرها من البحوث المعقدة وأغلبية المراقبات العسكرية، السجلات الطبية، أرشيفات الصور والتجارة الإلكترونية واسعة النطاق.

العلوم الضخمة

تُمثل تجارب مصادم الهدرونات الكبير بالإنگليزية: Large Hadron Collider حوالي 150 مليون جهاز استشعار تقدم بيانات 40 مليون مرة في الثانية الواحدة. وهناك ما يقرب من 600 مليون تصادم في الثانية الواحدة. وبعد تصفية وتنقيح تسجيلات أكثر من 99.999% من هذه التدفقات، نجد حتى هناك 100 تعارض للفائدة في الثانية الواحدة.

  • ونتيجة لذلك، بالعمل مع أقل من 0.001% فقط من بيانات تيار الاستشعار، فإن تدفق البيانات من جميع تجارب LHC الأربعة يمثل 25 بيتابايت المعدل السنوي قبل النسخ المتماثل (اعتباراً من 2012). وهذا يصبح تقريباً 200 بيتابايت بعد النسخ المتماثل.
  • وإذا تصورنا حتى جميع بيانات الاستشعار كان سيتم تسجيلها في LHC، فإن تدفق البيانات كان سيصعب العمل معه للغاية. حيث سيتجاوز تدفق البيانات 150 مليون بيتابايت المعدل السنوي، أوما يقرب من 500 إكسابايت في اليوم الواحد، قبل النسخ المتماثل. وبالنظر للرقم بشكل نظري، فإنه يصبح مُعادل لـ 500 كوينتيليون بايت (5 x 1020) في اليوم، وهورقم أعلي 200 مرة تقريباً من جميع المصادر الأخري المجتمعة في العالم.

العلوم الأبحاث

  • عندما بدأ مسح سلووان الرقمي للسماء بالإنگليزية: SDSS بجمع البيانات الفلكية في عام 2000، فإنه قد جمع بيانات في أسابيعه القليلة الأولي أكثر مما تم جمعه في تاريخ فهم الفلك بأكمله. ومع استمراره بمعدل 200 جيجا بايت في الليلة، جمع SDSS أكثر من 140 تيرابايت من المعلومات. وعندما يأتي Large Synoptic Survey Telescope خليفة SDSS إلي أرض الواقع في عام 2016، فمن المتسقط حتى يقوم بجمع هذه الكمية من البيانات جميع خمسة أيام.
  • إن فك رموز الجين البشري تستغرق عادةعشرة سنوات حتي تتم العملية، ولكن الآن فإن هذه العملية يمكن إنجازها في أسبوع واحد.
  • بالنسبة للعلوم الاجتماعية الحسابية – استخدم "توبياس بريس" وآخرون بيانات اتجاهات جوجل بالإنگليزية: Google Trends لإثبات حتى مستخدمي الإنترنت من البلدان التي لديها ناتج محلي إجمالي أعلي للفرد (GDP) يتجهون للبحث عن معلومات حول المستقبل أكثر من المعلومات المتعلقة بالماضي. وتشير النتائج إلي أنه قد يحدث هناك ارتباط بين السلوك عبر شبكة الانترنت والمؤشرات الاقتصادية في العالم الحقيقي. وقد قام مؤلفوهذه الدراسة بفحص تسجيلات جوجل المصنوعة من قبل مستخدمي الإنترنت في 45 دولة مختلفة عام 2010، وقاموا بحساب نسبة حجم البحث للسنة التالية "2011" مقارنة بحجم البحث في السنة السابقة "2009" والذي أطلق عليه اسم "مؤشر التوجه المستقبلي". ثم قاموا بمقارنة التوجه المستقبلي مع الناتج المحلي الإجمالي للفرد الواحد في جميع بلد، حيث وجدوا اتجاه قوي للبلدان التي يقوم فيها مستخدمي جوجل بالبحث عن المستقبل بالحصول علي ناتج محلي إجمالي أعلي. وتُلمح النتائج لاحتمال وجود علاقة بين النجاح الاقتصادي للبلد وسلوك مواطنيها في البحث عن المعلومات المأسورة في البيانات الضخمة.

الحكومات

  • في عام 2012، أعربت إدارة أوباما عن مبادرة التنمية وبحوث البيانات الضخمة والتي تناولت كيفية استخدام البيانات الضخمة لمعالجة المشاكل الهامة التي تقابل الحكومة وقد تألفت المبادرة من 84 برنامج مختلف للبيانات الضخمة موزعة عليستة دوائر.
  • والجدير بالذكر، حتى تحليل البيانات الضخمة قد لعب دوراً كبيراً في حملة إعادة انتخاب باراك أوباما الناجحة عام 2012.
  • وتمتلك الحكومة الاتحادية للولايات المتحدةستة من أصلعشرة أجهزة كمبيوتر تُعد هي الأكثر نفوذا في العالم والتي يُطلق عليها " Supercomputers".
  • وتقوم وكالة الأمن الوطني الأمريكي حالياً ببناء مركز بيانات يوتاه " Utah Data Center"، والذي سيكون قادر علي التعامل مع معلومات تقدر مساحاتها بـ يوتابايت والتي جمعتها وكالة الأمن القومي عبر الإنترنت.

القطاع الخاص

Bus wrapped with SAP Big data parked outside IDF13.
  • يقوم أمازون (مسقط) Amazon.com بمعالجة ملايين العمليات الخلفية جميع يوم، فضلاً عن استفسارات من أكثر من نصف مليون بائع طرف ثالث. وتعتمد أمازون علي تقنية اللينكس بشكل أساسي كي تعمل وسط هذا الكم الضخم من البيانات، واعتباراً من 2005 كانت أمازون تمتلك أكبر ثلاثة قواعد بيانات لينكس في العالم والتي تصل سعتها إلي 7.8، 18.5 و24.7 تيرابايت.
  • ومن ناحية أخري، يقوم متجر وول مارت Walmart بمعالجة أكثر من مليون معاملة تجارية جميع ساعة، والتي يتم استيرادها إلي قواعد بيانات يُقدر أنها تحتوي علي أكثر من 2.5 بيتابايت (2560 تيرابايت) من البيانات – وهوما يوازي 167 ضعف البيانات الواردة في جميع الخط الموجودة في مخطة الكونغرس في الولايات المتحدة.
  • أما الفيسبوك فيعالج 50 مليار صورة من قاعدة مستخدميه. ويقوم نظام حماية بطاقات الائتمان من الاحتيال " FICO Falcon Credit Card Fraud Detection System" بحماية 2.1 مليار حساب نشط في جميع أنحاء العالم.
  • ووفقاً لأحدث الإحصائيات، فإن حجم البيانات التجارية في جميع أنحاء العالم، عبر جميع الشركات، يتضاعف حجمها جميع 1.2 سنة.
  • وتقوم شركة Windermere Real Estate باستخدام إشارات GPS مجهولة من ما يقرب من 100 مليون سائق لمساعدة مشتري المنازل الجدد لتحديد أوقات قيادتهم من وإلي العمل خلال الأوقات المتنوعة لليوم.


التنمية الدولية

بعد عقود من العمل في مجال الاستخدام الفعال لتكنولوجيا المعلومات والاتصالات من أجل التنمية (أوICT4D)، فقد قيل أنه يمكن للبيانات الضخمة حتى تسهم إسهاماً كبيراً في التنمية الدولية. من ناحية، فإن ظهور البيانات الضخمة يوفر احتماليات فعالة من حيث التكلفة لتحسين عملية خلق القرار في مجالات التنمية الحيوية مثل الرعاية الصحية، العمالة، الإنتاجية الاقتصاد، الجريمة والأمن، الكوارث الطبيعية وإدارة الموارد. ومن ناحية أخري، فإن جميع المخاوف المتعلقة بالبيانات الضخمة مثل الخصوصية، تحديات التشغيل البيني، والقوة غير محدودة للخوارزميات المنقوصة تتفاقم في البلدان النامية من خلال تحديات التنمية طويلة الأمد مثل الافتقار إلي البنية التحتية التكنولوجية والاقتصادية بالإضافة لندرة الموارد البشرية. "وهذا أدي إلي إحداث نوع حديث من الفجوات التقنية: فجوة في تقصي البيانات لاتخاذ قرارات مستنيرة".


سوق العمل

لقد تسببت "البيانات الضخمة" في زيادة الطلب علي المتخصصين في إدارة المعلومات لهذا البرنامج الضخم، وقد أنفقت عدد من الشركات العالمية مثل Oracle Corporation، IBM، Microsoft، SAP، EMC وHP أكثر من 15 مليار دولار علي شركات البرمجيات المتخصصة فقط في مجال إدارة البيانات والتحليلات. وفي عام 2010، كانت هذه الصناعة مستقلة بذاتها تساوي أكثر من 100 مليار دولار، كما أنها تنموتقريباً بمعدل 10% سنوياً، أي حوالي ضعفي قطاع البرمجيات ككل.

تقوم البلدان ذات الاقتصاديات المتقدمة باستخدام التقنيات كثيفة البيانات بشكل متزايد. فهناك 4.6 مليار اشتراك للهواتف الننطقة حول العالم، وهناك ما بين 1 مليار إلي 2 مليار إنسان يتصل بالإنترنت. وبين عامي 1990 و2005، أرتقي أكثر من مليار إنسان حول العالم بمكانتهم إلي الطبقة المتوسطة مما يعني حتى هناك الكثير والكثير من الناس الذين يكسبون المال يفترض أن يصبحون أكثر تثقيفاً والذي يؤدي بدوره إلي نموالمعلومات. لقد كانت قدرة العالم الفعالة لتبادل المعلومات من خلال شبكات الاتصال السلكية واللاسلكية هي 281 بيتابايت في 1986، 471 بيتابايت في 1993، 2.2 إكسابايت في عام 2000، 65 إكسابايت في عام 2007 ويتسقط حتى تصل كمية البيانات المتدفقة عبر شبكة الانترنت إلي 667 إكسابايت سنوياً بحلول عام 2013.


العمارة

نظراً لتعقيدات نظم البيانات الضخمة، فقد كان وجود ممارسات متطورة للهندسة المعمارية الخاصة بالبيانات الضخمة أمر لابد منه. إذا الإطار المعماري للبيانات الضخمة (BDAF) هوإطار هيكلي لحلول البيانات الضخمة، والذي يهدف إلي المساعدة في إدارة مجموعة من الأعمال الفنية المتميزة وتطبيق مجموعة من عناصر التصميم المحددة. إذا الغرض من (BDAF) هوفرض الالتزام بنهج تصميم متناسق، الحد من تعقيدات النظام، تعظيم إعادة الاستخدام، تخفيض التبعيات وزيادة الإنتاجية.

إن الإطار المعماري للبيانات الضخمة (BDAF) يضم أربعة أجزاء متكاملة: دومين محدد، منصة، الاعتماد علي التفعيل ونموذج محايد تكنولوجياً. وتعتبر مكونات (BDAF) هي نموذج مركزي، تتحكم به الهندسة المعمارية، ويشكل بناء متماسك لمعالجة البيانات الضخمة، بما في ذلك استخراج البيانات، التخزين، المعالجة، التخطيط، التجميع، الإرسال والتواصل، إعداد التقارير، التصور، الرصد، التدفق والتشغيل الآلي.

في عام 2004، نشرت جوجل درس عن عملية تُدعي MapReduce والتي استخدمت هندسة معمارية مثل هذه. حيث يوفر الإطار الخاص بـ MapReduce نموذج برمجة متوازي والتطبيق المرتبط به لمعالجة كمية هائلة من البيانات. من خلال MapReduce، يتم تقسيم الأطروحات وتوزيعها عبر العقد المتوازية ومعالجتها بشكل متواز (خطوة the Map). ثم يتم تجميع النتائج بعد ذلك وتسليمها (خطوة the Reduce). لقد كان الإطار ناجح بشكل مذهل، لذا أراد البعض تكرار تلك الخوارزمية. ولذلك، أعتُمد تطبيق إطار MapReduce من قبل مشروع Apache مفتوح المصدر أطلق عليه اسم Hadoop.

إن MIKE2.0 هونهج مفتوح لإدارة المعلومات يتناول منهجية التعامل مع البيانات الضخمة من حيث التعديل المفيد لمصادر البيانات، التعقيد في العلاقات المتبادلة والصعوبة في حذف (أوتعديل) السجلات الفردية.

تتطلب البيانات الضخمة تقنيات استثنائية لمعالجة الكميات الكبيرة من البيانات بكفاءة ضمن الوقت المسموح. ويشير تقرير ماكينزي 2011 لبعض التقنيات المناسبة التي تتضمن اختبار A/B، تفهم قاعدة المصادقة، التصنيف، التحليل العنقودي، انصهار وتكامل البيانات، الخوارزميات الجينية، التفهم الآلي، معالجة اللغات الطبيعية، الشبكات العصبية، التعهد علي الأنماط، الكشف عن الأمور الشاذة، النمذجة التنبؤية، الانحدار، تحليل وجهات النظر، معالجات الإشارات، التفهم الخاضع والغير خاضع للرقابة، المحاكاة، تحليل السلاسل الزمنية والتصور. إذا البيانات الضخمة متعددة الأبعاد يمكن أيضاً حتى تُمثل مثل tensors، والتي يمكن التعامل معها بكفاءة أكبر من خلال الحسابات التي تعتمد علي الموترة مثل التفهم الفضائي الجزئي متعدد الخطي. والتقنيات الإضافية التي يجري تطبيقها علي البيانات الضخمة تتضمن قواعد بيانات هائلة تتم معالجتها بشكل متوازي (MPP)، التطبيقات المعتمدة علي البحث، شبكات البيانات والتعدين، أنظمة الملفات الموزعة، قواعد البيانات الموزعة، البنية التحتية المعتمدة علي التخزين السحابي (التطبيقات، التخزين ومصادر الحوسبة) والإنترنت.[بحاجة لمصدر]

إن بعض وليس جميع قواعد البيانات العلائقية MPP لديها القدرة علي تخزين وإدارة بيتابايت من البيانات. والمفهوم ضمنياً هوالقدرة علي تحميل، مراقبة، النسخ الاحتياطي، وتحقيق الاستخدام الأمثل لجداول البيانات الضخمة في RDBMS.

إن برنامج تحليل بيانات DARPA يستهدف البنية الأساسية لمجموعات البيانات الهائلة، وفي عام 2008 ظهرت هذه التقنية للجمهور مع انطلاقة شركة تُدعي Ayasdi.

إن ممارسي عمليات تحليل البيانات الضخمة عادة ماقد يكونوا معاديين لمساحات التخزين المشهجرة الأبطأ، مُفضلين مساحات التخزين المتصلة والمباشرة (DAS) في جميع أشكالها المتنوعة بدءاً من محركات الأقراص الصلبة (SSD) وصولاً إلي أقراص الساتا عالية القدرة والموضوعة داخل عقد معالجة متوازية. وإذا نظرنا إلي البنية المعمارية لمساحات التخزين المشهجرة SAN وNAS فسوف نجد أنها بطيئة، معقدة وباهظة الثمن. وهذه الصفات لا تتفق مع أنظمة تحليل البيانات الضخمة التي تقوم علي أداء النظام، البنية التحتية والتكلفة المنخفضة.

إن تسليم المعلومات في الوقت الحقيقي أوشبه الحقيقي هي واحدة من الخصائص المميزة لتحليل البيانات الضخمة. وبالتالي، يتم تجنب الخمول حدثا وحيثما كان ذلك ممكناً. إذا تكلفة SAN في النطاق اللازم لتطبيقات التحليلات تُعد أعلي بكثير جداً من تقنيات التخزين الأخري.

هناك مزايا وكذلك يوجد عيوب لمساحات التخزين المشهجرة في تحليلات البيانات الضخمة، ولكن ممارسي تحليل البيانات الضخمة لم يحبذوا ذلك بدءاً من عام 2011.


الطب

ن للبيانات أهمية حاسمة في مهنة العناية الصحية لتوثيق الأمراض والمعالجة التي يتلقاها آحاد السقمى. وبتنامي محفوظات الصور الطبية بنسبة مئوية تراوح بين 20 و40 في المائة سنوياً يُتسقط للمستشفى المتوسط الحجم حتى يُؤتي في جميع عام 665 تيرابايت من البيانات الطبية بحلول عام 2015. وتكثُر تطبيقات تحليل البيانات الضخمة في مجال العناية الصحية كثرةً تضاهي تعدد وجوهها، سواء على صعيد البحث أم على صعيد الممارسة. عملى سبيل المثال يمكن بنظم مراقبة السقمى عن بُعد في حالات الأمراض المزمنة تقليصُ أعداد الأطباء الموظفين وأعداد استشارات قسم الطوارئ في المستشفى وأعداد الأيام التي تُشغَل فيها الأسرّة ضمن المستشفى، وتحسينُ التحديد في المعالجة، واتّقاءُ بعض التعقيدات الصحية الطويلة الأمد. ويساعد تحليل مجموعات واسعة من البيانات المتعلقة بخصائص السقمى ونتائج المعالجات وتكاليفها على تمييز أنواع العلاج الأكثر فعالية من الناحية السريرية والأنجع بالقياس إلى تكاليفها لكي يجري تطبيقها. كما حتى تحليل أنماط الأمراض العامة لتمييز الاتجاهات في فترة مبكرة أمر حاسم فيما يخص العمل، لا في تدبر أزمات الصحة العامة فحسب بل أيضاً في تمكين القطاع الصيدلاني والقطاع الطبي من وضع نماذج الطلب المقبل على منتجاتهما بمثابة منطلق لاتخاذ القرار بشأن الاستثمار في البحوث التطويرية.

الأنشطة البحثية

في مارس 2012، أعرب البيت الأبيض عن "مبادرة البيانات الضخمة" القومية التي تتألف منستة إدارات ووكالات فيدرالية تودع أكثر من 200 مليون دولار لمشاريع البيانات الضخمة البحثية.

وقد تضمنت المبادرة National Science Foundation "بعثات في الحوسبة" والتي منحتعشرة مليون دولار علي مديخمسة سنوات لمعمل AMPLab كما تلقي AMPLab أيضاً تمويل من DARPA، وأكثر من اثني عشر راعياً صناعياً ويستخدم البيانات الضخمة للقاءة مجموعة واسعة من المشاكل بدءاً من الاختناقات المرورية وحتي مكافحة السرطان.

وضمت مبادرة البيت الأبيض أيضاً التزاماً من وزارة الطاقة لتوفير 25 مليون دولار علي مدارخمسة سنوات لإنشاء معهد إدارة وتحليل وتصور البيانات (SDAV)، والذي يتم قيادته من قبل معمل لورانس بيركلي الوطني التابع لوزارة الطاقة. ويهدف معهد SDAV جمع الخبرات منستة مختبرات وطنية وسبعة جامعات لتطوير أدوات جديدة لمساعدة الفهماء في إدارة وتصور البيانات علي أجهزة الكمبيوتر العملاقة الخاصة بالإدارة.

هذا وقد أعربت ولاية ماساشوستس الأمريكية عن مبادرة ماساشوستس للبيانات الضخمة في مايو2012، والتي توفر التمويل من حكومة الولاية وشركات القطاع الخاص لمجموعة متنوعة من المؤسسات البحثية. وقد استضاف معهد ماساشوستس للتكنولوجيا مركز إنتل للعلوم والتكنولوجيا الخاص بالبيانات الضخمة في مختبر MIT لعلوم الكمبيوتر والذكاء الاصطناعي.

وتقوم المفوضية الأوروبية علي مدار عامين بتمويل منتدي القطاعين العام والخاص للبيانات الضخمة من خلال برنامجهم السابع لإشراك الشركات والأكاديميات وغيرهم من أصحاب المصلحة في مناقشة قضايا البيانات الضخمة. ويهدف المشروع إلي تحديد إستراتيجية خاصة بالبحث والابتكار لتوجيه إجراءات الدعم من المفوضية الأوروبية للتطبيق الناجح لاقتصاد البيانات الضخمة. وسوف تستخدم نتائج هذا المشروع كمدخل لمشروعهم التالي Horizon 2020.

الخصائص

وحتى تكون البيانات ضخمة يجب توفر ثلاثة عوامل رئيسية:

  • الحجم: وهوعدد التيراباتيت من البيانات التي نطلقها يومياً من المحتوى.
  • التنوع: وهوتنوع هذه البيانات ما بين مهيكلة وغير مهيكلة ونصف مهيكلة
  • السرعة: مدى سرعة تواتر حدوث البيانات، مثلاً تختلف سرعة نشر التغريدات عن سرعة مسح أجهزة الاستشعار عن بعد لتغييرات المناخ.

يتم تمييز البيانات الضخمة من خلال الحجم، التنوع، والسرعة. ومن خلال دراسة الحجم الكبير للبيانات يمكن للشركات حتى تفهم زبائنها بشكل أفضل، تخيل مثلاً البحث في بيانات مشتريات مليون إنسان يتعامل مع متجر وول مارت، هذا البحث والتحليل في الكم الضخم من فواتير المشتريات وتكرار المشتريات وتنوعها، سيعطي معلومات مفيدة جداً للإدارة ومتخذي القرار.

وتبرز التحديات أمام أدوات إدارة قواعد البيانات التقليدية في التعامل مع البيانات المتنوعة والسريعة، حيث كانت قواعد البيانات التقليدية تتعامل مع المستندات النصية والأرقام فقط، أما البيانات الضخمة اليوم تحوي أنواع جديدة من البيانات التي لا يمكن تجاهلها، كالصور والمقاطع الصوتية والصوت والصورة والنماذج ثلاثية الأبعاد وبيانات المواقع الجغرافية وغيرها.

ومع تزايد حجم وتنوع البيانات التي تتعامل معها الشركات اليوم وجدت نفسها أمام طريقين، إما تجاهل هذه البيانات، أوالبدء بالتكيف معها تدريجياً لفهمها والإستفادة منها. لكن مع إستخدام الأدوات التقليدية المتبعة سابقاً لا تقدر تحليل والإستفادة من هذه البيانات الجديدة الضخمة.

وعلى سبيل المثال فإن غالبية المتاجر الضخمة والأسواق التجارية التي تتعامل مع بطاقات الولاء، لا تستفيد من هذه البيانات وتعالجها بكيفية تساعدها على فهم المشترين بشكل أفضل لتطوير نموذج بطاقات الولاء.

وأيضاً جميع مقاطع الصوت والصورة التي تسجلها الأجهزة الطبية خلال العمليات الجراحية، لا يتم الإستفادة منها بالشكل المطلوب، بل ويتم حذفها خلال أسابيع.

واليوم تعد Hadoop من أفضل تقنيات التعامل مع البيانات الضخمة، وهي مخطة مفتوحة المصدر مناسبة للتعامل مع البيانات الضخمة المتنوعة والسريعة، وتستخدم شركات كبرى خدمة Hadoop، مثلاً هناك لينكدإن الشبكة الإجتماعية المتخصصة بالوظائف والعمل تستخدم الخدمة من أجل توليد أكثر من 100 مليار مقترح على المستخدمين أسبوعياً. لكن ما الفائدة من البيانات الضخمة،يا ترى؟ تقول IBM حتى البيانات الضخمة تعطيك فرصة إكتشاف رؤى مهمة في البيانات، وتقول أوراكل حتى البيانات الضخمة تتيح للشركات حتى تفهم بعمق أكثر زبائنها.

قدرت شركة سيسكوأنه وبحلول عام 2015 فإن حركة الزيارات على الإنترنت بالشكل الإجمالي ستتجاوز 4.8 زيتابايت (أي 4.8 مليار تيرا بايت ) سنوياً.

المعايير

المعايير سيستلزم تحقيق الأهداف التي حددتها الشركات والمستهلكون في مجال البيانات الضخمة قابلية نظم وتكنولوجيات متعدِّدة للعمل البيني. وقد دشَّنت الأوساط المهتمة بالمعايير عدة مبادرات وأفرقة عمل معنية بالبيانات الضخمة. ففي عام 2012 أنشأ التحالف من أجل أمن الحوسبة السحابية فريق عمل معنياً بالبيانات الضخمة بغية تمييز التقنيات القابلة للتوسيع اللاحق فيما يخص مشكلات الأمن والخصوصية المهجرّزة على البيانات. ويُتوخى من التحرّي الذي سيجريه هذا الفريق تبيان أفضل الممارسات الخاصة بأمن وخصوصية البيانات الضخمة، وتوفير إرشادات للأوساط المهنية والحكومية في اعتماد هذه الممارسات الفضلى. وقد بدأ المعهد الوطني للمعايير والتكنولوجيا في الولايات المتحدة أنشطته في مجال البيانات الضخمة بورشة نُظمت في يونيو2012، ودشَّن فريقَ عمل عمومياً في عام 2013. ويعتزم فريق العمل هذا حتى يدعم اعتماد البيانات الضخمة على نحوآمن وفعّال بالعمل لتحقيق التوافق بشأن التعاريف، والتصانيف، والمعماريات المرجعية الآمنة، وخريطة طريق للتكنولوجيا فيما يخص تقنيات تحليل البيانات الضخمة والبنية التحتية التكنولوجية ذات الصلة. وقد استهلت اللجنة المعنية بمعايير إدارة البيانات وتبادلها ‭(‬SC32‭)‬ المنبثقة عن اللجنة التقنية 1 المشهجرة بين المنظمة الدولية للتوحيد القياسي واللجنة الكهرتقنية الدولية ‭(‬ISO/IEC JTC1‭)‬ دراسة لتحليل الجيل التالي والبيانات الضخمة. وأنشأ اتحاد الشبكة العالمية ‭(‬W3C‭)‬ عدة مجموعات محلية معنية بمختلف جوانب البيانات الضخمة. ويعكف قطاع تقييس الاتصالات التابع للاتحاد الدولي للاتصالات حالياً على تناول آحاد المتطلبات على صعيد البنية التحتية، محيطاً فهماً بالعمل القائم في مجالات منها النقلُ بالألياف البصرية وشبكاتُ النفاذ، والقدراتُ المقبلة في مضمار الشبكات (مثل الربط الشبكي الذي يتحدَّد بالبرامج الحاسوبية)، وتعدُّدُ الوسائط، والأمنُ. ويدرس قطاع تقييس الاتصالات العلاقة بين الحوسبة السحابية والبيانات الضخمة نظراً إلى المتطلبات والقدرات. وتقرن التوصية ITU-T X.1600 بشأن "الإطار الأمني للحوسبة السحابية" التهديدات الأمنية بتقنيات تخفيفها، ويُتسقط حتى تكون حالات استعمال البيانات الضخمة مشمولة بالتقييس المقبل لتقنيات تخفيف الأخطار التي تم وصفها. فقد دُعي في تقرير سابق من مجموعة تقارير رصد التكنولوجيا إلى استعمال تكنولوجيات تعزيز الخصوصية بمثابة وسيلة لإعمال مبدأ "الخصوصية المهيأ لها عند التصميم"، الذي يحظى طبعاً باهتمام كبير في سياق تطبيقات البيانات الضخمة. إن للاتحاد الدولي للاتصالات من عضويته العالمية النطاق، التي تشتمل على الحكومات والجهات المشغِّلة للاتصالات والجهات الصانعة للمعدات والأوساط الأكاديمية ومعاهد البحوث، ما يجعله في وضع مثالي للقيام بمراجعة الممارسات الحالية على صعيد استعمال جمل البيانات المجمَّعة وبوضع المعايير التقنية والسياسات ذات الصلة. وقد عمل الاتحاد الدولي للاتصالات على تسريع جهوده الرامية إلى زيادة قابلية التشغيل البيني في تطبيقات الصحة الإلكترونية في مجالات مثل تبادل البيانات المتعلقة بالصحة وتصميم النظم الصحية الشخصية. وإذا ظل موضوعاً في الاعتبار الازدهارُ الكبير فيما يقبل الحملَ على الجسم من "وسائل الصحة المربوطة بالشبكة" والمنتجات الخاصة باللياقة فقد يمكن للتقييس حتى يتيح الاستعانة بسوار ذكي للقيام بأمور من قبيل تبادل البيانات الآمن مع ساعة ذكية من ماركة أخرى (على نحولا تحبطه الحدود التي تضعها الجهات المورِّدة أوالجهات الصانعة). عندها يمكن لتحليل البيانات الضخمة حتى يدمج دفوق البيانات المجموعة من مختلف الأجهزة ليُستنتج منها على نحودقيق ما يمكن حتى يؤذِن باتّخاذ تدابير نافعة للصحة.

وبعد حتى ضاعفت التوصية نجاعة سابقتها الفائزة بجائزة إيمي، يسير العمل بها جيداً لتصير الكوديك الرائد بين الكوديكات الصوت والصورةية لشبكة الإنترنت. وبالنظر إلى الحصة الكبيرة التي تعود لتعدد الوسائط في مجمل حركة الاتصال عبر الإنترنت فإن التحليل التلقائي للصور الرقمية والبيانات السمعية والبصرية يمثل مجالاً ينبغي حتى يتابع متابعة وثيقة من منظور البيانات الضخمة.

وتكتمل حركة البيانات المفتوحة، سواء في الاقتصادات الصاعدة أم في البلدان الصناعية المتقدمة. وإذ تتعيَّن لقاءة عدد من التحديات المتعلقة بقابلية التشغيل البيني والسياسات ذات الصلة فإن الوضع مؤات لكي يهتم الاتحاد الدولي للاتصالات بقضية البيانات المفتوحة وأن يعمل للدفع بها قدماً (بالتشارك مع كثير من أنصار البيانات المفتوحة من بين أعضائه ومن غيرهم). ومن ناحية المعايير قد يشتمل ذلك على وضع متطلبات فيما يخص الإبلاغ عن البيانات، وآليات نشر مجموعات البيانات وتوزيعها وكشفها.

فيتعيَّن القيام بمزيد من العمل للإحاطة الكاملة بالإمكانات التي تتيحها البيانات الضخمة، وينبغي للاتحاد الدولي للاتصالات المضي في دراسة التحديات والفرص المتصلة بالبيانات الضخمة ضمن قطاع تكنولوجيا المعلومات والاتصالات. 

حماية‭ ‬البيانات،‭ ‬والخصوصية،‭ ‬والأمن‭ ‬السيبراني

من الجلي حتى المبدأين الأساسيين لحماية البيانات – تفادي إفشاء البيانات الشخصية وتقليل اطلاع الآخرين عليها – يتعارضان مع قدرة البيانات الضخمة على تسهيل تتّبع حركات الناس، وتصرفاتهم، وتفضيلاتهم، للتنبؤ بتصرف الفرد بدرجة دقة لم يسبق لها مثيل، دون موافقة الشخص المعني في معظم الحالات. فيمكن مثلاً حتى تكون السجلات الصحية الإلكترونية ووسائل التحديد الكمي الذاتي العاملة على المنوال الآني (المحاسيس التي يحملها الناس لرصد أمور من قبيل درجة لياقتهم أوأسلوب نومهم) خطوة كبيرة إلى الأمام على طريق تبسيط إصدار وصفات الأدوية أوخطط الحمية واللياقة. لكن كثيراً من المستهلكين ينظرون إلى هذه البيانات باعتبارها بيانات بالغة الحساسية.

إن المجموعات الكبيرة من سجلات المكالمات بالهواتف المحمولة يمكن حتى تُستخدم، حتى إذا كانت هوية أصحابها مُغفَلةً وكانت مجرَّدة من جميع المعلومات الشخصية، لاستحداث بصمات للمستعملين، قد تكشف عن هوية الشخص المعني عندما يُجمع بينها وبين بيانات أخرى مثل التغريدات التي يحدَّد مسقط مطلقها الجغرافي أوسجلات التسجُّل عند القدوم إلى أماكن معيَّنة. وحدثا تنامى مقدار البيانات الشخصية والمعلومات الرقمية العالمية تزايد عدد الجهات التي تَنْفَذ إلى هذه المعلومات وتستخدمها. فيجب تقديم تطمينات إلى حتى البيانات الشخصية ستُستعمل بصورة مناسبة، في سياق وجوه الاستعمال المهيأ لها ومع التقيد بالقوانين ذات الصلة. ويمثِّل الأمن السيبراني شاغلاً وجيهاً. فتتعيَّن إعادة تقييم التهديدات والمخاطر المتأتية عن البيانات الضخمة، مع تكييف الحلول التقنية للتصدي لها. فقد آن أوان مراجعة السياسات المتعلقة بأمن المعلومات، والمبادئ التوجيهية بشأن الخصوصية، وقوانين حماية البيانات. وثمة مصادر هامة للبيانات الجديدة، مثل المعلومات المتأتية من شبكات الهواتف الخلوية المحمولة، وبخاصة خدمات الشبكات الاجتماعية، قد تمثِّل تكملة للإحصاءات الرسمية. بيد حتى الندوة العالمية لمؤشرات الاتصالات/تكنولوجيا المعلومات والاتصال ‭(‬WTIS‭)‬ نوهَّت إلى عدد من الشواغل المتعلقة بالسرية والخصوصية فيما يتعلق باستعمال البيانات الضخمة. وقد شجَّعت هذه الندوة سلطات التنظيم على استطلاع إمكانية وضع مبادئ توجيهية بشأن السبل التي يمكن بها إعداد البيانات الضخمة، واستغلالها، وتخزينها. وينبغي للممحرر الإحصائية الوطنية، بالتعاون مع سائر الوكالات ذات الصلة، حتى تنظر في الفرص التي تتيحها البيانات الضخمة، مهتمة في الوقت نفسه بالتحديات الماثلة حالياً على صعيد جودة البيانات الضخمة وصحتها وخصوصيتها ضمن إطار المبادئ الأساسية للإحصائيات الرسمية.

نقد

كارتون ينتقد تطبيق البيانات الضخمة، ت. گرگوريوس.

إن انتقادات نموذج البيانات الضخمة تأتي من ناحيتين، الأولي نابعة من أولئك الذين يشككون في الآثار المترتبة علي النهج نفسه. والثانية تأتي من الذين يشككون في الكيفية التي يتم تطبيقها حالياً.

انتقادات نموذج البيانات الضخمة

"المشكلة الكبيرة هي أننا لا نعهد الكثير عن العمليات التجريبية الأساسية الصغرى التي تؤدي إلي ظهور خصائص الشبكة النموذجية للبيانات الضخمة". في نقدهم للبيانات الضخمة أشار Snijders، Matzat وReips إلي أنه في كثير من الأحيان يتم طرح افتراضات قوية جداً حول الخصائص الرياضية التي قد لا تعكس علي الإطلاق ما يحدث في الواقع علي مستوي العمليات الصغرى. وقد وجه مارك غراهام انتقادات واسعة لتأكيد كريس أندرسون بأن البيانات الضخمة يفترض أن توضح نهاية نظرية: مع الهجريز بصفة خاصة علي فكرة حتى البيانات الضخمة يفترض أن بحاجة دائماً إلي حتى يتم وضعها في سياقها الاجتماعي، والاقتصادي والسياسي. حتي إذا كانت هناك شركة تستثمرثمانية أوتسعة مبالغ مالية لاشتقاق البصيرة من المعلومات المتدفقة من الموردين والعملاء، فإن 40% من الموظفين فقط هم من لديهم مهارات ناضجة بما فيه الكفاية للقيام بذلك. وللتغلب علي هذا العجز، فإن "البيانات الضخمة" مهما كانت شاملة أوتم تحليلها بشكل جيد، فإنه يجب حتى تُستكمل من قبل "حكم كبير"، وفقاً لمنطق نشر في مجلة Harvard Business Review.

وفي نفس السياق، فقد تم الإشارة إلي حتى القرارات المستندة علي تحليل البيانات الضخمة تُعد حتمية "فقد عهدناها من العالم مثلما حدثت بالماضي، أوفي أحسن الأحوال عهدناها كما هي حالياَ . فمن خلال تغذيتها بعدد كبير من البيانات الخاصة بالتجارب السابقة، يمكن للخوارزميات التنبؤ بالتطور المستقبلي إذا كان المستقبل يشبه الماضي. وإذا تغيرت ديناميكيات النظم في المستقبل، فإن الماضي يفترض أنقد يكون لديه القليل ليقوله عن المستقبل. ولهذا، سيكون من الضروري وجود فهم دقيق لديناميكية النظم، وهوما يعني ضمنياً وجود نظرية. ورداً علي هذا النقد، فقد أقتُرح ضم مناهج البيانات الضخمة مع المحاكاة الحاسوبية، مثل النماذج القائمة علي وكيل. حيث تقوم هذه النماذج علي نحومتزايد بالتحسن في تسقط نتائج التعقيدات الاجتماعية حتي للسيناريوهات المستقبلية الغير معروفة من خلال المحاكاة الحاسوبية التي تعتمد علي مجموعة من الخوارزميات المترابطة مع بعضها البعض. وبالإضافة لذلك، تقوم باستخدام طرق ذات متغيرات متعددة والتي تبحث في البنية الكامنة من البيانات مثل تحليل العامل وتحليل الكتلة، والتي أثبتت فائدتها كمناهج تحليلية تتفوق علي المناهج ثنائية التعدد والي تعمل عادة مع مجموعات البيانات الأصغر حجماً.

إن المدافعين عن خصوصية المستهلك يشعرون بالقلق تجاه تهديدات الخصوصية المتمثلة في زيادة مساحة التخزين وتكامل المعلومات الشخصية، وقد أصدرت لجنة الخبراء توصيات مختلفة لسياسة الخصوصية تتوافق مع مستوي التسقطات.

انتقادات تطبيق البيانات الضخمة

لقد أثار دانا بويد عدة مخاوف حول استخدام البيانات الضخمة في الفهم، ولكنه أغفل عدة مبادئ مثل اختياره لعينة متمثلة في عدد من الأشخاص القلقين جداً من التعامل في الواقع مع كميات ضخمة من البيانات. وقد يؤدي هذا النهج إلي تحيز في النتائج بطريقة أوبأخري. فالتكامل بين موارد البيانات الغير متجانسة – يمكن حتى يعتبره البعض "بيانات ضخمة" وقد لا يعتبره البعض كذلك – وهوما يمثل تحديات لوجستية وتحليلية هائلة، ولكن الكثير من الباحثين يرون حتى مثل هذه التكاملات من المحتمل حتى تمثل الحدود الجديدة الواعدة في مجال العلوم.


انظر أيضاً

  • Apache Accumulo
  • Apache Hadoop
  • Big Data to Knowledge
  • بنية ضخمة
  • Data Defined Storage
  • كاسك (شركة)
  • كلودرا
  • HPCC Systems
  • Internet of Things
  • MapReduce
  • Hortonworks
  • Nonlinear system identification
  • بحوث العمليات
  • Programming with Big Data in R (a series of R packages)
  • Sqrrl
  • Supercomputer
  • Transreality gaming
  • Tuple space
  • Unstructured data

المصادر

  1. ^ Kusnetzky, Dan. ". ZDNet.
  2. ^ Vance, Ashley (22 April 2010). "Start-Up Goes After Big Data With Hadoop Helper". New York Times Blog.
  3. ^ "Data, data everywhere". The Economist. 25 February 2010. Retrieved 9 December 2012.
  4. ^ "E-Discovery Special Report: The Rising Tide of Nonlinear Review". Hudson Global. Retrieved 1 July 2012. by Cat Casey and Alejandra Perez
  5. ^ "What Technology-Assisted Electronic Discovery Teaches Us About The Role Of Humans In Technology — Re-Humanizing Technology-Assisted Review". Forbes. Retrieved 1 July 2012.
  6. ^ Francis, Matthew (2012-04-02). "Future telescope array drives development of exabyte processing". Retrieved 2012-10-24.
  7. ^ Watters, Audrey (2010). "The Age of Exabytes: Tools and Approaches for Managing Big Data" (Website/Slideshare). Hewlett-Packard Development Company. Retrieved 2012-10-24.
  8. ^ "Community cleverness required". Nature. 455 (7209): 1. أربعة September 2008. doi:10.1038/455001a.
  9. ^ "Sandia sees data management challenges spiral". HPC Projects. أربعة August 2009.
  10. ^ Reichman, O.J.; Jones, M.B.; Schildhauer, M.P. (2011). "Challenges and Opportunities of Open Data in Ecology". Science. 331 (6018): 703–5. doi:10.1126/science.1197962.
  11. ^ Hellerstein, Joe (9 November 2008). "Parallel Programming in the Age of Big Data". Gigaom Blog.
  12. ^ Segaran, Toby; Hammerbacher, Jeff (2009). . O'Reilly Media. p. 257. ISBN .
  13. ^ "IBM What is big data? — Bringing big data to the enterprise". 01.ibm.com. Retrieved 2013-03-05.
  14. ^ Oracle and FSN, "Mastering Big Data: CFO Strategies to Transform Insight into Opportunity", December 2012
  15. ^ Jacobs, A. (6 July 2009). "The Pathologies of Big Data". ACMQueue.
  16. ^ Magoulas, Roger; Lorica, Ben (February 2009). "Introduction to Big Data". Release 2.0. Sebastopol CA: O’Reilly Media (11).
  17. ^ Snijders, C., Matzat, U., & Reips, U.-D. (2012). ‘Big Data’: Big gaps of knowledge in the field of Internet science. International Journal of Internet Science, 7, 1-5. http://www.ijis.net/ijis7_1/ijis7_1_editorial.html
  18. ^ Douglas, Laney. "3D Data Management: Controlling Data Volume, Velocity and Variety" (PDF). Gartner. Retrieved 6 February 2001.
  19. ^ Beyer, Mark. "Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data". Gartner. Archived from the original onعشرة July 2011. Retrieved 13 July 2011.
  20. ^ Douglas, Laney. "The Importance of 'Big Data': A Definition". Gartner. Retrieved 21 June 2012.
  21. ^ 2013: Big social data analysis. E. Cambria, D. Rajagopal, D. Olsher, and D. Das. In: R. Akerkar (ed.) Big Data Computing, ch. 13, Taylor & Francis
  22. ^ "LHC Brochure, English version. A presentation of the largest and the most powerful particle accelerator in the world, the Large Hadron Collider (LHC), which started up in 2008. Its role, characteristics, technologies, etc. are explained for the general public". CERN-Brochure-2010-006-Eng. LHC Brochure, English version. CERN. Retrieved 20 January 2013.
  23. ^ "LHC Guide, English version. A collection of facts and figures about the Large Hadron Collider (LHC) in the form of questions and answers". CERN-Brochure-2008-001-Eng. LHC Guide, English version. CERN. Retrieved 20 January 2013.
  24. ^ Brumfiel, Geoff (19 January 2011). "High-energy physics: Down the petabyte highway". Nature. 469. pp. 282–83. doi:10.1038/469282a.
  25. ^ Preis, Tobias; Moat,, Helen Susannah; Stanley, H. Eugene; Bishop, Steven R. (2012). "Quantifying the Advantage of Looking Forward". Scientific Reports. 2: 350. doi:10.1038/srep00350. PMC 3320057. PMID 22482034.CS1 maint: extra punctuation (link)
  26. ^ Marks, Paul (April 5, 2012). "Online searches for future linked to economic success". New Scientist. Retrieved April 9, 2012.
  27. ^ Johnston, Casey (April 6, 2012). "Google Trends reveals clues about the mentality of richer nations". Ars Technica. Retrieved April 9, 2012.
  28. ^ Tobias Preis (2012-05-24). "Supplementary Information: The Future Orientation Index is available for download" (PDF). Retrieved 2012-05-24.
  29. ^ Kalil, Tom. "Big Data is a Big Deal". White House. Retrieved 26 September 2012.
  30. ^ Executive Office of the President (2012). "Big Data Across the Federal Government" (PDF). White House. Retrieved 26 September 2012. Unknown parameter |month= ignored (help)
  31. ^ "How big data analysis helped President Obama defeat Romney in 2012 Elections". Bosmol Social Media News.ثمانية February 2013. Retrieved 9 March 2013.
  32. ^ Hoover, J. Nicholas. "Government'sعشرة Most Powerful Supercomputers". Information Week. UBM. Retrieved 26 September 2012.
  33. ^ Bamford, James. "The NSA Is Building the Country's Biggest Spy Center (Watch What You Say)". Wired Magazine. Retrieved 2013-03-18.
  34. ^ "Groundbreaking Ceremony Held for $1.2 Billion Utah Data Center". National Security Agency Central Security Service. Retrieved 2013-03-18.
  35. ^ Layton, Julia. "Amazon Technology". Money.howstuffworks.com. Retrieved 2013-03-05.
  36. ^ "eBay Study: How to Build Trust and Improve the Shopping Experience". Knowwpcarey.com. 2012-05-08. Retrieved 2013-03-05.
  37. ^ http://bits.blogs.nytimes.com/2013/03/12/predicting-commutes-more-accurately-for-would-be-home-buyers/
  38. ^ UN GLobal Pulse (2012). Big Data for Development: Opportunities and Challenges (White p. by Letouzé, E.). New York: United Nations. Retrieved from http://www.unglobalpulse.org/projects/BigDataforDevelopment
  39. ^ WEF (World Economic Forum), & Vital Wave Consulting. (2012). Big Data, Big Impact: New Possibilities for International Development. World Economic Forum. Retrieved August 24, 2012, from http://www.weforum.org/reports/big-data-big-impact-new-possibilities-international-development
  40. ^ Webster, John. "MapReduce: Simplified Data Processing on Large Clusters", "Search Storage", 2004. Retrieved on 25 March 2013.
  41. ^ "Big Data Definition". MIKE2.0. Retrieved 9 March 2013.
  42. ^ Manyika, James; Chui, Michael; Bughin, Jaques; Brown, Brad; Dobbs, Richard; Roxburgh, Charles; Byers, Angela Hung (May 2011). . McKinsey Global Institute.
  43. ^ "Future Directions in Tensor-Based Computation and Modeling" (PDF). May 2009.
  44. ^ Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). "A Survey of Multilinear Subspace Learning for Tensor Data" (PDF). Pattern Recognition. 44 (7): 1540–1551. doi:10.1016/j.patcog.2011.01.004.
  45. ^ Monash, Curt (30 April 2009). "eBay's two enormous data warehouses".
    Monash, Curt (6 October 2010). "eBay followup — Greenplum out, Teradata >عشرة petabytes, Hadoop has some value, and more".
  46. ^ CNET News (April 1, 2011). "Storage area networks need not apply".
  47. ^ "How New Analytic Systems will Impact Storage". September 2011.
  48. ^ "Obama Administration Unveils "Big Data" Initiative:Announces $200 Million In New R&D Investments" (PDF). The White House.
  49. ^ (October 2011) "Scaling the Mobile Millennium System in the Cloud".. 
  50. ^ David Patterson (5 December 2011). "Computer Scientists May Have What It Takes to Help Cure Cancer". The New York Times.
  51. ^ "Secretary Chu Announces New Institute to Help Scientists Improve Massive Data Set Research on DOE Supercomputers". "energy.gov".
  52. ^ "Governor Patrick announces new initiative to strengthen Massachusetts' position as a World leader in Big Data". Commonwealth of Massachusetts.
  53. ^ "Big Data @ CSAIL". Bigdata.csail.mit.edu. 2013-02-22. Retrieved 2013-03-05.
  54. ^ "Big Data Public Private Forum". Cordis.europa.eu. 2012-09-01. Retrieved 2013-03-05.
  55. ^ "نظرة عن البيانات الضخمة Big Data". عالم التقنية. 2013-07-24. Retrieved 2014-12-11.
  56. ^ "البيانات‭ ‬الضخمة‭: ‬تطورات‭ ‬عظيمة‭ ‬وتحديات‭ ‬هائلة". الاتحاد الدولي للاتصالات. 2014-01-19. Retrieved 2014-12-11.
  57. ^ Graham M. (2012). "Big data and the end of theory?". The Guardian.
  58. ^ "Good Data Won't Guarantee Good Decisions. Harvard Business Review". Shah, Shvetank; Horne, Andrew; Capellá, Jaime;. HBR.org. Retrieved 8 September 2012.CS1 maint: extra punctuation (link)
  59. ^ "Big Data for Development: From Information- to Knowledge Societies", Martin Hilbert (2013), SSRN Scholarly Paper No. ID 2205145). Rochester, NY: Social Science Research Network; http://papers.ssrn.com/abstract=2205145
  60. ^ Anderson, C. (2008, June 23). The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine, (Science: Discoveries). http://www.wired.com/science/discoveries/magazine/16-07/pb_theory
  61. ^ Ohm, Paul. "Don't Build a Database of Ruin". Harvard Business Review.
  62. ^ Danah Boyd (2010-04-29). "Privacy and Publicity in the Context of Big Data". WWW 2010 conference. Retrieved 2011-04-18.
  63. ^ Jones, MB; Schildhauer, MP; Reichman, OJ; Bowers, S (2006). "The New Bioinformatics: Integrating Ecological Data from the Gene to the Biosphere" (PDF). Annual Review of Ecology, Evolution, and Systematics. 37 (1): 519–544. doi:10.1146/annurev.ecolsys.37.091305.110031.

قراءات إضافية

  • Big Data Computing and Clouds: Challenges, Solutions, and Future Directions. Marcos D. Assuncao, Rodrigo N. Calheiros, Silvia Bianchi, Marco A. S. Netto, Rajkumar Buyya. Technical Report CLOUDS-TR-2013-1, Cloud Computing and Distributed Systems Laboratory, The University of Melbourne, 17 Dec. 2013.
  • Encrypted search & cluster formation in Big Data. Gautam Siwach, Dr. A. Esmailpour. American Society for Engineering Education, Conference at the University of Bridgeport, Bridgeport, Connecticut 3–5 April 2014.
  • "Big Data for Good" (PDF). ODBMS.org.خمسة June 2012. Retrieved 2013-11-12.
  • Hilbert, Martin; López, Priscila (2011). "The World's Technological Capacity to Store, Communicate, and Compute Information". Science. 332 (6025): 60–65. doi:10.1126/science.1200970. PMID 21310967.
  • "The Rise of Industrial Big Data". GE Intelligent Platforms. Retrieved 2013-11-12.
  • History of Big Data Timeline. A visual history of Big Data with links to supporting articles.

وصلات خارجية

  • Media related to Big data at Wikimedia Commons
  • The Wiktionary definition of big data

تصنيفTechnology forecasting

تاريخ النشر: 2020-06-04 15:05:12
التصنيفات: CS1 errors: deprecated parameters, CS1 maint: extra punctuation, Pages with citations using unsupported parameters, مقالات ذات عبارات بحاجة لمصادر, Portal templates with all redlinked portals, إدارة البيانات, مشكلات الحوسبة الموزعة, Transaction processing, بيانات ضخمة

مقالات أخرى من الموسوعة

سحابة الكلمات المفتاحية، مما يبحث عنه الزوار في كشاف:

آخر الأخبار حول العالم

أحكام التاريخ.. في لقاء النقب

المصدر: العربية - السعودية التصنيف: سياسة
تاريخ الخبر: 2022-04-04 21:16:51
مستوى الصحة: 78% الأهمية: 99%

لماذا حمّل زيلينسكي ميركل وساركوزي مسؤولية مقتل الأوكران

المصدر: العربية - السعودية التصنيف: سياسة
تاريخ الخبر: 2022-04-04 21:16:19
مستوى الصحة: 85% الأهمية: 86%

الزلزال الأوكراني... الرجاء ربط الأحزمة

المصدر: العربية - السعودية التصنيف: سياسة
تاريخ الخبر: 2022-04-04 21:16:48
مستوى الصحة: 94% الأهمية: 93%

وضع حجر أساس كنيسة مار جرجس بنقاليفة الفيوم 

المصدر: بوابة أخبار اليوم - مصر التصنيف: سياسة
تاريخ الخبر: 2022-04-04 21:17:33
مستوى الصحة: 57% الأهمية: 66%

سعفان: فرص عمل لذوي القدرات الخاصة.. نرسم بها البسمة علي وجوههم

المصدر: بوابة أخبار اليوم - مصر التصنيف: سياسة
تاريخ الخبر: 2022-04-04 21:17:32
مستوى الصحة: 50% الأهمية: 62%

طوارىء فى «مستقبل وطن» لدعم الأسر البسيطة بالمحافظات

المصدر: بوابة أخبار اليوم - مصر التصنيف: سياسة
تاريخ الخبر: 2022-04-04 21:17:31
مستوى الصحة: 56% الأهمية: 70%

زعيم جبهة بوليساريو يندد "بتحول جذري" من جانب اسبانيا

المصدر: فرانس 24 - فرنسا التصنيف: سياسة
تاريخ الخبر: 2022-04-04 21:16:15
مستوى الصحة: 78% الأهمية: 100%

اللاعب الذي حل محله.. كهربا يتحدث عن نجم الأهلي

المصدر: الأهلى . كوم - مصر التصنيف: رياضة
تاريخ الخبر: 2022-04-04 21:17:20
مستوى الصحة: 38% الأهمية: 45%

مشاورات إقليمية مكثفة: ما لها وما عليها

المصدر: العربية - السعودية التصنيف: سياسة
تاريخ الخبر: 2022-04-04 21:16:49
مستوى الصحة: 78% الأهمية: 91%

ايران تعلن عودة انتاجها النفطي الى مستوى ما قبل العقوبات

المصدر: فرانس 24 - فرنسا التصنيف: سياسة
تاريخ الخبر: 2022-04-04 21:16:15
مستوى الصحة: 94% الأهمية: 87%

أخبار الرياضة من العربية

المصدر: العربية - السعودية التصنيف: سياسة
تاريخ الخبر: 2022-04-04 21:16:46
مستوى الصحة: 89% الأهمية: 85%

نشاط رعوي متنوع بإيبارشية الزقازيق ومنيا القمح

المصدر: بوابة أخبار اليوم - مصر التصنيف: سياسة
تاريخ الخبر: 2022-04-04 21:17:31
مستوى الصحة: 55% الأهمية: 64%

كهربا: صعبت عليا نفسي في ماتش الكاس.. وماذا عن اضطهاد موسيماني؟

المصدر: الأهلى . كوم - مصر التصنيف: رياضة
تاريخ الخبر: 2022-04-04 21:17:21
مستوى الصحة: 41% الأهمية: 49%

رياض سلامة ينفي إفلاس مصرف لبنان المركزي

المصدر: العربية - السعودية التصنيف: سياسة
تاريخ الخبر: 2022-04-04 21:16:18
مستوى الصحة: 85% الأهمية: 90%

أوكرانيا: روسيا تخطط لهجوم ضخم في لوغانسك بشرق البلاد

المصدر: العربية - السعودية التصنيف: سياسة
تاريخ الخبر: 2022-04-04 21:16:18
مستوى الصحة: 94% الأهمية: 92%

توزيع 5 آلاف وجبة لإفطار صائم بالخط الأول والثانى لمترو الأنفاق| صور

المصدر: بوابة أخبار اليوم - مصر التصنيف: سياسة
تاريخ الخبر: 2022-04-04 21:17:34
مستوى الصحة: 60% الأهمية: 70%

الصليب الأحمر: فريق تابع لنا "احتُجز" في طريقه لماريوبول

المصدر: العربية - السعودية التصنيف: سياسة
تاريخ الخبر: 2022-04-04 21:16:20
مستوى الصحة: 78% الأهمية: 96%

تحميل تطبيق المنصة العربية