مصطلح “البيانات الضخمة” يعني حرفيًا قدرًا هائلاً من المعلومات المخزنة على أي وسيط.
- مصادر البيانات الضخمة
- تاريخ نشأة وتطور البيانات الضخمة
- تقنيات وطرق تحليل ومعالجة البيانات الضخمة
- اتجاهات وآفاق تطوير البيانات الضخمة
- البيانات الضخمة في التسويق والأعمال
- أمثلة على استخدام البيانات الضخمة
- مشكلات البيانات الضخمة
- سوق تكنولوجيا البيانات الضخمة في روسيا وفي جميع أنحاء العالم
- أفضل الكتب عن البيانات الضخمة
علاوة على ذلك ، هذا الحجم كبير جدًا لدرجة أنه من غير العملي معالجته باستخدام البرامج أو الأجهزة المعتادة ، وفي بعض الحالات يكون ذلك مستحيلًا تمامًا.
البيانات الضخمة ليست البيانات نفسها فحسب ، بل هي أيضًا تقنيات لمعالجتها واستخدامها ، وطرق للعثور على المعلومات الضرورية في المصفوفات الكبيرة. لا تزال مشكلة البيانات الضخمة مفتوحة وحيوية لأي أنظمة تراكمت مجموعة متنوعة من المعلومات لعقود.
مصادر البيانات الضخمة
الشبكات الاجتماعية هي مثال على مصدر نموذجي للبيانات الضخمة – كل ملف شخصي أو صفحة عامة هي نقطة صغيرة واحدة في محيط غير منظم من المعلومات. علاوة على ذلك ، بغض النظر عن كمية المعلومات المخزنة في ملف تعريف معين ، يجب أن يكون التفاعل مع كل مستخدم بأسرع ما يمكن.
تتراكم البيانات الضخمة باستمرار في كل مجال من مجالات حياة الإنسان تقريبًا. وهذا يشمل أي صناعة مرتبطة بالتفاعلات البشرية أو الحوسبة. هذه هي وسائل التواصل الاجتماعي ، والطب ، والقطاع المصرفي ، بالإضافة إلى أنظمة الأجهزة التي تتلقى العديد من نتائج الحسابات اليومية. على سبيل المثال ، الملاحظات الفلكية ومعلومات الأرصاد الجوية والمعلومات من أجهزة سبر الأرض.
يتم أيضًا إرسال المعلومات من أنظمة التتبع المختلفة في الوقت الفعلي إلى خوادم شركة معينة. البث التلفزيوني والإذاعي ، قواعد الاتصال لمشغلي الهاتف المحمول – تفاعل كل فرد معهم ضئيل للغاية ، ولكن في المجمل ، تصبح كل هذه المعلومات بيانات ضخمة.
أصبحت تقنيات البيانات الضخمة جزءًا لا يتجزأ من البحث والتطوير والتجارة. علاوة على ذلك ، فقد بدأوا في الاستيلاء على مجال الإدارة العامة – وفي كل مكان ، يلزم إدخال أنظمة أكثر وأكثر كفاءة لتخزين المعلومات ومعالجتها.
تاريخ نشأة وتطور البيانات الضخمة
ظهر مصطلح “البيانات الضخمة” لأول مرة في الصحافة في عام 2008 ، عندما نشر محرر Nature ، كليفورد لينش ، مقالًا حول كيفية النهوض بمستقبل العلم بمساعدة تقنيات البيانات الضخمة. حتى عام 2009 ، تم اعتبار هذا المصطلح فقط من وجهة نظر التحليل العلمي ، ولكن بعد إصدار العديد من المقالات الأخرى ، بدأت الصحافة في استخدام مفهوم البيانات الضخمة على نطاق واسع – وتستمر في استخدامه في الوقت الحالي.

في عام 2010 ، بدأت تظهر المحاولات الأولى لحل المشكلة المتزايدة للبيانات الضخمة. تم إطلاق منتجات برمجية ، يهدف الإجراء إلى تقليل المخاطر عند استخدام مصفوفات معلومات ضخمة.
بحلول عام 2011 ، أصبحت الشركات الكبيرة مثل Microsoft و Oracle و EMC و IBM مهتمة بالبيانات الضخمة – كانوا أول من استخدم البيانات الضخمة في استراتيجيات التطوير الخاصة بهم ، وبنجاح كبير.
بدأت الجامعات في دراسة البيانات الضخمة كموضوع منفصل بالفعل في عام 2013 – الآن ليس فقط علوم البيانات ، ولكن الهندسة أيضًا ، جنبًا إلى جنب مع موضوعات الحوسبة ، تتعامل مع المشكلات في هذا المجال.
تقنيات وطرق تحليل ومعالجة البيانات الضخمة
تشمل الطرق الرئيسية لتحليل البيانات ومعالجتها ما يلي:
طرق الفصل أو التنقيب في البيانات
هذه الأساليب كثيرة جدًا ، لكنها متحدة في شيء واحد: الأدوات الرياضية المستخدمة جنبًا إلى جنب مع الإنجازات في مجال تكنولوجيا المعلومات.
التعهيد الجماعي
تسمح لك هذه التقنية بالحصول على البيانات في وقت واحد من عدة مصادر ، وعدد هذه الأخيرة غير محدود عمليًا.
اختبار A / B
من كمية البيانات الكاملة ، يتم تحديد مجموعة عناصر تحكم ، والتي تتم مقارنتها مع مجموعات أخرى مماثلة ، حيث تم تغيير أحد العناصر. يساعد إجراء مثل هذه الاختبارات على تحديد تقلبات المعلمات التي لها أكبر تأثير على مجموعة التحكم. بفضل أحجام البيانات الضخمة ، من الممكن إجراء عدد كبير من التكرارات ، مع اقتراب كل منها من النتيجة الأكثر موثوقية.
التحليلات التنبؤية
يحاول المتخصصون في هذا المجال التنبؤ والتخطيط مسبقًا لكيفية تصرف الكائن المتحكم فيه من أجل اتخاذ القرار الأكثر فائدة في هذه الحالة.
التعلم الآلي (الذكاء الاصطناعي)
يعتمد على تحليل تجريبي للمعلومات والبناء اللاحق لخوارزميات التعلم الذاتي للأنظمة.
تحليل الشبكة
الطريقة الأكثر شيوعًا لدراسة الشبكات الاجتماعية – بعد تلقي البيانات الإحصائية ، يتم تحليل العقد التي تم إنشاؤها في الشبكة ، أي التفاعلات بين المستخدمين الأفراد ومجتمعاتهم.
اتجاهات وآفاق تطوير البيانات الضخمة
في عام 2017 ، عندما لم تعد البيانات الضخمة شيئًا جديدًا وغير معروف ، لم تنخفض أهميتها فحسب ، بل زادت أيضًا. الآن يراهن الخبراء على أن تحليل كميات كبيرة من البيانات سيصبح متاحًا ليس فقط للمؤسسات العملاقة ، ولكن أيضًا للشركات الصغيرة والمتوسطة الحجم. تم التخطيط لهذا النهج ليتم تنفيذه باستخدام المكونات التالية:
التخزين في السحاب
أصبح تخزين البيانات ومعالجتها أسرع وأكثر اقتصادا – مقارنة بتكاليف صيانة مركز البيانات الخاص بك والتوسع المحتمل للموظفين ، يبدو أن استئجار سحابة بديل أرخص بكثير.

استخدام البيانات المظلمة
ما يسمى “البيانات المظلمة” هي جميع المعلومات غير الرقمية حول شركة لا تلعب دورًا رئيسيًا في استخدامها المباشر ، ولكنها قد تكون بمثابة سبب للتبديل إلى تنسيق تخزين معلومات جديد.
الذكاء الاصطناعي والتعلم العميق
تعد تقنية التعلم بالذكاء الآلي ، التي تحاكي بنية وعمل الدماغ البشري ، هي الأنسب لمعالجة كمية كبيرة من المعلومات المتغيرة باستمرار. في هذه الحالة ، ستفعل الآلة كل ما يجب على الشخص القيام به ، لكن احتمالية الخطأ تقل بشكل كبير.
Blockchain
تتيح لك هذه التقنية تسريع وتبسيط العديد من المعاملات عبر الإنترنت ، بما في ذلك المعاملات الدولية. ميزة أخرى لـ Blockchain هي أنها تقلل من تكاليف المعاملات.
الخدمة الذاتية وخفض الأسعار
في عام 2017 ، من المخطط تقديم “منصات الخدمة الذاتية” – وهي منصات مجانية حيث يمكن لممثلي الشركات الصغيرة والمتوسطة الحجم تقييم البيانات التي يقومون بتخزينها وتنظيمها بشكل مستقل.
البيانات الضخمة في التسويق والأعمال
تعتمد جميع استراتيجيات التسويق بطريقة ما على التلاعب بالمعلومات وتحليل البيانات الموجودة. هذا هو السبب في أن استخدام البيانات الضخمة يمكن أن يتنبأ ويجعل من الممكن تعديل التطوير الإضافي للشركة.
على سبيل المثال ، يتيح لك مزاد RTB الذي تم إنشاؤه على أساس البيانات الضخمة استخدام الإعلانات بكفاءة أكبر – لن يتم عرض منتج معين إلا لمجموعة المستخدمين المهتمين بشرائه.
ما فائدة استخدام تقنيات البيانات الضخمة في التسويق والأعمال؟
- بمساعدتهم ، يمكنك إنشاء مشاريع جديدة بشكل أسرع ، والتي من المحتمل أن تحظى بشعبية بين المشترين.
- أنها تساعد على ربط متطلبات العملاء بخدمة حالية أو مخطط لها وبالتالي تعديلها.
- تسمح لك أساليب البيانات الضخمة بتقييم درجة الرضا الحالي لجميع المستخدمين ولكل منهم على حدة.
- يتم تحقيق زيادة ولاء العملاء من خلال طرق معالجة البيانات الضخمة.
- أصبح جذب الجمهور المستهدف على الإنترنت أسهل نظرًا لقدرته على التحكم في كميات هائلة من البيانات.

على سبيل المثال ، تعد Google.trends واحدة من أكثر الخدمات شيوعًا للتنبؤ بالشعبية المحتملة لمنتج معين. يتم استخدامه على نطاق واسع من قبل المسوقين والمحللين ، مما يسمح لهم بالحصول على إحصائيات حول استخدام منتج معين في الماضي والتنبؤ بالموسم التالي. يتيح ذلك لقادة الشركة توزيع ميزانية الإعلان بشكل أكثر فعالية ، وتحديد المنطقة التي من الأفضل استثمار الأموال فيها.
أمثلة على استخدام البيانات الضخمة
بدأ الإدخال النشط لتقنيات البيانات الضخمة في السوق وفي الحياة الحديثة بعد أن بدأ استخدامها من قبل الشركات المشهورة عالميًا التي لديها عملاء في كل ركن من أركان العالم تقريبًا.
هؤلاء هم عمالقة اجتماعيون مثل Facebook و Google و IBM. بالإضافة إلى الهياكل المالية مثل Master Card و VISA و Bank of America.
على سبيل المثال ، تقوم شركة IBM بتطبيق تقنيات البيانات الضخمة على المعاملات النقدية. بفضل مساعدتهم ، تم الكشف عن المزيد من المعاملات الاحتيالية بنسبة 15٪ ، مما أدى إلى زيادة حجم الأموال المحمية بنسبة 60٪. تم أيضًا حل المشكلات المتعلقة بالإيجابيات الخاطئة للنظام – تم تقليل عددها بأكثر من النصف.
وبالمثل ، استخدمت فيزا البيانات الضخمة ، لتتبع المحاولات الاحتيالية لإجراء معاملة معينة. بفضل هذا ، فإنها توفر سنويًا أكثر من 2 مليار دولار أمريكي من التسرب.
تمكنت وزارة العمل الألمانية من خفض التكاليف بمقدار 10 مليارات يورو من خلال تطبيق نظام البيانات الضخمة في عمل إصدار إعانات البطالة. في الوقت نفسه ، تم الكشف عن حصول خمس المواطنين على هذه المزايا دون مبرر.
لم تتجاوز البيانات الضخمة صناعة الألعاب أيضًا. وهكذا ، أجرى مطورو World of Tanks دراسة للمعلومات حول جميع اللاعبين وقارنوا المؤشرات المتاحة لنشاطهم. وقد ساعد ذلك على التنبؤ بالتغير المستقبلي المحتمل للاعبين – استنادًا إلى الافتراضات المقدمة ، كان ممثلو المنظمة قادرين على التفاعل مع المستخدمين بشكل أكثر فعالية.
تشمل المنظمات البارزة التي تستخدم البيانات الضخمة أيضًا HSBC و Nasdaq و Coca-Cola و Starbucks و AT & amp؛ T.
مشكلات البيانات الضخمة
أكبر مشكلة في البيانات الضخمة هي تكلفة معالجتها. يمكن أن يشمل ذلك كلاً من المعدات باهظة الثمن وتكلفة الأجور للمختصين المؤهلين القادرين على خدمة كميات هائلة من المعلومات. من الواضح أن المعدات يجب أن يتم تحديثها بانتظام حتى لا تفقد الحد الأدنى من أدائها مع زيادة كمية البيانات.

تتعلق المشكلة الثانية مرة أخرى بكمية المعلومات الكبيرة التي يجب معالجتها. على سبيل المثال ، إذا لم تقدم الدراسة 2-3 ، ولكن عددًا كبيرًا من النتائج ، فمن الصعب جدًا أن تظل موضوعيًا وأن تختار من تدفق البيانات العام فقط تلك التي سيكون لها تأثير حقيقي على حالة الظاهرة.
مشكلة خصوصية البيانات الضخمة. مع انتقال معظم خدمات خدمة العملاء إلى استخدام البيانات عبر الإنترنت ، من السهل جدًا أن تصبح الهدف التالي لمجرمي الإنترنت. حتى مجرد تخزين المعلومات الشخصية دون إجراء أي معاملات عبر الإنترنت يمكن أن يكون محفوفًا بعواقب غير مرغوب فيها لعملاء التخزين السحابي.
مشكلة فقدان المعلومات. تتطلب الاحتياطات ألا تقتصر على نسخ احتياطي بسيط لمرة واحدة من البيانات ، بل تتطلب عمل نسختين أو ثلاث نسخ احتياطية على الأقل من وحدة التخزين. ومع ذلك ، مع زيادة الحجم ، يزداد تعقيد التكرار – ويحاول متخصصو تكنولوجيا المعلومات إيجاد أفضل حل لهذه المشكلة.
سوق تكنولوجيا البيانات الضخمة في روسيا وفي جميع أنحاء العالم
اعتبارًا من عام 2014 ، 40٪ من سوق البيانات الضخمة عبارة عن خدمات. أدنى بقليل (38٪) من هذا المؤشر هو العائد من استخدام البيانات الضخمة في أجهزة الكمبيوتر. 22٪ المتبقية في البرمجيات.
أكثر المنتجات فائدة في القطاع العالمي لحل مشاكل البيانات الضخمة ، وفقًا للإحصاءات ، هي منصات التحليل داخل الذاكرة و NoSQL. 15 و 12 في المائة من السوق ، على التوالي ، مشغولة ببرمجيات Log-file التحليلية ومنصات Columnar. لكن Hadoop / MapReduce في الممارسة العملية للتعامل مع مشاكل البيانات الضخمة ليست فعالة للغاية.
نتائج تطبيق تقنيات البيانات الضخمة:
- النمو في جودة خدمة العملاء ؛
- تحسين تكامل سلسلة التوريد ؛
- تحسين التخطيط التنظيمي
- تسريع التفاعل مع العملاء ؛
- تحسين كفاءة معالجة طلبات العملاء ؛
- تقليل تكاليف الخدمة ؛
- تحسين معالجة طلبات العملاء.
أفضل الكتب عن البيانات الضخمة
“الوجه الإنساني للبيانات الضخمة” بقلم ريك سمولان وجنيفر إيرويت
مناسب للدراسة الأولية لتقنيات معالجة البيانات الضخمة – فهو يجعلك محدثًا بسهولة ووضوح. يوضح كيف أثرت وفرة المعلومات على الحياة اليومية وجميع مجالاتها: العلوم ، والأعمال التجارية ، والطب ، وما إلى ذلك. تحتوي على العديد من الرسوم التوضيحية ، لذلك يتم إدراكها دون بذل الكثير من الجهد.
مقدمة في استخراج البيانات بواسطة بانج-نينج تان ومايكل شتاينباخ وفيبين كومار
أيضًا كتاب مفيد للمبتدئين في مجال البيانات الضخمة ، والذي يشرح كيفية التعامل مع البيانات الضخمة بطريقة “من البسيط إلى المعقد”. يغطي العديد من النقاط المهمة في المرحلة الأولية: التحضير للمعالجة ، والتصور ، و OLAP ، بالإضافة إلى بعض طرق تحليل البيانات وتصنيفها.
تعلم الآلة بلغة Python من قبل سيباستيان راسكا
دليل عملي لاستخدام البيانات الضخمة والعمل معها باستخدام لغة برمجة Python. مناسب لكل من طلاب الهندسة والمهنيين الذين يرغبون في تعميق معارفهم.
“Hadoop for Dummies” ، ديرك ديروس ، بول س. زيكوبولوس ، رومان ب. ميلنيك
Hadoop هو مشروع مصمم خصيصًا للعمل مع البرامج الموزعة التي تنظم تنفيذ الإجراءات على آلاف العقد في نفس الوقت. سيساعد التعرف عليها على فهم التطبيق العملي للبيانات الضخمة بمزيد من التفصيل.