बड़ा डेटा – इसके साथ सब कुछ पहले से ही व्याप्त है

— अद्यतन:
बड़ा डेटा – इसके साथ सब कुछ पहले से ही व्याप्त है
चित्र: Supawat Kaydeesud | Dreamstime
Editorial
Promdevelop editorial team

“बिग डेटा” शब्द का शाब्दिक अर्थ है किसी भी माध्यम पर संग्रहीत बड़ी मात्रा में जानकारी।

इसके अलावा, यह वॉल्यूम इतना बड़ा है कि सामान्य सॉफ़्टवेयर या हार्डवेयर का उपयोग करके इसे संसाधित करना अव्यावहारिक है, और कुछ मामलों में यह पूरी तरह से असंभव है।

बिग डेटा केवल डेटा ही नहीं है, बल्कि उन्हें संसाधित करने और उनका उपयोग करने की तकनीकें, बड़े सरणियों में आवश्यक जानकारी खोजने के तरीके भी हैं। बड़े डेटा की समस्या अभी भी खुली है और किसी भी सिस्टम के लिए महत्वपूर्ण है जो दशकों से विभिन्न प्रकार की जानकारी जमा कर रही है।

यह शब्द अभिव्यक्ति “वॉल्यूम, वेलोसिटी, वैरायटी” से जुड़ा है – वे सिद्धांत जिन पर बड़े डेटा के साथ काम किया जाता है। ये सीधे सूचना की मात्रा, इसके संसाधन की गति और विभिन्न प्रकार की जानकारी सरणी में संग्रहीत हैं। हाल ही में, तीन बुनियादी सिद्धांतों में एक और सिद्धांत जोड़ा गया है – मूल्य, जिसका अर्थ है सूचना का मूल्य। अर्थात् यह सैद्धांतिक या व्यावहारिक दृष्टि से उपयोगी और आवश्यक होना चाहिए, जो इसके भंडारण और प्रसंस्करण की लागत को उचित ठहराएगा।

बड़े डेटा स्रोत

सामाजिक नेटवर्क बड़े डेटा के एक विशिष्ट स्रोत का एक उदाहरण है – प्रत्येक प्रोफ़ाइल या सार्वजनिक पृष्ठ सूचना के असंरचित महासागर में एक छोटी बूंद है। इसके अलावा, किसी विशेष प्रोफ़ाइल में संग्रहीत जानकारी की मात्रा की परवाह किए बिना, प्रत्येक उपयोगकर्ता के साथ बातचीत जितनी जल्दी हो सके होनी चाहिए।

DevOps – विकास और संचालन
DevOps – विकास और संचालन

मानव जीवन के लगभग हर क्षेत्र में बिग डेटा लगातार जमा हो रहा है। इसमें मानव संपर्क या कंप्यूटिंग से संबंधित कोई भी उद्योग शामिल है। ये सोशल मीडिया, और दवा, और बैंकिंग क्षेत्र, साथ ही डिवाइस सिस्टम हैं जो दैनिक गणना के कई परिणाम प्राप्त करते हैं। उदाहरण के लिए, खगोलीय अवलोकन, मौसम संबंधी जानकारी और अर्थ साउंडिंग उपकरणों से प्राप्त जानकारी।

वास्तविक समय में विभिन्न ट्रैकिंग सिस्टम से सूचना भी किसी विशेष कंपनी के सर्वर पर भेजी जाती है। टेलीविजन और रेडियो प्रसारण, मोबाइल ऑपरेटरों के कॉल बेस – उनके साथ प्रत्येक व्यक्ति की बातचीत न्यूनतम है, लेकिन कुल मिलाकर, यह सारी जानकारी बड़ा डेटा बन जाती है।

बड़ी डेटा प्रौद्योगिकियां आर एंड डी और वाणिज्य के अभिन्न अंग बन गई हैं। इसके अलावा, वे लोक प्रशासन के क्षेत्र पर कब्जा करना शुरू कर रहे हैं – और हर जगह सूचनाओं के भंडारण और हेरफेर के लिए अधिक से अधिक कुशल प्रणालियों की शुरूआत की आवश्यकता है।

बिग डेटा के उद्भव और विकास का इतिहास

“बिग डेटा” शब्द पहली बार 2008 में प्रेस में दिखाई दिया, जब नेचर एडिटर क्लिफोर्ड लिंच ने बिग डेटा टेक्नोलॉजी की मदद से विज्ञान के भविष्य को कैसे आगे बढ़ाया जाए, इस पर एक लेख प्रकाशित किया। 2009 तक, इस शब्द को केवल वैज्ञानिक विश्लेषण के दृष्टिकोण से माना जाता था, लेकिन कई और लेखों के जारी होने के बाद, प्रेस ने बड़े डेटा की अवधारणा का व्यापक रूप से उपयोग करना शुरू कर दिया – और वर्तमान समय में इसका उपयोग करना जारी रखता है।

Big Data
चित्र: T.L.Furrer | Dreamstime

2010 में, बड़े डेटा की बढ़ती समस्या को हल करने के पहले प्रयास सामने आने लगे। सॉफ़्टवेयर उत्पाद जारी किए गए थे, जिनकी कार्रवाई का उद्देश्य विशाल सूचना सरणियों का उपयोग करते समय जोखिमों को कम करना था।

2011 तक, माइक्रोसॉफ्ट, ओरेकल, ईएमसी और आईबीएम जैसी बड़ी कंपनियों को बड़े डेटा में दिलचस्पी हो गई – वे अपनी विकास रणनीतियों में बिग डेटा का उपयोग करने वाले पहले व्यक्ति थे, और काफी सफलतापूर्वक।

कुकीज़ रहस्यमयी फाइलें हैं जिनके बारे में बहुत कम लोग जानते हैं
कुकीज़ रहस्यमयी फाइलें हैं जिनके बारे में बहुत कम लोग जानते हैं

विश्वविद्यालयों ने 2013 में पहले से ही एक अलग विषय के रूप में बड़े डेटा का अध्ययन करना शुरू कर दिया था – अब न केवल डेटा विज्ञान, बल्कि इंजीनियरिंग भी, कंप्यूटिंग विषयों के साथ, इस क्षेत्र में समस्याओं से निपट रहे हैं।

बड़े डेटा के विश्लेषण और संसाधन के लिए तकनीक और तरीके

डेटा विश्लेषण और प्रसंस्करण के मुख्य तरीकों में निम्नलिखित शामिल हैं:

वर्ग के तरीके या डेटा माइनिंग

ये विधियां काफी असंख्य हैं, लेकिन वे एक चीज से एकजुट हैं: सूचना प्रौद्योगिकी के क्षेत्र में उपलब्धियों के साथ संयोजन में उपयोग किए जाने वाले गणितीय उपकरण।

क्राउडसोर्सिंग

यह तकनीक आपको कई स्रोतों से एक साथ डेटा प्राप्त करने की अनुमति देती है, और बाद की संख्या व्यावहारिक रूप से असीमित है।

ए/बी परीक्षण

डेटा की संपूर्ण मात्रा से, तत्वों का एक नियंत्रण सेट चुना जाता है, जिसकी तुलना अन्य समान सेटों के साथ की जाती है, जहां तत्वों में से एक को बदल दिया गया है। इस तरह के परीक्षण करने से यह निर्धारित करने में मदद मिलती है कि नियंत्रण जनसंख्या पर कौन से पैरामीटर उतार-चढ़ाव का सबसे अधिक प्रभाव पड़ता है। बिग डेटा की मात्रा के लिए धन्यवाद, बड़ी संख्या में पुनरावृत्तियों को अंजाम देना संभव है, जिनमें से प्रत्येक सबसे विश्वसनीय परिणाम के करीब पहुंच रहा है।

डोमेन संचालित डिजाइन – डीडीडी प्रोग्रामिंग
डोमेन संचालित डिजाइन – डीडीडी प्रोग्रामिंग

भविष्य कहनेवाला विश्लेषण

इस क्षेत्र के विशेषज्ञ इस स्थिति में सबसे लाभप्रद निर्णय लेने के लिए पहले से भविष्यवाणी करने और योजना बनाने की कोशिश करते हैं कि नियंत्रित वस्तु कैसे व्यवहार करेगी।

मशीन लर्निंग (कृत्रिम बुद्धिमत्ता)

यह सूचना के अनुभवजन्य विश्लेषण और सिस्टम के लिए स्व-शिक्षण एल्गोरिदम के बाद के निर्माण पर आधारित है।

नेटवर्क विश्लेषण

सामाजिक नेटवर्क के अध्ययन के लिए सबसे आम तरीका – सांख्यिकीय डेटा प्राप्त करने के बाद, ग्रिड में बनाए गए नोड्स का विश्लेषण किया जाता है, अर्थात व्यक्तिगत उपयोगकर्ताओं और उनके समुदायों के बीच बातचीत।

बिग डेटा विकास की संभावनाएं और रुझान

2017 में, जब बिग डेटा अब कुछ नया और अज्ञात नहीं है, तो इसका महत्व न केवल कम हुआ है, बल्कि और भी बढ़ गया है। अब विशेषज्ञ शर्त लगा रहे हैं कि बड़ी मात्रा में डेटा का विश्लेषण न केवल विशाल संगठनों के लिए, बल्कि छोटे और मध्यम आकार के व्यवसायों के लिए भी उपलब्ध हो जाएगा। इस दृष्टिकोण को निम्नलिखित घटकों का उपयोग करके लागू करने की योजना है:

क्लाउड स्टोरेज

डेटा भंडारण और प्रसंस्करण तेज और अधिक किफायती होता जा रहा है – अपने स्वयं के डेटा केंद्र को बनाए रखने की लागत और कर्मचारियों के संभावित विस्तार की तुलना में, क्लाउड किराए पर लेना एक बहुत सस्ता विकल्प लगता है।

Big Data
चित्र: Dzmitry Ryzhykau | Dreamstime

डार्क डेटा का उपयोग करना

तथाकथित “डार्क डेटा” एक कंपनी के बारे में सभी गैर-डिजिटल जानकारी है जो इसके प्रत्यक्ष उपयोग में महत्वपूर्ण भूमिका नहीं निभाती है, लेकिन एक नए सूचना भंडारण प्रारूप में स्विच करने के कारण के रूप में कार्य कर सकती है।

आर्टिफिशियल इंटेलिजेंस और डीप लर्निंग

मशीन इंटेलिजेंस लर्निंग टेक्नोलॉजी, जो मानव मस्तिष्क की संरचना और संचालन की नकल करती है, बड़ी मात्रा में लगातार बदलती जानकारी को संसाधित करने के लिए सबसे उपयुक्त है। इस मामले में, मशीन वह सब कुछ करेगी जो एक व्यक्ति को करना होगा, लेकिन त्रुटि की संभावना बहुत कम हो जाती है।

UX डिज़ाइन – उपयोगकर्ता अनुभव डिज़ाइन
UX डिज़ाइन – उपयोगकर्ता अनुभव डिज़ाइन

ब्लॉकचेन

यह तकनीक आपको अंतरराष्ट्रीय लेनदेन सहित कई इंटरनेट लेनदेन को तेज करने और सरल बनाने की अनुमति देती है। ब्लॉकचेन का एक और फायदा यह है कि यह लेनदेन की लागत को कम करता है।

स्व-सेवा और कीमतों में कटौती

2017 में, “स्वयं-सेवा प्लेटफ़ॉर्म” पेश करने की योजना है – ये मुफ़्त प्लेटफ़ॉर्म हैं जहाँ छोटे और मध्यम आकार के व्यवसायों के प्रतिनिधि अपने द्वारा संग्रहीत डेटा का स्वतंत्र रूप से मूल्यांकन करने और इसे व्यवस्थित करने में सक्षम होंगे।

विपणन और व्यवसाय में बड़ा डेटा

सभी मार्केटिंग रणनीतियाँ किसी न किसी तरह सूचना के हेरफेर और मौजूदा डेटा के विश्लेषण पर आधारित हैं। यही कारण है कि बड़े डेटा का उपयोग भविष्यवाणी कर सकता है और कंपनी के आगे के विकास को समायोजित करना संभव बना सकता है।

स्मार्ट होम – भविष्य यहाँ है
स्मार्ट होम – भविष्य यहाँ है

उदाहरण के लिए, बड़े डेटा के आधार पर बनाई गई आरटीबी नीलामी आपको विज्ञापन का अधिक कुशलता से उपयोग करने की अनुमति देती है – एक निश्चित उत्पाद केवल उन उपयोगकर्ताओं के समूह को दिखाया जाएगा जो इसे खरीदने में रुचि रखते हैं।

विपणन और व्यवसाय में बड़ी डेटा तकनीकों का उपयोग करने का क्या लाभ है?

  1. उनकी मदद से, आप बहुत तेज़ी से नए प्रोजेक्ट बना सकते हैं, जिनके खरीदारों के बीच लोकप्रिय होने की संभावना है।
  2. वे ग्राहकों की आवश्यकताओं को मौजूदा या नियोजित सेवा से जोड़ने में मदद करते हैं और इस प्रकार उन्हें समायोजित करते हैं।
  3. बड़ी डेटा विधियां आपको सभी उपयोगकर्ताओं और प्रत्येक की व्यक्तिगत रूप से वर्तमान संतुष्टि की डिग्री का आकलन करने की अनुमति देती हैं।
  4. बड़ी डेटा प्रोसेसिंग विधियों के माध्यम से ग्राहकों की वफादारी बढ़ाना।
  5. बड़ी मात्रा में डेटा को नियंत्रित करने की क्षमता के कारण इंटरनेट पर लक्षित दर्शकों को आकर्षित करना आसान होता जा रहा है।
Big Data
चित्र: Josefkubes | Dreamstime

उदाहरण के लिए, किसी विशेष उत्पाद की संभावित लोकप्रियता का अनुमान लगाने के लिए सबसे लोकप्रिय सेवाओं में से एक Google.trends है। यह विपणक और विश्लेषकों द्वारा व्यापक रूप से उपयोग किया जाता है, जिससे उन्हें अतीत में किसी दिए गए उत्पाद के उपयोग और अगले सीज़न के पूर्वानुमान के आंकड़े प्राप्त करने की अनुमति मिलती है। यह कंपनी के नेताओं को विज्ञापन बजट को अधिक प्रभावी ढंग से वितरित करने की अनुमति देता है, यह निर्धारित करता है कि किस क्षेत्र में पैसा निवेश करना सबसे अच्छा है।

बिग डेटा का उपयोग करने के उदाहरण

बाजार में और आधुनिक जीवन में बिग डेटा प्रौद्योगिकियों का सक्रिय परिचय विश्व-प्रसिद्ध कंपनियों द्वारा उपयोग किए जाने के बाद शुरू हुआ, जिनके दुनिया के लगभग हर कोने में ग्राहक हैं।

इन्फोग्राफिक्स – सूचना प्रस्तुत करने की कला
इन्फोग्राफिक्स – सूचना प्रस्तुत करने की कला

ये फेसबुक और गूगल, आईबीएम जैसे सामाजिक दिग्गज हैं, साथ ही मास्टर कार्ड, वीज़ा और बैंक ऑफ अमेरिका जैसी वित्तीय संरचनाएं हैं।

उदाहरण के लिए, आईबीएम नकद लेनदेन के लिए बड़ी डेटा तकनीकों को लागू कर रहा है। उनकी मदद से, 15% अधिक धोखाधड़ी वाले लेनदेन का पता चला, जिससे संरक्षित धन की मात्रा में 60% की वृद्धि हुई। सिस्टम की झूठी सकारात्मक समस्याओं को भी हल किया गया – उनकी संख्या आधे से भी कम हो गई।

वीज़ा ने इसी तरह बिग डेटा का इस्तेमाल किया, किसी विशेष लेनदेन को करने के लिए धोखाधड़ी के प्रयासों पर नज़र रखी। इसके लिए धन्यवाद, वे सालाना 2 बिलियन अमेरिकी डॉलर से अधिक को रिसाव से बचाते हैं।

जर्मन श्रम मंत्रालय बेरोजगारी लाभ जारी करने के काम में एक बड़ा डेटा सिस्टम लागू करके लागत में 10 अरब यूरो की कटौती करने में कामयाब रहा है। उसी समय, यह पता चला कि नागरिकों का पांचवां हिस्सा बिना औचित्य के इन लाभों को प्राप्त करता है।

बिग डेटा ने गेमिंग उद्योग को भी नहीं छोड़ा है। इस प्रकार, वर्ल्ड ऑफ टैंक के डेवलपर्स ने सभी खिलाड़ियों के बारे में जानकारी का अध्ययन किया और उनकी गतिविधि के उपलब्ध संकेतकों की तुलना की। इससे खिलाड़ियों के संभावित भविष्य के मंथन की भविष्यवाणी करने में मदद मिली – की गई धारणाओं के आधार पर, संगठन के प्रतिनिधि उपयोगकर्ताओं के साथ अधिक प्रभावी ढंग से बातचीत करने में सक्षम थे।

Google Ads: आपको इसका उपयोग क्यों करना चाहिए
Google Ads: आपको इसका उपयोग क्यों करना चाहिए

बड़े डेटा का उपयोग करने वाले उल्लेखनीय संगठनों में एचएसबीसी, नैस्डैक, कोका-कोला, स्टारबक्स और एटी एंड टी भी शामिल हैं।

बड़े डेटा से जुड़ी समस्याएं

बड़े डेटा के साथ सबसे बड़ी समस्या इसे संसाधित करने की लागत है। इसमें भारी मात्रा में जानकारी देने में सक्षम योग्य विशेषज्ञों के लिए महंगे उपकरण और मजदूरी की लागत दोनों शामिल हो सकते हैं। जाहिर है, उपकरणों को नियमित रूप से अपडेट करना होगा ताकि डेटा की मात्रा बढ़ने पर यह अपना न्यूनतम प्रदर्शन न खोए।

Big Data
चित्र: Anatoly Stojko | Dreamstime

दूसरी समस्या फिर से बड़ी मात्रा में जानकारी से संबंधित है जिसे संसाधित करने की आवश्यकता है। यदि, उदाहरण के लिए, एक अध्ययन 2-3 नहीं, बल्कि बड़ी संख्या में परिणाम देता है, तो वस्तुनिष्ठ बने रहना और सामान्य डेटा स्ट्रीम से केवल उन लोगों का चयन करना बहुत मुश्किल है, जिनका किसी घटना की स्थिति पर वास्तविक प्रभाव पड़ेगा।

बिग डेटा गोपनीयता मुद्दा। अधिकांश ग्राहक सेवा सेवाओं के ऑनलाइन डेटा उपयोग के साथ, साइबर अपराधियों के लिए अगला लक्ष्य बनना बहुत आसान है। यहां तक ​​​​कि बिना किसी ऑनलाइन लेनदेन के केवल व्यक्तिगत जानकारी संग्रहीत करना क्लाउड स्टोरेज ग्राहकों के लिए अवांछनीय परिणामों से भरा हो सकता है।

क्लाउड गेमिंग – गेमिंग के मोर्चे पर अत्याधुनिक तकनीक
क्लाउड गेमिंग – गेमिंग के मोर्चे पर अत्याधुनिक तकनीक

सूचना हानि की समस्या। सावधानियों को डेटा के एक बार के साधारण बैकअप तक सीमित नहीं होना चाहिए, बल्कि भंडारण की कम से कम 2-3 बैकअप प्रतियां बनाने की आवश्यकता है। हालाँकि, जैसे-जैसे वॉल्यूम बढ़ता है, अतिरेक की जटिलता बढ़ती जाती है – और आईटी विशेषज्ञ इस समस्या का सबसे अच्छा समाधान खोजने की कोशिश कर रहे हैं।

रूस और दुनिया भर में बिग डेटा प्रौद्योगिकी बाजार

2014 तक, बड़े डेटा बाजार का 40% सेवाएं हैं। इस सूचक से थोड़ा कम (38%) कंप्यूटर उपकरण में बिग डेटा के उपयोग से होने वाला राजस्व है। बाकी 22% सॉफ्टवेयर में है।

आंकड़ों के अनुसार, बिग डेटा समस्याओं को हल करने के लिए वैश्विक खंड में सबसे उपयोगी उत्पाद इन-मेमोरी और नोएसक्यूएल विश्लेषणात्मक प्लेटफॉर्म हैं। बाजार के क्रमश: 15 और 12 प्रतिशत पर लॉग-फाइल विश्लेषणात्मक सॉफ्टवेयर और कॉलमर प्लेटफॉर्म का कब्जा है। लेकिन Hadoop / MapReduce व्यवहार में बड़े डेटा की समस्याओं से निपटने के लिए बहुत प्रभावी नहीं है।

आईटी सुरक्षा के पहरे पर सीज़र का सिफर
आईटी सुरक्षा के पहरे पर सीज़र का सिफर

बड़ी डेटा प्रौद्योगिकियों को लागू करने के परिणाम:

  • ग्राहक सेवा की गुणवत्ता में वृद्धि;
  • आपूर्ति श्रृंखला एकीकरण का अनुकूलन;
  • संगठन योजना अनुकूलन;
  • ग्राहकों के साथ बातचीत में तेजी;
  • ग्राहक अनुरोधों को संसाधित करने की दक्षता में सुधार;
  • सेवा लागत कम करना;
  • ग्राहक अनुरोधों के प्रसंस्करण का अनुकूलन।

बिग डेटा पर सबसे अच्छी किताबें

रिक स्मोलन और जेनिफर एरविट द्वारा “द ह्यूमन फेस ऑफ बिग डेटा”

बड़ी डेटा प्रोसेसिंग प्रौद्योगिकियों के प्रारंभिक अध्ययन के लिए उपयुक्त – यह आपको आसानी से और स्पष्ट रूप से अद्यतित करता है। यह स्पष्ट करता है कि कैसे सूचनाओं की प्रचुरता ने रोजमर्रा की जिंदगी और उसके सभी क्षेत्रों को प्रभावित किया है: विज्ञान, व्यवसाय, चिकित्सा, आदि। इसमें कई उदाहरण हैं, इसलिए इसे बिना अधिक प्रयास के माना जाता है।

पैंग-निंग टैन, माइकल स्टीनबैक और विपिन कुमार द्वारा डेटा माइनिंग का परिचय

बिग डेटा पर शुरुआती लोगों के लिए भी एक उपयोगी पुस्तक, जो बताती है कि बड़े डेटा के साथ “सरल से जटिल” तरीके से कैसे काम करना है। यह प्रारंभिक चरण में कई महत्वपूर्ण बिंदुओं को शामिल करता है: प्रसंस्करण के लिए तैयारी, विज़ुअलाइज़ेशन, OLAP, साथ ही डेटा के विश्लेषण और वर्गीकरण के कुछ तरीके।

जैक फ्रेस्को – हमारे समय के एक उत्कृष्ट वैज्ञानिक
जैक फ्रेस्को – हमारे समय के एक उत्कृष्ट वैज्ञानिक

सेबेस्टियन रास्का द्वारा पायथन मशीन लर्निंग

पायथन प्रोग्रामिंग भाषा का उपयोग करके बड़े डेटा का उपयोग करने और उसके साथ काम करने के लिए एक व्यावहारिक मार्गदर्शिका। इंजीनियरिंग छात्रों और पेशेवरों दोनों के लिए उपयुक्त है जो अपने ज्ञान को गहरा करना चाहते हैं।

“Hadoop for Dummies”, डिर्क डेरस, पॉल एस. ज़िकोपोलोस, रोमन बी. मेलनिक

Hadoop एक परियोजना है जिसे विशेष रूप से वितरित कार्यक्रमों के साथ काम करने के लिए डिज़ाइन किया गया है जो एक ही समय में हजारों नोड्स पर क्रियाओं के निष्पादन को व्यवस्थित करता है। इससे परिचित होने से बड़े डेटा के व्यावहारिक अनुप्रयोग को और अधिक विस्तार से समझने में मदद मिलेगी।

6
विषय साझा करना