大數據—切都已經滲透到這個

— 更新:
大數據—切都已經滲透到這個
圖片: Supawat Kaydeesud | Dreamstime
Editorial
Promdevelop editorial team

“大數據”一詞的字面意思是存儲在任何介質上的大量信息。

此外,這個體積太大,使用通常的軟件或硬件處理它是不切實際的,在某些情況下是完全不可能的。

大數據不僅是數據本身,也是處理和使用數據的技術,是在大數組中尋找必要信息的方法。對於幾十年來一直在積累各種信息的任何系統來說,大數據問題仍然是開放且至關重要的。

這個術語與 “Volume, Velocity, Variety” 表達相關——大數據工作所依據的原則。這些是直接信息量處理速度存儲在數組中的信息種類。最近,在三個基本原則中又增加了一個原則——Value,即信息的價值。也就是說,它在理論或實踐方面應該是有用和必要的,這將證明存儲和處理它的成本是合理的。

大數據源

社交網絡是大數據典型來源的一個例子——每個個人資料或公共頁面都是非結構化信息海洋中的一小滴。此外,無論存儲在特定配置文件中的信息量如何,與每個用戶的交互都應該盡可能快。

DevOps – 開發與運營
DevOps – 開發與運營

大數據幾乎在人類生活的每一個領域都在不斷積累。這包括與人機交互或計算相關的任何行業。這些是社交媒體、醫學、銀行業,以及接收大量日常計算結果的設備系統。例如,天文觀測、氣象信息和來自地球探測設備的信息。

來自各種跟踪系統的實時信息也會發送到特定公司的服務器。電視和無線電廣播,移動運營商的呼叫基地——每個人與他們的互動很少,但總的來說,所有這些信息都變成了大數據。

大數據技術已成為研發和商業不可或缺的一部分。此外,它們開始涉足公共管理領域——在任何地方都需要引入越來越高效的信息存儲和處理系統。

大數據產生與發展的歷史

“大數據”一詞最早出現在 2008 年的媒體上,當時《自然》雜誌的編輯克利福德·林奇 (Clifford Lynch) 發表了一篇關於如何借助大數據技術推動科學未來發展的文章。直到 2009 年,這個術語還只是從科學分析的角度來考慮,但在又發表了幾篇文章之後,媒體開始廣泛使用大數據的概念——並且一直沿用至今。

Big Data
圖片: T.L.Furrer | Dreamstime

2010年,第一次嘗試解決日益嚴重的大數據問題開始出現。發布了軟件產品,其目的是在使用龐大的信息陣列時將風險降至最低。

到 2011 年,微軟、甲骨文、EMC 和 IBM 等大公司開始對大數據產生興趣——他們率先將大數據用於其發展戰略,並且相當成功。

Cookie 是很少有人知道的神秘文件
Cookie 是很少有人知道的神秘文件

大學已經在 2013 年開始將大數據作為一門單獨的學科進行研究——現在不僅是數據科學,而且工程以及計算學科都在處理這一領域的問題。

大數據分析處理技術與方法

數據分析和處理的主要方法包括:

類方法或數據挖掘

這些方法不計其數,但它們是由一件事統一起來的:與信息技術領域的成就結合使用的數學工具。

眾包

這種技術允許您同時從多個來源獲取數據,而後者的數量實際上是無限的。

A/B 測試

從全部數據量中,選擇一個元素的控制集,然後將其與其他類似的集合進行比較,其中一個元素已更改。進行此類測試有助於確定哪些參數波動對控制群體的影響最大。由於大數據的數量,可以進行大量迭代,每次迭代都接近最可靠的結果。

領域驅動設計 – DDD 編程
領域驅動設計 – DDD 編程

預測分析

該領域的專家試圖提前預測和計劃受控對象的行為,以便在這種情況下做出最有利的決定。

機器學習(人工智能)

它基於對信息的經驗分析和隨後為系統構建的自學習算法。

網絡分析

研究社交網絡最常用的方法——在接收到統計數據後,對網格中創建的節點進行分析,即個人用戶與其社區之間的交互。

大數據發展前景與趨勢

2017年,當大數據不再是新鮮事物和未知事物時,它的重要性不僅沒有下降,反而增加了。現在專家們打賭,對大量數據的分析不僅適用於大型組織,也適用於中小型企業。計劃使用以下組件來實施此方法:

雲存儲

數據存儲和處理正在變得更快、更經濟——與維護自己的數據中心的成本和可能的員工擴展相比,租用雲似乎是一個更便宜的選擇。

Big Data
圖片: Dzmitry Ryzhykau | Dreamstime

使用暗數據

所謂“暗數據”,是指公司的所有非數字化信息,在其直接使用中不起關鍵作用,但可能成為切換到新的信息存儲格式的理由。

人工智能和深度學習

機器智能學習技術,模仿人腦的結構和運作,最適合處理大量不斷變化的信息。在這種情況下,機器會做人必須做的所有事情,但出錯的可能性會大大降低。

UX 設計 – 用戶體驗設計
UX 設計 – 用戶體驗設計

區塊鏈

該技術使您可以加快和簡化大量互聯網交易,包括國際交易。區塊鏈的另一個優點是它降低了交易成本。

自助服務和降價

2017 年,計劃推出“自助服務平台”——這些是免費平台,中小型企業的代表將能夠獨立評估他們存儲的數據並將其係統化。

營銷和商業中的大數據

所有營銷策略都以某種方式基於對信息的操縱和對現有數據的分析。這就是為什麼使用大數據可以預測並調整公司進一步發展的原因。

智能家居—未來已來
智能家居—未來已來

例如,基於大數據創建的實時出價拍賣可以讓您更有效地使用廣告——某個產品將只向有興趣購買它的用戶群展示。

在營銷和業務中使用大數據技術有什麼好處?

  1. 在他們的幫助下,您可以更快地創建新項目,這些項目很可能會受到買家的歡迎。
  2. 它們有助於將客戶要求與現有或計劃中的服務聯繫起來,從而進行調整。
  3. 大數據方法可讓您評估所有用戶以及每個用戶當前的滿意度。
  4. 通過大數據處理方法提高客戶忠誠度。
  5. 由於能夠控制大量數據,因此在互聯網上吸引目標受眾變得越來越容易。
Big Data
圖片: Josefkubes | Dreamstime

例如,用於預測特定產品可能受歡迎程度的最受歡迎的服務之一是 Google.trends。它被營銷人員和分析師廣泛使用,使他們能夠獲得過去給定產品使用情況的統計數據並預測下一季。這使公司領導者可以更有效地分配廣告預算,確定最好的投資領域。

使用大數據的例子

大數據技術在市場和現代生活中的積極引入是在它們開始被世界知名公司使用之後開始的,這些公司的客戶幾乎遍布全球每個角落。

信息圖表—呈現信息的藝術
信息圖表—呈現信息的藝術

這些是 Facebook 和谷歌、IBM 等社交巨頭,以及萬事達卡、VISA 和美國銀行等金融機構。

例如,IBM 正在將大數據技術應用於現金交易。在他們的幫助下,檢測到的欺詐交易增加了 15%,從而使受保護資金的數量增加了 60%。系統誤報的問題也得到了解決——它們的數量減少了一半以上。

VISA 類似地使用大數據,跟踪執行特定交易的欺詐企圖。正因為如此,他們每年從洩漏中節省超過 20 億美元。

德國勞工部通過在發放失業救濟金的工作中實施大數據系統,成功削減了 100 億歐元的成本。與此同時,據透露,五分之一的公民在沒有正當理由的情況下獲得這些福利。

大數據也沒有繞過遊戲行業。因此,《坦克世界》的開發人員對所有玩家的信息進行了研究,並比較了他們活動的可用指標。這有助於預測未來可能出現的玩家流失——基於所做的假設,組織代表能夠更有效地與用戶互動。

谷歌廣告:為什麼你應該使用它
谷歌廣告:為什麼你應該使用它

使用大數據的著名組織還包括匯豐銀行、納斯達克、可口可樂、星巴克和 AT&T。

大數據問題

大數據最大的問題是處理成本。這可能包括昂貴的設備和能夠為大量信息提供服務的合格專家的工資成本。顯然,設備必須定期更新,以免隨著數據量的增加而失去其最低性能。

Big Data
圖片: Anatoly Stojko | Dreamstime

第二個問題再次與需要處理的大量信息有關。例如,如果一項研究給出的結果不是 2-3,而是大量結果,那麼很難保持客觀並從一般數據流中僅選擇那些將對現象狀態產生實際影響的數據。

大數據隱私問題。隨著大多數客戶服務服務轉向在線數據使用,很容易成為網絡犯罪分子的下一個目標。即使只是簡單地存儲個人信息而不進行任何在線交易,也可能會給雲存儲客戶帶來不良後果。

雲遊戲 – 遊戲前沿的尖端技術
雲遊戲 – 遊戲前沿的尖端技術

信息丟失問題。預防措施要求不僅限於對數據進行簡單的一次性備份,還需要對存儲進行至少 2-3 個備份副本。然而,隨著數量的增加,冗餘的複雜性也在增加——IT 專家正在努力尋找解決這個問題的最佳方案。

俄羅斯和全球的大數據技術市場

截至 2014 年,40% 的大數據市場是服務。略遜於該指標(38%)的是在計算機設備中使用大數據的收入。剩下的 22% 來自軟件。

據統計,全球解決大數據問題最有用的產品是內存和 NoSQL 分析平台。日誌文件分析軟件和列式平台分別佔據了 15% 和 12% 的市場份額。但是Hadoop/MapReduce在實踐中應對大數據的問題並不是很有效。

凱撒密碼保護 IT 安全
凱撒密碼保護 IT 安全

實施大數據技術的結果:

  • 提高客戶服務質量;
  • 優化供應鏈整合;
  • 組織規劃優化;
  • 加快與客戶的互動;
  • 提高處理客戶請求的效率;
  • 降低服務成本;
  • 優化客戶端請求的處理。

關於大數據的最佳書籍

Rick Smolan 和 Jennifer Erwitt 的“大數據的人性”

適用於大數據處理技術的初步研究 – 它可以輕鬆清晰地讓您了解最新情況。它清楚地表明了豐富的信息如何影響日常生活及其所有領域:科學、商業、醫學等。包含大量插圖,因此無需太多努力即可感知。

Pang-Ning Tan、Michael Steinbach 和 Vipin Kumar 的數據挖掘簡介

也是一本對大數據初學者有用的書,它解釋瞭如何以“從簡單到復雜”的方式處理大數據。它涵蓋了初始階段的許多要點:處理準備、可視化、OLAP,以及一些分析和分類數據的方法。

雅克·弗雷斯科—我們這個時代的傑出科學家
雅克·弗雷斯科—我們這個時代的傑出科學家

Sebastian Raska 的 Python 機器學習

使用 Python 編程語言使用和處理大數據的實用指南。適合想要加深知識的工科學生和專業人士。

“Hadoop for Dummies”,Dirk Derus、Paul S. Zikopoulos、Roman B. Melnik

Hadoop 是一個專為處理分佈式程序而設計的項目,這些程序可以同時在數千個節點上組織操作的執行。熟悉它有助於更詳細地了解大數據的實際應用。

6
內容 分享