Big Data – tout en est déjà imprégné

— Mise à jour:
Big Data – tout en est déjà imprégné
Image: Supawat Kaydeesud | Dreamstime
Editorial
Promdevelop editorial team

Le terme « big data » désigne littéralement une énorme quantité d’informations stockées sur n’importe quel support.

De plus, ce volume est si important qu’il est peu pratique de le traiter avec les logiciels ou matériels habituels, et dans certains cas, c’est totalement impossible.

Le Big Data n’est pas seulement les données elles-mêmes, mais aussi les technologies pour les traiter et les utiliser, les méthodes pour trouver les informations nécessaires dans de grands tableaux. Le problème des mégadonnées est toujours ouvert et vital pour tous les systèmes qui accumulent une grande variété d’informations depuis des décennies.

Ce terme est associé à l’expression « Volume, Velocity, Variety » – les principes sur lesquels repose le travail avec le Big Data. Il s’agit directement de la quantité d’informations, de la vitesse de traitement et de la variété des informations stockées dans le tableau. Récemment, un principe supplémentaire a été ajouté aux trois principes de base – Valeur, ce qui signifie la valeur de l’information. C’est-à-dire qu’il doit être utile et nécessaire en termes théoriques ou pratiques, ce qui justifierait le coût de son stockage et de son traitement.

Sources de mégadonnées

Les réseaux sociaux sont un exemple de source typique de mégadonnées – chaque profil ou page publique est une petite goutte dans un océan d’informations non structuré. De plus, quelle que soit la quantité d’informations stockées dans un profil particulier, l’interaction avec chacun des utilisateurs doit être aussi rapide que possible.

DevOps – Développement & Opérations
DevOps – Développement & Opérations

Les mégadonnées s’accumulent constamment dans presque tous les domaines de la vie humaine. Cela inclut toute industrie liée aux interactions humaines ou à l’informatique. Il s’agit des médias sociaux, de la médecine et du secteur bancaire, ainsi que des systèmes d’appareils qui reçoivent de nombreux résultats de calculs quotidiens. Par exemple, les observations astronomiques, les informations météorologiques et les informations provenant des dispositifs de sondage terrestre.

Les informations provenant de divers systèmes de suivi en temps réel sont également envoyées aux serveurs d’une entreprise particulière. Télévision et radio, bases d’appels des opérateurs mobiles – l’interaction de chaque personne avec eux est minime, mais dans l’ensemble, toutes ces informations deviennent des mégadonnées.

Les technologies de mégadonnées font désormais partie intégrante de la R&D et du commerce. De plus, ils commencent à s’emparer de la sphère de l’administration publique – et partout l’introduction de systèmes de plus en plus efficaces pour stocker et manipuler l’information est nécessaire.

L’histoire de l’émergence et du développement du Big Data

Le terme « big data » est apparu pour la première fois dans la presse en 2008, lorsque le rédacteur en chef de Nature Clifford Lynch a publié un article sur la manière de faire progresser l’avenir de la science à l’aide des technologies du big data. Jusqu’en 2009, ce terme n’était considéré que du point de vue de l’analyse scientifique, mais après la publication de plusieurs autres articles, la presse a commencé à utiliser largement le concept de Big Data – et continue de l’utiliser à l’heure actuelle.

Big Data
Image: T.L.Furrer | Dreamstime

En 2010, les premières tentatives pour résoudre le problème croissant des mégadonnées ont commencé à apparaître. Des produits logiciels ont été lancés, dont l’action visait à minimiser les risques lors de l’utilisation d’énormes tableaux d’informations.

En 2011, de grandes entreprises telles que Microsoft, Oracle, EMC et IBM se sont intéressées au Big Data – elles ont été les premières à utiliser le Big Data dans leurs stratégies de développement, et avec beaucoup de succès.

Les cookies sont des fichiers mystérieux que peu de gens connaissent
Les cookies sont des fichiers mystérieux que peu de gens connaissent

Les universités ont commencé à étudier les mégadonnées en tant que matière distincte dès 2013 – maintenant, non seulement les sciences des données, mais aussi l’ingénierie, ainsi que les matières informatiques, sont confrontées à des problèmes dans ce domaine.

Techniques et méthodes d’analyse et de traitement du Big Data

Les principales méthodes d’analyse et de traitement des données sont les suivantes :

Méthodes de classe ou exploration de données

Ces méthodes sont assez nombreuses, mais elles sont unies par une chose : les outils mathématiques utilisés en conjonction avec les réalisations dans le domaine des technologies de l’information.

Crowdsourcing

Cette technique permet d’obtenir simultanément des données de plusieurs sources, et le nombre de ces dernières est pratiquement illimité.

Test A/B

A partir de la quantité totale de données, un ensemble de contrôle d’éléments est sélectionné, qui est à son tour comparé à d’autres ensembles similaires, où l’un des éléments a été modifié. La réalisation de tels tests permet de déterminer quelles fluctuations de paramètres ont le plus d’effet sur la population témoin. Grâce aux volumes de Big Data, il est possible d’effectuer un très grand nombre d’itérations, chacune s’approchant du résultat le plus fiable.

Conception pilotée par domaine – Programmation DDD
Conception pilotée par domaine – Programmation DDD

Analyse prédictive

Les spécialistes dans ce domaine tentent de prédire et de planifier à l’avance le comportement de l’objet contrôlé afin de prendre la décision la plus avantageuse dans cette situation.

Apprentissage automatique (intelligence artificielle)

Il est basé sur une analyse empirique de l’information et la construction subséquente d’algorithmes d’auto-apprentissage pour les systèmes.

Analyse du réseau

La méthode la plus courante pour l’étude des réseaux sociaux – après avoir reçu des données statistiques, les nœuds créés dans la grille sont analysés, c’est-à-dire les interactions entre les utilisateurs individuels et leurs communautés.

Perspectives et tendances du développement du Big Data

En 2017, alors que le big data n’est plus quelque chose de nouveau et d’inconnu, son importance n’a non seulement pas diminué, mais a même augmenté. Désormais, les experts parient que l’analyse de grandes quantités de données deviendra disponible non seulement pour les organisations géantes, mais également pour les petites et moyennes entreprises. Cette approche est prévue pour être mise en œuvre à l’aide des composants suivants :

Stockage dans le cloud

Le stockage et le traitement des données deviennent plus rapides et plus économiques – par rapport aux coûts de maintenance de votre propre centre de données et à l’éventuelle augmentation du personnel, la location d’un cloud semble être une alternative beaucoup moins chère.

Big Data
Image: Dzmitry Ryzhykau | Dreamstime

Utiliser des données sombres

Les soi-disant « données sombres » sont toutes les informations non numérisées sur une entreprise qui ne jouent pas un rôle clé dans son utilisation directe, mais peuvent servir de raison pour passer à un nouveau format de stockage des informations.

Intelligence artificielle et apprentissage en profondeur

La technologie d’apprentissage de l’intelligence artificielle, qui imite la structure et le fonctionnement du cerveau humain, est la mieux adaptée pour traiter une grande quantité d’informations en constante évolution. Dans ce cas, la machine fera tout ce qu’une personne aurait à faire, mais la probabilité d’erreur est considérablement réduite.

Conception UX – Conception de l’expérience utilisateur
Conception UX – Conception de l’expérience utilisateur

Blockchain

Cette technologie permet d’accélérer et de simplifier de nombreuses transactions Internet, y compris internationales. Un autre avantage de Blockchain est qu’il réduit les coûts de transaction.

Libre-service et réductions de prix

En 2017, il est prévu d’introduire des « plateformes en libre-service » – ce sont des plates-formes gratuites où les représentants des petites et moyennes entreprises pourront évaluer de manière indépendante les données qu’ils stockent et les systématiser.

Mégadonnées dans le marketing et les affaires

Toutes les stratégies marketing reposent en quelque sorte sur la manipulation de l’information et l’analyse des données existantes. C’est pourquoi l’utilisation des mégadonnées peut prédire et permettre d’ajuster le développement futur de l’entreprise.

Maison intelligente – le futur est là
Maison intelligente – le futur est là

Par exemple, une enchère RTB créée sur la base de données volumineuses vous permet d’utiliser la publicité plus efficacement – un certain produit ne sera présenté qu’au groupe d’utilisateurs intéressés à l’acheter.

Quel est l’avantage d’utiliser les technologies du Big Data dans le marketing et les affaires ?

  1. Avec leur aide, vous pouvez créer de nouveaux projets beaucoup plus rapidement, qui sont susceptibles de devenir populaires auprès des acheteurs.
  2. Ils aident à relier les exigences des clients à un service existant ou prévu et ainsi à les ajuster.
  3. Les méthodes de Big Data vous permettent d’évaluer le degré de satisfaction actuel de tous les utilisateurs et de chacun individuellement.
  4. L’augmentation de la fidélité des clients est obtenue grâce aux méthodes de traitement du Big Data.
  5. Attirer le public cible sur Internet devient plus facile grâce à la capacité de contrôler d’énormes quantités de données.
Big Data
Image: Josefkubes | Dreamstime

Par exemple, l’un des services les plus populaires pour prédire la popularité probable d’un produit particulier est Google.trends. Il est largement utilisé par les spécialistes du marketing et les analystes, leur permettant d’obtenir des statistiques sur l’utilisation d’un produit donné dans le passé et des prévisions pour la prochaine saison. Cela permet aux chefs d’entreprise de répartir plus efficacement le budget publicitaire, de déterminer dans quel domaine il est préférable d’investir de l’argent.

Exemples d’utilisation du Big Data

L’introduction active des technologies Big Data sur le marché et dans la vie moderne a commencé juste après qu’elles aient commencé à être utilisées par des entreprises de renommée mondiale qui ont des clients dans presque tous les coins du globe.

Infographie – l’art de présenter l’information
Infographie – l’art de présenter l’information

Ce sont des géants sociaux tels que Facebook et Google, IBM., ainsi que des structures financières comme Master Card, VISA et Bank of America.

Par exemple, IBM applique des techniques de mégadonnées aux transactions en espèces. Avec leur aide, 15 % de transactions frauduleuses supplémentaires ont été détectées, ce qui a augmenté le montant des fonds protégés de 60 %. Les problèmes de faux positifs du système ont également été résolus – leur nombre a été réduit de plus de moitié.

VISA a également utilisé le Big Data, traquant les tentatives frauduleuses d’effectuer une transaction particulière. Grâce à cela, ils économisent chaque année plus de 2 milliards de dollars américains sur les fuites.

Le ministère allemand du Travail a réussi à réduire les coûts de 10 milliards d’euros en mettant en œuvre un système de mégadonnées dans le travail d’octroi des allocations de chômage. Dans le même temps, il a été révélé qu’un cinquième des citoyens perçoivent ces prestations sans justification.

Le Big Data n’a pas non plus contourné l’industrie du jeu. Ainsi, les développeurs de World of Tanks ont mené une étude des informations sur tous les joueurs et comparé les indicateurs disponibles de leur activité. Cela a permis de prédire l’éventuelle rotation future des joueurs – sur la base des hypothèses formulées, les représentants de l’organisation ont pu interagir plus efficacement avec les utilisateurs.

Google Ads : pourquoi l’utiliser
Google Ads : pourquoi l’utiliser

Les organisations notables utilisant le Big Data incluent également HSBC, Nasdaq, Coca-Cola, Starbucks et AT&T.

Problèmes de mégadonnées

Le plus gros problème avec les mégadonnées est le coût de leur traitement. Cela peut inclure à la fois un équipement coûteux et le coût des salaires de spécialistes qualifiés capables de traiter d’énormes quantités d’informations. Évidemment, l’équipement devra être régulièrement mis à jour afin qu’il ne perde pas ses performances minimales à mesure que la quantité de données augmente.

Big Data
Image: Anatoly Stojko | Dreamstime

Le deuxième problème est à nouveau lié à la grande quantité d’informations à traiter. Si, par exemple, une étude donne non pas 2-3, mais un grand nombre de résultats, il est très difficile de rester objectif et de ne sélectionner dans le flux général de données que ceux qui auront un réel impact sur l’état d’un phénomène.

Problème de confidentialité des mégadonnées. La plupart des services de service client passant à l’utilisation des données en ligne, il est très facile de devenir la prochaine cible des cybercriminels. Même le simple fait de stocker des informations personnelles sans effectuer de transactions en ligne peut avoir des conséquences indésirables pour les clients du stockage en nuage.

Cloud gaming – technologie de pointe sur le front du jeu
Cloud gaming – technologie de pointe sur le front du jeu

Le problème de la perte d’informations. Les précautions exigent de ne pas se limiter à une simple sauvegarde ponctuelle des données, mais de faire au moins 2-3 copies de sauvegarde du stockage. Cependant, à mesure que le volume augmente, la complexité de la redondance augmente – et les spécialistes informatiques tentent de trouver la meilleure solution à ce problème.

Marché des technologies du Big Data en Russie et dans le monde

En 2014, 40 % du marché du big data est constitué de services. Légèrement inférieurs (38%) à cet indicateur sont les revenus de l’utilisation du Big Data dans les équipements informatiques. Les 22 % restants sont dans les logiciels.

Selon les statistiques, les produits les plus utiles du segment mondial pour résoudre les problèmes de Big Data sont les plateformes d’analyse In-memory et NoSQL. 15 et 12 % du marché, respectivement, sont occupés par les logiciels d’analyse de fichiers journaux et les plates-formes Columnar. Mais Hadoop / MapReduce en pratique faire face aux problèmes de big data n’est pas très efficace.

Le chiffre de César veille à la sécurité informatique
Le chiffre de César veille à la sécurité informatique

Résultats de la mise en œuvre des technologies de mégadonnées :

  • la croissance de la qualité du service client ;
  • optimiser l’intégration de la chaîne d’approvisionnement ;
  • optimisation de la planification de l’organisation ;
  • accélération de l’interaction avec les clients ;
  • améliorer l’efficacité du traitement des demandes des clients ;
  • réduire les coûts de service ;
  • optimiser le traitement des demandes des clients.

Les meilleurs livres sur le Big Data

« Le visage humain du Big Data » par Rick Smolan et Jennifer Erwitt

Adapté à l’étude initiale des technologies de traitement de données volumineuses – il vous met facilement et clairement à jour. Il montre clairement comment l’abondance d’informations a affecté la vie quotidienne et tous ses domaines : science, affaires, médecine, etc. Contient de nombreuses illustrations, de sorte qu’il est perçu sans trop d’effort.

Introduction à l’exploration de données par Pang-Ning Tan, Michael Steinbach et Vipin Kumar

Également un livre utile pour les débutants sur le Big Data, qui explique comment travailler avec le Big Data de manière « du simple au complexe ». Il couvre de nombreux points importants au stade initial: préparation au traitement, visualisation, OLAP, ainsi que certaines méthodes d’analyse et de classification des données.

Jacque Fresco – un scientifique exceptionnel de notre temps
Jacque Fresco – un scientifique exceptionnel de notre temps

Apprentissage automatique Python par Sebastian Raska

Un guide pratique pour utiliser et travailler avec le Big Data à l’aide du langage de programmation Python. Convient aussi bien aux élèves-ingénieurs qu’aux professionnels qui souhaitent approfondir leurs connaissances.

« Hadoop pour les nuls », Dirk Derus, Paul S. Zikopoulos, Roman B. Melnik

Hadoop est un projet conçu spécifiquement pour fonctionner avec des programmes distribués qui organisent l’exécution d’actions sur des milliers de nœuds en même temps. Sa connaissance aidera à comprendre plus en détail l’application pratique des mégadonnées.

6
Contenu Partager