Le big data, terme anglais que l’on peut traduire littéralement par “données massives” ou “mégadonnées”, désigne l’ensemble des données qui circulent chaque jour sur Internet.
Depuis l’avènement des nouvelles technologies de l’information et de la communication et des réseaux sociaux, les volumes de données ont augmenté de façon exponentielle dans le monde, et ne cessent de continuer à croître. Ainsi, selon Statista, les données étaient au nombre de 64 zettaoctets en 2020 ; elles devraient atteindre 184 zettaoctets en 2025 (prévisions de 2021).
En effet, la moindre information sur Internet constitue une partie de ces données : les publications sur les réseaux sociaux, les enregistrements d’achats, les articles de presse publiés chaque jour, et même chaque like ou chaque commentaire sur n’importe quel article de site web engendre une donnée enregistrée.
Le big data constitue donc autant une caractéristique de notre société actuelle qu’un enjeu pour les entreprises : en effet, le traitement et l’utilisation de ces mégadonnées ont transformé les business model des sociétés. Quels sont donc les caractéristiques et les défis à venir du big data ? Scripters revient avec vous sur l’histoire des mégadonnées.
Big data : Histoire de l’émergence des mégadonnées
Selon l’ACM (Association for Computing Machinery), la notion de big data serait apparue en 1997 dans un article scientifique pour évoquer des ensembles de données de plus en plus importants.
Ces derniers apparaissent avec l’avènement de deux technologies : les nouvelles technologies de l’information et de la communication d’une part, dont les réseaux sociaux, dans les années 2000, et l’avènement du cloud computing d’autre part, qui a rendu possible le stockage d’un nombre considérable de données, en utilisant Internet.
Véritable bouleversement pour la société, l’apparition des mégadonnées a pu être comparée à des inventions majeures (comme l’électricité), ou à une troisième révolution industrielle qui serait une révolution de l’information.
En effet, avec une masse d’informations circulant sur Internet et disponibles au plus grand nombre (texte, photos, vidéos, mais aussi workflow, etc.), les mégadonnées ont rebattu les cartes du business model de nombreuses entreprises : marketing, commerce, communication, mais aussi des domaines de la santé et même de la politique.
Entreprises et institutions peuvent ainsi utiliser les données pour être plus compétitives ou pour servir leurs intérêts : mais pourquoi ? Tout simplement parce que ces données, en étant de plus en plus massives, deviennent une mine d’or d’informations. Mais qu’est-ce qui distingue le big data des données dites traditionnelles ?
Définition et caractéristiques du big data
Le big data a créé une véritable révolution, en rassemblant un nombre infini de données provenant de multiples sources que les outils de traitement traditionnels ne pouvaient plus gérer. Quelles sont donc les caractéristiques de ces mégadonnées ?
Les 3V du big data
Le big data se définit par différentes caractéristiques que l’on a rassemblées sous le concept des 3V : vélocité, volume, variété.
- vélocité : les données circulent à une vitesse importante, et sont créées, diffusées et analysées en temps réel ;
- volume : leur nombre est exponentiel, provenant de multiples sources ;
- Variété : celles-ci sont très diverses, pouvant être brutes (c’est-à-dire provenant directement de leur source, sans modification), structurées (donnée prédéfinie, formatée selon un modèle précis) ou semi-structurées.
À ces trois V, on a pu en ajouter un quatrième, à savoir la “véracité”: en effet, les données doivent être fiables, provenant d’une source sûre et attestée, afin de pouvoir délivrer une information de qualité. La valeur et la variabilité ont enfin pu être perçues comme d’autres caractéristiques du big data.
Les conditions de possibilité du big data : le traitement des données
Si les technologies de l’information et de la communication, les réseaux sociaux et l’essor du cloud computing ont permis l’émergence du big data, des conditions se sont également mises en place pour faciliter le traitement de ces mégadonnées et en rendre possible l’utilisation.
Ce sont des technologies qui ont été à l’origine de cette possibilité, à savoir des outils de traitement de données, au premier rang desquels Hadoop.
Hadoop est un framework Big data, c’est-à-dire un outil qui permet le traitement du big data grâce à sa puissance de traitement pouvant analyser rapidement un nombre colossal de données, quasiment en temps réel. Son volume de stockage considérable sur machine ainsi que son framework open source (soit ouvert et gratuit) en fait un allié de taille pour toute entreprise souhaitant analyser ses données.
Enfin, l’avènement de calcul à haute performance, comme MapReduce, a également participé à rendre le traitement du big data accessible au plus grand nombre.
On le voit, les outils et systèmes d’analyse de plus en plus sophistiqués, utilisant l’automatisation, rendent le big data et le traitement de l’information accessibles aux entreprises et aux institutions. Le rôle de plus en plus prégnant de l’intelligence artificielle dans l’analyse des données permet également cette démocratisation.
Vous avez besoin de gérer et de traiter de nombreuses données ? Les outils informatiques, et notamment les logiciels métiers peuvent vous y aider : faites appel à Scripters pour un outil sur mesure qui serve vos objectifs d’analyse des données !
Offrant des possibilités infinies d’exploitation des informations, cette science des données devient primordiale : on parle ainsi de Data Science ou de Data Science Management. Quels sont donc les enjeux des entreprises et des institutions face au big data ?
Enjeux du big data pour les entreprises
L’importance du big data, véritable or noir
Qualifié d’or noir du 21ᵉ siècle, le big data est devenu un outil précieux pour de nombreux domaines privés et publics, que ce soit la vente de produits ou de services, le secteur de l’information et de la culture, l’industrie, la finance, ou encore la vie publique et politique.
En effet, pour les institutions publiques comme pour les entreprises privées, maîtriser la gestion des données et savoir les utiliser est une manière d’arriver à ses objectifs, qu’ils soient financiers ou autres.
Par exemple, une entreprise qui vend des produits cosmétiques pourra récolter les informations sur les achats en ligne de ses clients pour pouvoir leur proposer des produits similaires ou complémentaires lors d’un prochain mail personnalisé.
De la même façon, un candidat aux élections présidentielles peut analyser les comportements des électeurs sur les réseaux sociaux pour comprendre leurs attentes, et s’y conformer.
Ces applications de l’utilisation du big data ne sont que de maigres exemples par rapport à l’envergure des possibilités offertes par les mégadonnées. Celles-ci sont ainsi fortement liées à l’utilisation de l’informatique et d’Internet : ainsi, les habitudes des consommateurs sur les sites en ligne, tout comme celles des internautes sur Google, peuvent être scrutées pour devenir une mine d’information pour des campagnes, marketing ou politiques, à venir.
Les défis des mégadonnées
Cependant, ce champ des possibles ne s’ouvre que lorsque l’analyse des données est un processus acquis par une entreprise : les défis sont encore nombreux pour les sociétés.
Chaque entreprise doit en effet se doter de ressources (humaines et machines) pour être capable d’analyser un nombre colossal de données et d’insights livrés par différentes sources (sites internet, applications, réseaux sociaux, etc.). Si l’intelligence de la data est en pleine expansion (les data scientist sont des profils recherchés), cette transformation n’est pas sans difficulté.
Celle-ci réside dans l’exploitation des données, si possible en temps réel. L’adoption d’un business model fondé sur les données repose sur 3 actions :
- intégrer (rassembler des données issues de systèmes différents, si possible sous une même forme) ;
- gérer (bénéficier d’un système de stockage performant, cloud ou autre) ;
- analyser (favoriser un traitement rapide et efficace des volumes de données de manière à les rendre utiles et exploitables).
Dès lors, les entreprises pourront être à même d’utiliser les données pour répondre aux attentes de leurs clients, et donc de leur business. Cela semble être le défi du 21ème siècle et de cette “révolution informationnelle”.