dimanche 13 janvier 2013

Data, Big Data, DataViz, Data Scientist, OpenData… reprenons du début

Un des principaux objectifs de ce blog est d'aborder les différents aspects de la diffusion de l'information géographique. Cela commence forcément par évoquer la source de toute information: la donnée. Autour du concept de la Data, gravitent de nouveaux phénomènes comme le Big Data, la Data Viz ou l'Open Data … Des journalistes aux décideurs en passant par les spécialistes techniques, tout le monde s'en fait désormais l'échos. Alors avant d'aborder régulièrement ces thèmes dans les prochains mois, reprenons depuis le début chacun de ces concepts.



La Data

La Data constitue le cœur de tous nos systèmes d'information et jouent donc un rôle essentiel dans la prise de décisions économiques, stratégiques ou politiques. Stockées de manière numérique, les données sont le plus souvent structurées et peuvent ainsi être traitées efficacement grâce à la puissance des outils informatiques. La Data étant par définition extrêmement diverse, son traitement a fait naître de nombreuses disciplines comme par exemple la géomatique pour l'information géographique ou la Business Intelligence (BI) pour l'information décisionnelle.

GeoData

Sans qu'il soit évident de le démontrer, il est communément admis que 80% de nos bases de données ont une composante géographique, on parlera donc parfois de GeoData. Que ces données soit directement géographiques (imagerie satellitaire, relevés topographiques, coordonnées GPS, …) ou indirectement (adresse postal, adresse IP, cellule radio d'un téléphone portable, …) cela veut dire que la grande majorité des informations issues de nos bases de données peut s'analyser sous un angle spatial  et se représenter sous la forme de cartes. Un potentiel énorme qu'on est loin, aujourd'hui, d'avoir exploité totalement.


Big Data, le nouveau défi de la Data

Depuis toujours, ce sont les capacités informatiques qui sont les principales limites à la croissance des bases de données: technologies de collecte, capacité de stockage, débit des réseaux et puissance de calcul. Depuis quelques années, des évolutions majeures autour de ces 4 axes ouvrent de nouvelles possibilités. Aujourd'hui, nous tous devenus des capteurs fournissant en permanence, plus ou moins directement des données. En détenant une carte de fidélité de votre supermarché préféré, en activant la géolocalisation de vos messages sur Facebook ou encore en cliquant sur les liens d'un site d'e-commerce, vous contribuez à alimenter des bases de données dont le niveau de détails et donc le volumes sont absolument inédits. Plus vertigineux encore, dans quelques années les principaux fournisseurs de données ne seront plus les humains mais en majorité des capteurs tels que les caméras de surveillance, les sondes météos, le GPS et autres sondes de votre véhicule, votre navigateur web, votre carte bancaire ou votre réfrigérateur.

Copyright: HP

On estime qu'en 2013, l’humanité produit autant de données en 2 jours qu’elle ne l’a fait en deux millions d’années. Cette croissance irréversible des bases de données et les enjeux techniques qui en découlent (collecte, stockage, format, diffusion, traitement) conduisent à une nouvelle approche que l'on nomme le "Big Data". Des architectures informatiques à adapter, des méthodes de traitement à réinventer mais aussi de nouveaux modes de restitution de l'information à imaginer, le Big Data est probablement un des grands défis informatiques de la décennie en cours. C'est en même temps un formidable gisement d'opportunités en termes de business et de parcours professionnels.

Quelques articles sur le Big Data:
- Comment le Big Data va révolutionner 2013 ?
- Le Big Bang du Big Data
- Vertigineux Big Data


Un nouveau métier: Data Scientist

L'explosion de l'analytique et des Big Data dans l'entreprise révèle de nouveaux besoins en termes de compétences et donc de nouveaux profils, pour l'instant assez rares. C'est le cas notamment du Data Scientist pour lequel il n'existe pas de formation mais qui pourtant est promis à un avenir radieux. Les Data Scientists sont généralement passionnés de mathématiques (fondamentales) et qui occupent leur temps à triturer d'énormes masses de données, à les trier, à les sélectionner, à construire des modèles d'analyse et enfin à proposer des solutions de visualisation pour comprendre ces données. Cet article sur un salarié de Twitter donne une vision intéressante du Data Scientist.


Le Data Scientist rassemble donc trois compétences essentielles: la statistique, l'informatique et la communication. Rien qu'aux Etats-Unis, on estime le besoin en Data Scientist à plus de 100 000 spécialistes d'ici 2020. Le job le plus sexy du 21ème siècles ?


Data Viz, ou l'art de transformer ses données en information

Comprendre et se faire comprendre est un pouvoir essentiel pour prétendre vitre dans une démocratie. Cependant, dans une ère on l'on est submergé par les informations, être capable d'intégrer ces masses de données pour produire une information efficace (audible, compréhensible, accessible,...) est un véritable défi.  Savoir collecter les contenus pertinents, les filtrer, les nettoyer, les compléter constituent une tâche essentielle facilité par les évolutions technologiques. Mais au delà de ça, choisir la meilleure représentation visuelle pour faire passer des messages constitue une tâche tout aussi importante. Quel type de schéma, de diagramme, l'illustration, de vidéo ou de carte vais-je utiliser pour présenter et persuader à partie de mes données; c'est l'enjeu de la Data Vizualisation (Data Viz).

Copyright: The Guardian

Plus qu'un phénomène de mode la Data Viz devient une véritable discipline dans laquelle les nouvelles technologies (le son, la vidéo, le tactile, la réalité virtuelle, ...) se combinent avec l'illustration, le graphisme et bien sur la cartographie.

Si vous voulez aller plus loin, je vous recommande cet excellent blog ainsi que cet article: L'ère de la Data Viz commence aujourd'hui ou en core celui-ci: How to use maps in Data Vizualisation.


Et l'Open Data dans tout ça ?

Sans lien direct avec le Big Data, un nouveau phénomène contribue aujourd'hui à l'accélération et à la diversification des usages de la Data: l'ouverture des données (Open Data). Ce terme est utilisé pour qualifier les initiatives favorisant la libération des données publiques et leur diffusion auprès du plus grand nombre. L'objectif de l'Open Data est de fournir une information relativement brute et facile d'accès (via le web) pour permettre l'élargir les usages et encourager l'innovation. Pour cela, les données sont diffusées selon des formats interopérables et des conditions de licences ouvertes pouvant aller dans certains cas jusqu'à autoriser la transformation et la redistribution des données.

Depuis deux ans, un nombre significatif de projets Open Data ont vu le jour à commencer par celui du gouvernement français (data.gouv.fr) mais aussi de nombreuses initiatives de collectivités territoriales comme le Département de La Saône et Loire ou l'agglomération de Montpellier. On pourra également signaler des projets d'opérateurs de services publics comme celui de la RATP ou de la SNCF.

    

2 commentaires: