Le big data dans la stratégie de développement économique : identification des nouveaux enjeux et tendances du marché
Le big data dans la stratégie de développement économique : identification des nouveaux enjeux et tendances du marché
Mémoire de fin d’étude
Arnaud Ponremy
BBA 4 – Entrepreneurship & New business model
Superviseur: Emmanuel Renaud
Remerciement
À la veille de présenter ce mémoire, et clore le dernier chapitre de mon cursus académique à Sup de Co La Rochelle, je suis envahi d’une indicible émotion.
À la pensée des rencontres, des découvertes et des personnes, des lieux et des horizons qui ont élargi le champ de toutes mes ambitions d’aujourd’hui.
Durant ces quatre années d’études, j’ai appris des choses fondamentales pour mon avenir professionnel, et en particulier, celle de ne jamais lâcher le la proie de mes ambitions pour l’ombre de mes doutes et incertitudes.
Je veux maintenant rendre un hommage appuyé à toutes les personnes de mon Ecole, qui ont été disponibles pour moi, en me prodiguant leurs précieux et merveilleux enseignements.
Par leur présence permanente à mes côtés, elles ont illuminé un chemin qui n’a pas toujours été facile.
– Merci à de Sup de Co La Rochelle, et à l’ensemble des enseignants de ma promotion.
– Merci à mes Directeurs de stages et leurs collaborateurs dans les différents services que j’ai découverts.
– Merci aux entreprises qui m’ont fait confiance, et notamment Allianz qui m’offre un véritable support dans la réalisation de ce mémoire
– Merci enfin à tous ceux grâce à qui j’ai pu structurer ma recherche pour ce mémoire, étoffer mon argumentation, et le finaliser afin qu’il soit soumis à l’appréciation de mes correcteurs.
De près ou de loin, que chacun soit remercié pour sa juste contribution à cet effort qui m’attend encore.
Que chaque participation, soit à jamais, une pierre sur cette route de la réussite que je serai amené à partager, un jour peut-être, avec ceux qui vont me suivre dans cette voie.
À vous tous, ma grande reconnaissance !
Sommaire
Chapitre 1 : les prémices du Big data.. 9
I- Les origines du Big data.. 9
II- Première application en entreprise.. 16
Chapitre 2 : La science des données comme support du Big data.. 24
II- Enjeux et compréhension des procédés. 31
Chapitre 3 : Big data et Science des données dans le développement stratégique et économique.. 37
I- Big data et Science des données dans la prise de décision stratégique 39
II- Les limites du Big data.. 43
Résumé
Pilier incontournable de la société contemporaine, les technologies de l’information sont un secteur qui connaît une seconde révolution, celle des très grands volumes de données, ou Big Data. Les volumes produites, recueillis, élaborés s et stockés chaque jour croissent à un rythme si rapide qu’il est impossible de les gérer à l’aide d’outils informatiques conventionnels. Il est par ailleurs devenu quasi impossible d’envisager notre vie quotidienne sans échange de données. Preuves en sont les secteurs tels que la communication, le divertissement, les prestations financières et de santé, les réseaux sociaux ou encore les services de téléphonie mobile. Dans des économies de l’information telles que la Suisse, les données sont devenues un élément indissociable des produits et des services. Avec la masse d’informations à laquelle les entreprises ont accès, la question qui se pose au contrôle de gestion concerne l’utilisation de ces masses de données étant donné que son objectif est d’améliorer le processus de décision pour accroitre la performance. Actuellement, les sciences numériques mettent en œuvre différents outils quantitatifs destinés à la production, au calibrage et à la validation des modèles et des prévisions établis sur la base de ce type d’analyse.
Dans presque la majorité des cas, cette révolution du « big data » est indispensable pour le développement, ou même la survie des entreprises dans un monde de plus en plus compétitif.
Mots clés : Big Data, science des données, nouvelles technologies, décision stratégique, dématérialisation.
Key Words : Big Data, data science, new technologies, strategic decision, dematerialization
Introduction
À la fois omniprésente et vaporeuse, la notion de Big Data a connu un important développement au cours de cette dernière décennie. Le développement a également connu la faveur des beaucoup de médias – à travers des publications remarquées dans des revues prestigieuses. Toutefois, aucun consensus ne s’est véritablement dessiné jusqu’à aujourd’hui sur ce que signifiait réellement l’expression.
Parmi les nombreuses définitions pour caractériser le big data, celle que nous présentons ci-après semble être la plus synthétique et la plus simple pour une meilleure compréhension : « le Big Data est l’ensemble de données qui deviennent tellement volumineux qu’ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l’information »[1]. Toutefois, il est important de préciser que cette définition ne couvre pas toutes les significations évoquées par la notion de big data. Cette notion est ainsi utilisée comme une notion synthétique rassemblant à la fois trois éléments essentiels qui caractérisent le Big Data : une importante augmentation du nombre de données produites par l’activité humaine, une amélioration continue de la capacité des data scientiste à stocker d’importants volumes de données, ainsi qu’un fort développement de possibilités inédites permettant une analyse efficacité des données par le biais de différents moyens informatiques et à travers le croisement de différents jeux de données hétérogènes à la recherche de corrélations entre jeux de données.
L’assemblage de ces trois éléments a comme objectif principal de mettre en évidence les motifs récurrents destinés à aider les entreprises à la prise de décision en se basant particulièrement sur des valeurs prédictives.
Bien que les données massives se rapportent à divers domaines d’activités et de recherche, notamment dans le cadre de la recherche scientifique, il faut noter que le phénomène est fréquemment évoqué dans ses relations avec la sphère marchande. Dans ce dernier contexte, la notion de « Big data » traduit la collecte et l’analyse des traces numériques de toutes sortes laissées par les individus, le croisement de différents jeux de données pour arriver à une corrélation, pour proposer des services commerciaux adaptés ou encore pour exploiter directement les informations disponibles et d’en tirer des enseignements.
Dans ce travail, nous nous intéressons particulièrement à l’utilisation du Big data dans les entreprises ainsi qu’au différentes opportunités que cela procure à travers la problématique suivante : « le Big Data dans la stratégie de développement économique : quels sont les nouveaux enjeux et la nouvelle tendance du marché ? ».
Pour apporter des éléments de réponses à cette problématique, ce travail se divise en trois grandes parties :
- Première partie : La première partie de ce travail se focalise sur les prémices du Big data, en s’intéressant principalement à son origine, à son préliètre d’application ainsi qu’aux différents enjeux stratégiques et technologiques qui y sont liés.
- Seconde partie : la seconde partie de ce travail concerne essentiellement la science des données en la considérant comme un support pour le Big Data. Dans cette seconde partie, nous traiterons les concepts fondamentaux se rapportant à la science des données, sa relation avec le Big Data ainsi que les différents enjeux et compréhension des procédés dans le traitement des données.
Troisième partie : dans la troisième et dernière partie de ce travail, nous nous intéresserons particulièrement à l’importance du Big Data et des sciences des données dans le développement stratégique et économique des entreprises en évoquant leur rôle et les limites dans leur application.
Chapitre 1 : les prémices du Big data
Les nouvelles technologies de l’information et de la communication offrent de nouvelles opportunités de communication et de travail au sein des entreprises et entre elles. Les nouveaux outils de travail influencent les différentes modalités de travail et de contrôle. Pour faire face efficacement à l’explosion du volume des données ainsi qu’au nombre croissant de périphériques, de nouveaux outils innovants tels que le Cloud, le Big Data, ou encore le BI (Business Intelligence) ont vu le jour. Dans ce travail, nous nous intéresserons uniquement au Big Data.
Le Big Data est un terme si fréquemment utilisé actuellement à tel point où la Commission générale de terminologie et de néologie n’ont hésité à s’en est emparé, révélant le 22 août dernier sa traduction officielle en français : « données structurées ou non dont le très grand volume requiert des outils d’analyse adaptés ».
La commission précise également l’utilisation de l’expression « données massives », qui est actuellement privilégiée par les entreprises.
Au milieu de l’abondance de définitions divergentes, il est difficile de se faire une idée précise de ce phénomène récent. Le Big Data consiste à extraire l’information pertinente d’un amas de données.
I- Les origines du Big data
Tout d’abord, il faut noter que le concept de Big data désigne un ensemble de données extrêmement volumineuses dépassant largement les capacités de stockage et d’évaluation traditionnelles des entreprises.
Le développement conséquent du Big Data peut s’expliquer par trois facteurs : le coût de stockage, les plateformes de stockage distribuées et les réseaux à très haut débit ainsi que les nouvelles technologies de gestion et d’analyse de données.
Ce sont des scientifiques de la NASA qui ont premièrement utilisé le terme de «Big Data » en 1997 pour traduire leur difficulté à gérer et à visualiser d’importantes bases de données qui dépassaient largement les capacités de leurs systèmes informatiques.
Durant l’année 2008, un groupe d’ingénieurs américains adopte également l’expression en la traduisant le Big Data computing comme un outil ayant la capacité de générer de profonds changements dans le cadre des activités des entreprises, des chercheurs scientifiques, des médecins, etc. Toutefois, il n’existe pas jusqu’à ce jour une définition claire du Big Data computing. Ainsi, s’intéresser au concept de Big Data amène souvent se confronter à une difficulté à trouver une définition claire et consensuelle.
Par ailleurs, L’article Forbes “12 Big Data Definitions : What’s yours ?” propose différentes définitions qui se rapporteraient à la notion[2] :
- Un ensemble de nouveaux outils qui permet à tous les utilisateurs de trouver des données pertinentes puis d’en analyser la signification ;
- Un passage du traitement des données en interne à la collecte et l’exploitation des données externes ;
- Une croyance que l’augmentation du volume de données à disposition en augmentera systématiquement les insights ;
- Une nouvelle attitude visant à prendre de meilleures décisions sur la base de données provenant de sources multiples.
Actuellement, le concept de Big data rend obsolètes les bases de données traditionnelles. Cette évolution s’explique en toute partie par l’arrivée d’internet, notamment les milliers d’informations laissées par les internautes à chaque fois qu’ils se connectent étant donné que toutes leurs actions en ligne sont tracées. Ces données sont par la suite exploitées par des acteurs économiques pour leurs besoins d’exploitation.
Les informations du Big Data disposent de caractéristiques nouvelles qui généralement se résument par 4V[3] : la variété dans l’accumulation des données, le volume exponentiel, la vitesse dans l’acquisition de l’information et la véracité des informations.
S’il est vrai que l’expression Big Data semble souvent être utilisée à outrance, il ne faut pas oublier que le phénomène est bien réel. De manière assez communément admise, le Big Data se définit à travers les 4 V. C’est la façon la plus schématique et synthé- tique possible pour expliquer ce que renferme cette notion.
Les 4V expliquent comment le Big Data représente l’arrivée des nouvelles technologies permettant une toute nouvelle approche de la donnée. Le Big Data, c’est tout d’abord traiter d’importants volumes de données, bien plus supérieurs à ceux traités auparavant, à une Vitesse incomparable. Chacun de ces V mérite quelques précisions.
- Les 4 V du Big data
Selon Michael Stonebraker, un scientifique américain et informaticien spécialisé dans la recherche sur les bases de données : « Il y a beaucoup de bruit autour du Big Data. Ce concept a plusieurs significations en fonction du type de personnes. Selon moi, la meilleure façon de considérer le Big Data est de penser au concept de trois V. Big Data peut être synonyme de gros volume. Du téraoctet au petaoctet. Il peut également signifier la rapidité (Velocity, NDLR )de traitement de flux continus de données. Enfin, la troisième signification : vous avez à manipuler une grande variété de données, de sources hétérogènes. Vous avez à intégrer entre mille et deux mille sources de données différentes et l’opération est un calvaire. La vérité est que le Big Data a bien trois significations et que les éditeurs n’en abordent qu’une à la fois. Il est important de connaître leur positionnement pour leur poser les bonnes questions » [4]
Par ailleurs dans son analyse, Alex Popescu en se basant sur l’analyse de Forrester Research trouve un quatrième V (variabilité) à ajouter dans les 3V de Michael Stonebraker[5].
- Variété dans l’accumulation des données
La multiplication en puissance des données non structurées va de pair avec une diversification des formats et des types de données. La variété de l’accumulation des données réside en premier sur la multiplicité des sources par lesquelles les informations arrivent dans l’entreprise. Les informations proviennent à la fois des acteurs internes et des acteurs externes et sont ensuite numérisées sur le réseau interne ou sur le web.
Il y a également la multiplicité des formats : textes, vidéos, tableaux, données financières, etc. dans lesquels les données ne sont plus structurées comme dans une base de données classique, mais sont multiformes.
- Volume exponentiel
Le volume exponentiel des données résulte de la multiplicité des thèmes (informations business, données de gestion opérationnelle, innovations, données de la concurrence, etc.) et de la multiplicité des fournisseurs d’informations, car ces dernières proviennent non seulement des collaborateurs en interne, mais également des acteurs externes tels que les fournisseurs et les clients.
- Vitesse dans l’acquisition de l’information
La vitesse octroyée par le Big Data représente le temps nécessaire afin que les données soient collectées, traitées et activées par l’entreprise faisant du monde digital, un milieu plus rapide que le temps réel.
Avec le Big data, l’obtention des informations se fait de façon plus rapide et à jour. Grâce à cela, les délais de traitement des données sont optimisés ainsi que la prise de décision. Toutefois avec la numérisation des données, les informations se créent rapidement et deviennent aussi rapidement obsolètes. Mais cela ne doit pas ralentir l’analyse des nouvelles données.
La dématérialisation répond à différents enjeux en ce qui concerne la simplification règlementaire, l’amélioration des services ou encore l’optimisation de la gestion de l’information tout en permettant :
- Une compression de l’espace,
- Une compression de temps, notamment grâce à la rapidité des échanges d’informations
- Une qualité et une sécurité de l’information
- Une organisation du travail
- Véracité de l’information
La qualité et la fiabilité constituent un paramètre essentiel dans le traitement et l’exploitation des données. Avec le Big data, les informations obtenues sont les plus proches possible de la source et ne nécessite aucune correction même si les données sont hors du périmètre de contrôle des entreprises. Le concept de véracité traduit donc le besoin stratégique de disposer de données de qualité.
Généralement, les plateformes Big Data donnent aux entreprises la possibilité d’analyser les données en relation avec son environnement de façon quasi exhaustive et donc leur permettent d’optimiser la compréhension de l’ensemble des composants de son environnement (partenaires, clients, concurrents, etc.).
Paradoxalement, l’entreprise peut être confrontée à certains risques, particulièrement celui de se noyer dans un océan de données et de ne plus pouvoir être capable de faire le tri entre les informations pertinentes et les informations non pertinentes.
Avec la masse d’informations à laquelle les entreprises ont accès, la question qui se pose au contrôle de gestion concerne l’utilisation de ces masses de données étant donné que son objectif est d’améliorer le processus de décision pour accroitre la performance.
Ainsi, à ces quatre « v » s’ajoute une autre caractéristique qui est la valeur ajoutée. La valeur octroyée par le Big Data se mesure par l’avantage compétitif qu’elle en aura dégagé. Le Big Data s’impose actuellement comme un concept incontournable et qui révolutionne la manière de travailler des entreprises quel que soit le secteur d’activités.
Ci-dessous quelques termes utilisés dans le domaine du Big Data:
- Open Data : c’est une solution qui vise à rendre accessibles les bases de données, ceci en s’appuyant sur la transparence et le participatif.
- Little Data: son utilisation permet aux entreprises qui n’ont pas en leur possession les 3V requis pour l’utilisation des technologies Big Data
- Smart Data: ce dernier consiste à extraire les données “intelligentes” parmi l’ensemble des données du Big Data. Ces données intelligentes permettent le pilotage de la plupart des activités, une nouvelle vision de ce que nous appelons Business Intelligence.
- Les usages du Big Data
Les différentes données du Bid Gata proviennent de différentes sources comme le web, les objets communicants, les sciences, etc.[6] :
- du Web : le web se compose de différentes plateformes qui sont toutes autant de sources d’information comme les journaux d’accès, réseaux sociaux, e-commerce, indexation, stockage de documents, de photos, de vidéos, linked data, etc. Par exemple en 2009, le moteur de recherche Google traitait plus de 24 petaoctets de données par jour avec MapReduce en 2009 ;
- de l’internet et des objets communicants : réseaux de capteurs, journaux des appels en téléphonie ;
- des sciences : les sciences sont également source d’informations pour le Big Data à travers la génomique, l’astronomie, le physique subatomique. Par exemple le CERN déclare produire 15 petaoctets de données chaque année avec le LHC) ;
- des données commerciales issues par exemple de l’historique des transactions dans une chaîne d’hypermarchés ;
- des données personnelles issues par exemple de dossiers médicaux ;
- des données publiques.
À travers les diverses données provenant de ses sources, les entreprises peuvent développer des stratégies efficaces en se rapprochant davantage de leurs clients et du marché. Le Big Data offre ainsi des usages infinis, mais il existe des domaines majeurs qui émergent.
Parmi les plus grands usages, il y a par exemple, la compréhension du client et la personnalisation des services, l’optimisation des processus et l’amélioration de la performance.
- La compréhension du client et la personnalisation des services
La compréhension du client et la personnalisation des services sont les usages les plus fréquents du Big Data. En recueillant et en analysant les flux de données concernant les clients, les entreprises peuvent non seulement dégager des profils génériques et mettre en place des services spécifiques, mais également de personnaliser leurs services et leurs stratégies marketing.
Les différents flux intègrent à la fois les données classiques depuis le CRM et les données non structurées provenant d’outils numériques. Dans cette catégorie d’usage, l’objectif des entreprises est d’essayer de déterminer des modèles destinés à prévoir les besoins des clients dans le but de leur fournir des biens ou des services personnalisés.
- Optimisation des processus
À part la personnalisation des offres, le Big Data est également utilisé pour optimiser le processus, notamment ceux qui sont assez complexes. Il y a par exemple la Supply Chain Management (SCM) qui peut être optimisée selon les prévisions provenant de l’analyse des données numériques.
Il y a également la gestion des ressources humaines qui devient automatisée et plus simple depuis le recrutement jusqu’à l’évaluation des compétences et de la culture d’entreprise.
II- Première application en entreprise
Le terme Big Data concerne essentiellement les technologies donnant aux entreprises la possibilité d’analyser rapidement un volume de données très important tout en lui permettant à très court terme d’obtenir une vue synoptique sur son environnement.
Avec l’intégration de stockage, l’analyse prédictive et les différentes applications dont les entreprises bénéficient, le Big Data offre un important gain de temps, une plus grande efficacité et également une meilleure qualité des données traitées.
Le premier objectif des solutions d’intégration ainsi que des traitements de données est principalement le traitement d’un volume très important de données se trouvant sur des terminaux variés et qui sont produites en temps réel et venant de n’importe où.
Selon une étude menée par le cabinet Transparency Market Research, il existait environ 8,9 milliards de dollars de chiffres d’affaires générés par le marché du Big data. Ce marché connait une croissance de 40 % par année et représente plus de 24.6 milliards de chiffres d’affaires en 2016.
Toutefois, l’adoption du Big data par les entreprises françaises et européennes est encore assez limitée. Une étude menée par l’EMC au début de l’année 2014 démontre que 74 % des entreprises françaises déclarent être convaincues de l’intérêt du Big Data pour leur activité.
Par ailleurs, 41 % d’entre elles n’ont encore décidé d’engager aucune dépense sur la question. Cette situation peut s’expliquer pour une grande partie par la faible prévisibilité du retour économique d’un tel investissement. En effet, le sondage d’EMC montre que 35 % des décideurs s’interrogent encore sur le retour sur investissement.
Les entreprises françaises ne sont pas les seules à se préoccuper du retour sur investissement dans l’adoption du Big Data. Plus de la moitié des entreprises américaines, soit 56 % selon une étude du cabinet Gartner aux États-Unis, ne savent encore vraiment comment tirer profit du Big Data.
Au sein des entreprises, la mise en place d’un projet Big data se base généralement sur deux éléments clés : l’instruction et la conception comme le montre la figure ci-après :
Figure 1 : Mise en place d’un projet Big data
Source : Finance&Strategy, « Les opportunités du Big Data pour les banques de détail », 2013
- Le Big Data comme, un moyen de décupler les sources d’informations pertinentes pour les entreprises
La révolution culturelle engendrée par les nouvelles technologies de l’information et de la communication a eu comme principal effet de favoriser l’émergence de nouveaux modèles d’affaires qui se base pour une grande partie sur le partage de l’information et des connaissances, que ce soit dans l’entreprise ou en dehors.
Considérée comme une intelligence collective développée au sein de l’entreprise, la révolution numérique, notamment le big data est une véritable source de création de valeur et d’innovation, surtout au sein d’un contexte caractérisé par la vitesse de la production de liens transactionnels et organiques. Celle-ci amène également les différents collaborateurs de l’entreprise à partager une vision cohérente qui se fonde sur la confiance et la valeur centrale d’une bonne gouvernance.
Par ailleurs, il faut noter que cette transition ne concerne pas uniquement les entreprises, elle touche la totalité de l’écosystème et plus largement la société. Il y a par exemple l’espace de production de valeur qui s’étend jusqu’aux différents acteurs de l’entreprise, au domaine social, à la mobilité et au temps personnel[7]. Dans ce contexte, l’interdépendance qui existe entre les entreprises et les différents acteurs de son écosystème, comme les clients, les fournisseurs, etc. la maîtrise de l’information dispose d’une place centrale. C’est désormais une réalité qui est renforcée par la révolution numérique.
- Les enjeux stratégiques et technologiques apportés par le Big Data
Les enjeux de la révolution numérique des entreprises sont multiples. Nous pouvons par exemple citer la présence sur les nouveaux espaces de création de valeur, la prise en considération des pratiques émergentes dans le domaine sociétal, la structure souple et processus d’innovation ouverte, l’agilité de la chaine de valeur, la gouvernance et leadership, etc.
Ces différentes mutations se présentent comme une réelle opportunité de croissance pour les entreprises et leur poussent à repenser leur, plus particulièrement leur modèle d’affaires, et cela autour de trois grands axes clés, à savoir :
- L’expérience client,
- L’organisation des ressources ainsi que les pratiques managériales,
- Les données, notamment les ressources, les flux d’informations et leur stockage dans le temps, l’information étant portée par la donnée et par les flux.
Nous pouvons classer ces différents enjeux en deux grandes catégories, les enjeux stratégiques et les enjeux technologiques.
- Les enjeux stratégiques
Au niveau stratégique, le Big data permet premièrement d’améliorer l’efficacité des prises de décision d’exploitation d’informations.
- Favorise la prise de décision
Il existe actuellement un volume important et croissant d’informations hétérogènes qui sont dans la plupart du temps non structurées. Dans ce contexte, il est tout d’abord remarqué que les méthodes traditionnelles de traitement de l’information semblent impuissantes à donner du sens à ces volumes d’informations. Mais les algorithmes informatiques complexes assemblés à au calcul et de stockage des ordinateurs ont la de faire « parler » les données en développant l’analyse statistique.
Cette analyse statistique ouvre systématiquement de nouveaux champs d’études prometteurs pour beaucoup d’entreprises. Puis, la notion de Big data fait son apparition grâce aux différentes innovations de rupture technologique qui ont su apporter des réponses immédiates à des coûts beaucoup plus accessibles.
Ces technologies ont la capacité de linéariser la performance des modèles prédictifs qui se fondent sur n croisement de données, internes et / ou externes.
Le Big Data a un impact important sur le modèle économique des entreprises étant donné qu’il peut en quelque sorte le remettre en question.
Toutefois, afin de ne pas être émergées par les nouvelles technologies, les entreprises doivent nécessairement réfléchir sur les différents usages de l’information et s’interroger sur ce qui est prioritaire pour elle et pour le bon fonctionnement de son organisation.
Le schéma présenté ci-après donne un aperçu des enjeux stratégiques du Big Data.
Figure 2 : Les enjeux stratégiques du Big data
Source : AXIO, Introduction Big data, p.10
Le Big data est également un outil permettant aux entreprises de comprendre plus facilement son environnement externe dans un monde qui va plus vite. Il se présente ainsi comme une aide à la décision ainsi qu’un outil essentiel dans l’analyse des habitudes des consommateurs des collaborateurs et de toutes les parties prenantes.
- Le big data, une démarche d’entreprise[8]
Comme dans le cas du Cloud Computing, la mise en œuvre du Big Data ressemble beaucoup plus à une démarche qu’à un projet, en tout cas, c’est qui est affirmé par le réseau des grandes entreprises. En effet, le Big Data se présente avant cout comme une démarche transversale ayant comme objectif d’optimiser la prise de décision.
Dans ce contexte, un des principaux enjeux du Big Data est d’apporter des éléments réponse à la façon dont une entreprise doit faire pour que les informations qu’elle ne dispose pas encore aujourd’hui lui permettent d’améliorer ses performances. Dans ce contexte, la démarche de Big Data va lui permettre de faire de l’information comme sa principale stratégie afin de mettre en place et faire évoluer sa base de connaissances stratégique. Cette démarche fait donc partie grandissante des pratiques décisionnelles d’entreprise.
Par ailleurs, la démarche Big Data permet également aux entreprises de mettre en place de nouveaux modèles d’affaire, notamment à travers l’Open Data. Ce dernier peut se présenter comme un modèle économique viable et à travers lequel l’entreprise peut devenir une véritable productrice de données.
Dans son ouvrage, Thomas Davenport synthétise même l’analyse de données en comparaison le Big data avec les analyses classiques comme présentées ci-après :
Tableau 1 : Comparaison du Big Data et de l’analytique classique
Source : Thomas Davenport « Importance du Big Data pour vous et votre entreprise » chapitre 1Pearson France – Stratégie Big Data, 2014,p.4
Depuis ce tableau, nous pouvons remarquer que le Big data apporte une toute nouvelle vision pour les entreprises.
Si dans l’analytique classique, la réflexion porte essentiellement sur des supports internes qui ne représentent qu’une dizaine de téraoctets de données, avec le Big data, celle-ci s’étend sur une centaine de téraoctets de données représentées sur des formats non structurés.
- Les enjeux technologiques
Les enjeux stratégiques du Big data reposent premièrement sur l’explosion des données disponibles et qui nécessitent par conséquent d’importante innovation sur différents points comme abordés ci-après[9] :
- Accélération matérielle : utilisation de mémoires plus dynamiques comme les DRAM ou flash qui prendront la place des disques durs ;
- Bases de données d’analyse massivement parallèle (MPP) : la croissance rapide des données disponibles implique nécessairement l’utilisation de bases de données conformes qui sont conçues afin de pouvoir répartir le traitement des données sur plusieurs machines ;
- Modèle Map-Reduce, Hadoop, et autres approches NoSQL. Appelées collectivement « NoSQL » ou « Not Only SQL », ces approches donnent accès aux données via des langages de programmation sans avoir recours à l’utilisation des interfaces basées sur SQL et permettent ensuite la répartition des données sur plusieurs machines distinctes.
- Datavizualisation : c’est la capacité à représenter des données de façon visuelle. Cette dernière peut se présenter sous forme de cartographies, de graphiques, de diagrammes, d’infographies. Pour faire plus court, c’est la capacité à naviguer plus rapidement et plus simplement dans les données.
- Not Only SQL / Bases sans schéma : cette catégorie de systèmes de gestion de base de données, plus connu sous l’acronyme de SGBD n’est plus fondée sur l’architecture classique des bases relationnelles. La table n’est plus l’unité logique et les données ne sont pas manipulées avec SQL.
- Map Reduce : ce modèle de programmation permet de manipuler une grande quantité de données qui n’est pas obligatoirement structurée.
Ensuite, il est impossible de dissocier le Big Data aux différentes problématiques de sécurité de données. En effet, le Big data est un terme très vaste et renferme par conséquent plusieurs notions bien distinctes.
Premièrement, le terme renvoie à une idée de protection des données personnelles. La Commission Nationale de l’Informatique et des Libertés connue sous le sigle CNIL défini une donnée personnelle comme « toute donnée permettant d’identifier directement ou indirectement une personne physique ».
L’utilisation de ces données personnelles est techniquement soumise à la loi Informatique et Libertés ainsi qu’à la directive datant du 24 octobre 1995 concernant la protection des données personnelles.
L’histoire de la loi Informatique et Libertés remonte bien avant l’apparition du Big Data mais elle a été adaptée à plusieurs reprises. Actuellement, le concept de l’opt-in est la principale mesure qui permet de contrôler l’information personnelle qui est diffusée sur le web. Mais il semble toutefois que le fait de suivre les tendances des nouveaux modes de communication et de consommation et le désir de protéger ses données personnelles soit incompatible. S’en suit une certaine schizophrénie de la société, hésitant entre un désir de modernité et la volonté de préserver son intimité et ses libertés.
Chapitre 2 : La science des données comme support du Big data
Dans ce second chapitre, notre travail se focalise particulièrement sur la science des données en la considérant comme support du Big data. En termes généraux, la science des données est l’extraction de connaissance d’ensembles de données
I- Science des données
Actuellement, nous vivons dans une époque très dynamique ramenant l’analyse de données et les méthodes quantitatives pour renforcer les analyses au centre de la société. De nombreux projets de recherche arrivent à la conclusion que la puissance de calcul informatique disponible et des données à volume conséquent permettent de nos jours d’incroyables réalisations, notamment grâce au travail des data scientiste.
Tout d’abord, la science de données peut être définit comme l’art de traduire des difficultés qui peuvent être d’ordre industriel, social, scientifique, ou de toute autre nature, en problèmes de modélisation quantitative dont les solutions peuvent prendre la forme d’algorithmes de traitement de données.
L’aboutissement à de telles solutions passe nécessairement par une réflexion structurée rassemblant des problèmes humains, des outils techniques et informatiques ainsi que des méthodes statistiques et algorithmiques.
La science des données peut également être définie comme une discipline qui permet d’utiliser plus efficacement les données et d’en extraire de la connaissance.
La science des données, principalement la science des données numériques est une nouvelle discipline qui se base essentiellement sur des outils mathématiques, de statistiques, d’informatique et de visualisations de données[10] . Le premier objectif de la science des données est de produire des méthodes de tri et d’analyse d’informations de masse et de sources souvent complexes ou disjointes, afin d’en extraire des informations utiles ou potentiellement utiles.
Chaque projet relevant de la science des données est considéré comme une petite aventure nécessitant indispensablement de partir d’un problème opérationnel, à une réponse formelle et précise. Les projets auront généralement des conséquences réelles sur le quotidien d’un nombre plus ou moins important de personnes.
Dans la science des données, il est souvent question d’employer différentes techniques et de diverses théories tirées de plusieurs autres domaines plus larges des mathématiques, la statistique principalement, la théorie de l’information et la technologie de l’information.
La data science, data science en anglais, tourne généralement autour de plusieurs concepts clés : l’informatique, les analyses fondamentales comme les mathématiques et les statistiques, l’ingénierie des données et l’applicatif :
Figure 3 : Les différentes thématiques autour de la science des données
- Concept fondamental
Des données de qualité sont une importance capitale pour assurer la réalisation d’une analyse efficace et extraction de connaissances. Par conséquent, les données brutes qui sont collectées à partir de différentes sources doivent être traitées de la manière la plus efficace possible. Cela nécessite toutefois la maitrise de certains concepts fondamentaux dont les plus importants sont les langages de programmation et les outils d’analyse.
- Les langages de programmation
En Data Science, deux principaux langages de programmation et scripting règnent en maîtres : R et Python. Lequel des deux est le plus recherché par les employeurs, une question sans réponse concrète pour les Data Scientists en puissance.
Pour la France par exemple, 57 % des offres se penchent pour R contre 37 % pour Python. En San Francisco, c’est plutôt l’inverse qui se passe, 60 % des offres nécessitent Python pour moins de 55 % pour R. La capitale française, Paris, se situe entre les deux. Par ailleurs, nous pouvons remarquer que Java est plus recherchée que Python en France.
- Les outils d’analyse
SAS, le logiciel de statistique, est l’outil d’analyse par excellence, le plus prisé, pour les Data Scientist. À la seconde place, nous retrouvons Tableau, un nouvel acteur spécialisé dans la data visualisation.
Puis, il y a Excel qui possède un pourcentage faible puisqu’il est plutôt implicite pour ce genre de poste. Tout de même, nous pouvons constater que les outils d’analyse possèdent des pourcentages faibles, n’incluant pas le cœur des activités du Data Scientist.
- Les différents types de données
Dans une telle réflexion, les données sont catégorisées selon deux catégories bien distinctes : les données qualitatives et les données quantitatives[11] :
Tableau 2 : Les opérations supportées par chaque type de données
Source : Éric Biernat et Michel Lutz, « Data science : fondamentaux et études de cas », Editions Eyrolles, 2014, p.20
- Les données quantitatives : les données qualitatives sont celles qui ont des valeurs décrivant une quantité mesurable et qui se présentent souvent sous la forme de nombres à travers lesquels les scientifiques ou les informaticiens peuvent effectuer des calculs et des comparaisons. Ce type de données ont la capacité de répondre typiquement à des questions du type « combien ».
Dans les données quantitatives d’une part celle qui peuvent être classées sous le terme de données quantitatives continues et qui peuvent prendre n’importe quelle valeur dans un ensemble de valeurs à l’exemple la température, du PIB, du taux de chômage, etc. D’autre part, il y a les données quantitatives discrètes qui n’ont la capacité de prendre qu’un nombre limité de valeurs dans un ensemble de valeurs, comme le nombre d’enfants par famille, le nombre de pièces d’un logement, etc.
- Les données qualitatives : les données qualitatives sont quant à elles des types de données qui décrivent généralement des qualités ou des caractéristiques. Les données qualitatives répondent à des questions de la forme « quel type » ou « quelle catégorie ». Les valeurs dans ce type de données n’ont pas les mêmes caractéristiques que celles que l’on trouve dans les données quantitatives comme les nombres, mais se présentent généralement comme un ensemble de modalités. Elles ne permettent donc pas de faire des calculs, même dans le cas où elles se présentent sous forme d’une série numérique. Elles peuvent toutefois être comparées entre elles et éventuellement triées. Nous pouvons distinguer : les données qualitatives nominales et les données qualitatives ordinales.
La première catégorie de données qualitatives s’apparente à des modalités qui ne peuvent être ordonnées. Dans ce cas, nous pouvons prendre l’exemple de la couleur des yeux, du sexe, de la région d’appartenance, etc. La seconde catégorie quant à elles aux modalités qui peuvent être ordonnées selon un ordre « logique ». C’est par exemple le cas de la taille des vêtements (S, M, L, XL), du degré d’accord à un test d’opinion, etc.
Par ailleurs, dans la science des données, les scientifiques doivent également considérer les différents niveaux de structuration de données qu’elles soient structurées, non structurées ou semi-structurées :
Tableau 3 : Les différents niveaux de structuration des données
Source : Éric Biernat et Michel Lutz, « Data science : fondamentaux et études de cas », Editions Eyrolles, 2014, p.22
- Relation avec le big data[12]
Devenues un des plus grands piliers de la société moderne, les nouvelles technologies de l’information et de la communication sont un secteur qui a connu depuis leur apparition une seconde révolution, notamment celle des très grands volumes de données, ou Big Data.
La quantité conséquente de données produites, recueillies, élaborées et stockées augmente à un rythme particulièrement dans la mesure où il n’est plus possible de les gérer en se servant d’outils informatiques traditionnels.
Pourtant, il n’est plus possible pour la société actuelle d’envisager une vie sans échange de données. Les secteurs de de la communication, du divertissement, des prestations financières et de santé, des réseaux sociaux ou encore des services de téléphonie mobile en sont les preuves vivantes.
La révolution Data Science & Big Data, c’est tout d’abord une amélioration continue de tous types de processus d’affaires due à l’utilisation intelligente des données, à chaque instant, partout, mais également à toutes les fins.
Avec l’analyse de quantités colossales de données venant compléter la théorie, les expériences et les simulations, la science n’a pas manqué de faire son entrée dans l’ère du «quatrième paradigme». En effet, la révolution grandissant du Big Data a engendré l’émergence d’une nouvelle science des données. Selon Eric Moulines : « La valorisation des immenses volumes de données hétérogènes passe la mise en œuvre d’analyses sophistiquées, un véritable passage à l’échelle dans la conception des modèles d’analyse et la mise en œuvre des algorithmes »[13].
Actuellement, les sciences numériques mettent en œuvre différents outils quantitatifs destinés à la production, au calibrage et à la validation des modèles et des prévisions établis sur la base de ce type d’analyse.
Ces sciences numériques offrent la possibilité de parvenir à des degrés de compréhension importants tout en permettant de parvenir à des niveaux de compréhension inédits favorisant grandement la prise de décision, notamment grâce à une approche empirique et sur la base de très grandes collections de données. Nous pouvons citer l’exemple de la pharmaceutique, les prévisions météorologiques et climatiques, la recherche environnementale, la génomique, la recherche sur le cerveau et la physique complexe, de même que les sciences humaines et sociales.
Toutefois, il n’existe pas encore actuellement de véritables méthodes de calcul ni de méthodes mathématiques permettant de tirer pleinement profit de cette explosion de données d’autant plus que l’analyse d’importants volumes de données nécessite indispensablement des progrès scientifiques et techniques dans le traitement de données scalable, dans les systèmes d’information, dans l’apprentissage automatisé, dans les mathématiques et statistiques informatiques, ainsi que dans l’informatique tournée vers l’humain. Elle nécessite également une collaboration interdisciplinaire étroite entre plusieurs experts de domaines variés et de spécialistes en traitement des données et de l’information.
L’Hype Cycle 2014 de Gartner propose une représentation graphique de la maturité et du degré d’adoption des technologies, y compris le Big Data et la science des données, ainsi que de leurs applications, et de leur pertinence, pour apporter des solutions aux différents problèmes de business et pour exploiter de nouvelles opportunités.
Graphique 1 : Maturité du niveau d’adoption des technologies
Source : AKOYA consulting, « Le Big Data ig va-t-il révolutionner les RH? État de l’art et perspectives », 2015, p.11
L’Hype Cycle 2014 de Gartner considère le Bog Data et la science des données comme étant des outils qui sont encore en phase de développement et que l’engouement qui leur est porté a souvent tendance à marquer leur potentiel d’utilisation. Ce graphique nous donne une image de l’évolution future de l’utilisation des données et de leur traitement.
Pour mieux cerner les amas de données, le Big Data repose sur les algorithmes développés par la Data Science. Une explication qui démontre très bien le lien entre les deux.
En allant encore plus loin avec les chantiers de digitalisation engagés par les institutions et les entreprises, la Data Science voit son champ d’application s’agrandir : ajustements des politiques prix, études de corrélation, optimisation des achats, rationalisation de la logistique… Les projets d’optimisation de la chaîne de valeur sont innombrables.
C’est la raison pour laquelle personne ne perçoit la Data Science comme étant le prochain département contrôle de Gestion appliqué aux données et non aux activités financières.
II- Enjeux et compréhension des procédés
Dans le cas où les initiatives Big Data se multiplient, la plupart n’iront pas plus loin que la phase de pilote. Seulement 15 % des projets passeront en production, selon Gartner. «C’est peut-être dû au fait que beaucoup de projets Big Data n’ont pas de retour sur investissement tangible qui puisse être déterminé en amont», suggère Le Directeur de recherche chez Gartner, Nick Heudecker.
Les projets Big Data se heurtent à d’autres obstacles: données insuffisantes ou de faible qualité, manque d’expertise, craintes sécuritaires, complexité de l’intégration, etc. En outre, les spécialistes mettent en exergue le caractère complexe et scientifique de ces projets. Après une vingtaine d’années chez IBM, Olivier Verscheure se retrouve aujourd’hui à la tête du Swiss Data Science Center dans lequel le conseil des EPF a investi une somme colossale, 30 millions de francs pour une durée de quatre ans. Pour ce chercheur, pour la comprendre, il faut considérer la data science comme une journey: «Le processus consiste à passer par de multiples étapes, depuis l’acquisition des données, leur débruitage, l’homogénéisation, la modélisation statistique, et au final l’interprétation des résultats, ainsi que leur visualisation. Il faut maîtriser toutes ces phases pour aboutir à des découvertes à même d’orienter les actions et décisions».
De son côté, Diego Kuonen, CEO de la société spécialisée Statoo et à la fois Professeur de data science à l’Université de Genève, les entreprises doivent s’aligner sur le principe selon lequel les initiatives de data science doivent se reposer sur une démarche scientifique d’amélioration continue, faite entièrement d’hypothèses et de validations.
La data science peut aussi être conçue comme un sport d’équipe. D’une part, les data scientists doivent travailler avec les responsables métier qui sont à même de poser les questions business guidant les recherches et d’autre part, ils doivent aussi travailler étroitement avec les équipes IT qui savent où se trouvent les données et comment elles sont désignées dans les systèmes.
L’étude du MIT signale qu’une totale collaboration plus l’intégration réussie de ces talents sont peuvent s’avérer être très déterminantes tant pour le succès des projets de data science, mais aussi pour la satisfaction des data scientists. De ce fait, les experts pensent qu’il est plus normal de considérer la data science comme un pôle de compétences séparé au lieu de les rattacher au métier ou à l’IT. Ainsi, on s’assure que toute l’entreprise puisse profiter de cette capacité et on évite la frustration des data scientists au cas où on les englobe dans l’organisation existante. Diego Kuonen réaffirme même que : «Il faut comprendre la data science comme une journey.»
- Les différents enjeux du Data science
Après le Big Data, nombreuses sociétés se lancent dans la Data Science, une discipline incontournable pour transformer le Big Data en connaissance puis en actions.
- La méthodologie
En Data Science, la méthodologie utilisée est essentiellement itérative et agile. Son procédé part d’un raisonnement inductif qui consiste à établir de la connaissance à partir des données. L’approche se construit étape par étape en posant en premier lieu des hypothèses, puis en validant ces dernières grâce à des algorithmes statistiques et/ou machine learning.
En règle générale, la méthode employée est la méthode CRISP-DM qui se fait en 6 étapes. Après la phase de compréhension du métier et des données, les données sont préparées et recodées pour la phase de modélisation. Avant de pouvoir l’automatiser, le modèle doit tout d’abord être évalué.
Avant de pouvoir faire passer le modèle en production puis en exploitation, répéter plusieurs fois ce processus peut être nécessaire.
- Le dialogue avec les métiers
Le processus de modélisation débute et finit impérativement avec les métiers. Au début, le projet doit avoir un objectif général, par exemple : la compréhension des facteurs clés du succès de mes points de vente. Il s’avère plutôt difficile de modéliser un métier que l’on ne comprend pas.
Afin de permettre aux Data Scientists de comprendre les vrais enjeux métier qui se trouvent derrière les données, les métiers doivent avant tout investir un peu de leur temps. En même temps, le team Data Science devra trouver le temps de restituer les résultats obtenus aux métiers, en se servant des outils de Business Intelligence comme le DataStorytelling ou la DataViz.
- La qualité des données
Bien évidemment, c’est au cœur du processus de Data Science que les données se trouvent. Pour obtenir un résultat exploitable, il faut que les données soient de qualité et bien documentées.
Sachant que le volume des données est un facteur peu préoccupant, la qualité et la profondeur des données sont au contraire des facteurs clés pour une démarche Data Science. Il y aura une chasse aux données fausses ou contradictoires, aux données manquantes, toute l’attention sera particulièrement portée aux observations atypiques ou aberrantes.
- Les enjeux humains et organisationnels
La Data Science nécessite la collaboration de nombreuses personnes venant de cultures différentes : Statistique, machine learning, métiers, BI, programmation, mais aussi les bases de données. Une diversité qui représentera un enjeu majeur qui fera office d’obstacle lors du processus d’établissement du Datalab.
- Les enjeux techniques
La 5e des pratiques clés concerne les enjeux techniques. Effectivement, la Data Science n’est en aucun cas une science nouvelle. Fruit de la statistique et de la machine learning, elle a dû s’adapter au Big Data. Une adaptation qui a presque tout changé dans les façons de mener à bien et d’exécuter un projet Data Science.
L’arrivée de nombreux outils et langages Open Source a également été un changement de paradigme très important. Le temps où nous faisions de la Data Science avec un seul outil est révolu. Les Data Scientists ont désormais recours à plusieurs outils et langages comme le langage R ou Python, pour mener à bien leurs projets.
Il faut faire très attention concernant le fait qu’il existe une matrice de compatibilité entre les différentes infrastructures Big Data et les outils ou langages de Data Science. De plus, il est fortement conseillé de définir l’environnement Data Science, avant de choisir une infrastructure Big Data, si possible.
Pour résumer, il a donc été constaté que les projets Data Science ont tendance à désiloter les sociétés, ce qui en fait des projets transverses par excellence. De préférence, ils devront donc être plus visibles au niveau de la direction générale
- Les procédés du Data science[14]
L’expression du «big data» recouvre en même temps les stockages informatiques, les data rassemblé sous une forme structurée, les procédés techniques destinés à l’exploration des données, les exploitants des systèmes de traitement de données, les résultats informationnels des différents procédés d’exploration et enfin les utilisateurs finaux des résultats.
Dans le traitement et l’analyse des données, l’exploration a comme objectif à mettre à jour des corrélations, c’est-à-dire des liaisons qui peuvent se présenter sous forme de relations affines, de régressions linéaires ou encore de modèles mathématiques plus complexes. Les analyses s’effectuent donc à travers une recherche sans hypothèse préalable.
Les exploitants du Big Data ne cherchent pas premièrement des relations de causes à effets, mais plutôt la corrélation qui se traduit comme une sorte de causalité commune au data corrélées. Il n’est également question de chercher ou de faire apparaitre cette cause commune, ce n’est pas le but. Il s’agit en effet de mettre en évidence les réponses se rapportant à la question « Quoi » et non plus un Pourquoi.
Dans ce contexte, le modèle de corrélation a comme objectif de produire une connaissance utile et indispensable et non plus une loi. Autrement dit, il s’agit de produire un produit qui correspond davantage aux objectifs et besoins de l’utilisateur d’un système de big data. Et étant donné l’accroissement permanent et exponentiel de données, la question « Quoi » se rapporte un peu plus à une durée de vie aléatoire. On passe ainsi de la prédictibilité stable dans le temps à une prédiction ponctuelle, prédiction fabriquée industriellement.
Ce qui distingue les corrélations scientifiques et les corrélations constatées dans les systèmes de big data, c’est que les données obtenues ont essentiellement des caractères sociaux. Ce sont en effet les faits, gestes et traces des personnes et non pas des particules.
Dans le cadre du traitement des données du Bid data, la dimension politique est donc intrinsèque, ce que le public, alors que la dimension économique a toujours était évidente pour tous.
Dans le traitement de Big Data, il n’existe pas nécessairement de grande différence avec les processus traditionnels. La différence la plus palpable se situe au niveau des méthodes de traitement. En raison d’énorme volume de données non structurées, l’outil de méthode parallèle tel que MapReduce peut être utilisé dans toutes les étapes de traitement.
Toutefois, il existe certaines étapes qui doivent être respectées dans la science des données :
- Contrôle : le contrôle est une étape clé dans le traitement de données, car il permet de s’assurer de la validité des données brutes collectées.
- Correction : Après le contrôle, il est important de passer par une deuxième étape qui est la correction. Cette seconde étape porte sur certains types de données ou de mécanismes d’estimation qui nécessitent des corrections. Nous pouvons par exemple prendre le cas de dysfonctionnement d’un dispositif de comptage de clients. Par ailleurs, il faut noter que cette étape nécessite de recourir à des méthodes reconnues par les organismes compétents ainsi que des méthodes partagées avec l’ensemble des acteurs et approuvées par le régulateur.
- Stockage : dans le traitement de Big Data, le plus important est d’assurer le stockage sécurisé des données validées corrigées. Le stockage s’effectue généralement dans les systèmes informatiques. Pour assurer un maximum de sécurité aux données, il est indispensable que ces systèmes soient sécurisés selon le cadre légal et règlementaire en vigueur concernant la protection des données.
- Traitements adaptés : les données du Big Data doivent également passer par une méthode de traitements adaptés. Par exemple dans le cas de données de consommation, il est possible de les retraiter pour en déduire des données de facturation à destination des fournisseurs titulaires des contrats de fourniture ou encore pour effectuer des agrégations de données de consommation et de production dans le cadre d’un périmètre d’une concession, etc.
- Mise à disposition : la dernière étape dans le traitement de données est la mise à disposition. Cette mise à disposition des données consiste à les transférer entre les mains des acteurs qui sont chargés de les analyser afin qu’ils puissent les exploiter pour ensuite développer et maintenir un réseau public de distribution. Dans c’est le cas dans le stockage des données, la mise à disposition doit également respecter un cadre juridique, notamment celui destiné à réguler la protection des données commercialement sensibles et à caractère personnel.
Le schéma présenté ci-après donne un exemple de procédé dans le traitement de grands volumes de données :
Figure 4 : Exemple de chaine de traitement des données, cas de Linky concernant la mise à disposition de données aux clients finaux et aux fournisseurs
Chapitre 3 : Big data et Science des données dans le développement stratégique et économique
Une grande partie des activités de la société laisse des traces prenant souvent la forme de masses de données informatiques qui peuvent être exploitées dans l’objectif d’obtenir une meilleure gestion ou de meilleurs services. Les données peuvent provenir d’encodage par exemple dans le cas des transactions bancaires, ou de capteurs partant de la mesure de température à la caméra haute définition.
Le plus souvent, ces données produites à un rythme plus ou moins soutenu et sont généralement accumulées en important volume. Elles peuvent également provenir de différentes sources et peuvent se présenter sous différents formats allant de la structure stricte utilisée dans une base de données à des formats tout à fait libres de textes ou d’images. Dans ce contexte, l’expression « big data » se rapporte à ces données accumulées ainsi qu’aux différentes techniques qui permettent de les analyser et de les exploiter. Cette succession de procédés est connue sous l’appellation de « science des données » ou « data science »[15].
Dans le domaine économique, « big data » et « data science » passe par une rapidité déstabilisante du stade de concept à explorer à celui d’outil incontournable pour développer/améliorer de nouveaux produits et/ou favoriser le fonctionnement des entreprises.
Cette démarche ne se limite pas uniquement au secteur de l’IT, mais concerne également d’autres secteurs comme la chimie, la mécanique, la vente par internet, l’énergie, la gestion hospitalière…
Dans presque la majorité des cas, cette révolution du « big data » est indispensable pour le développement, ou même la survie des entreprises dans un monde de plus en plus compétitif.
Avec l’engouement porté par les entreprises autour du « big data », il apparaît tout naturellement de nouveaux questionnements pouvant être d’ordre scientifique et/ou technique. Ces questions scientifiques concernent principalement les points suivants :
- De quelle manière peut-on extraire le maximum d’informations pertinentes en se basant sur des données existantes et à travers un système d’apprentissage supervisé ? Avec ce questionnement, il est possible de mentionner par exemple les récents progrès dans le domaine des réseaux de neurones artificiels (deep learning) et dans le domaine des méthodes de type ‘forêts aléatoires.
- Comment peut-on dépasser les paradigmes d’apprentissage automatique supervisé pour élargir le champ d’intervention de problèmes pratiques ciblés ? Par exemple, il y a les paradigmes de type apprentissage par renforcement qui donne souvent la possibilité d’extraire des politiques de décisions bien plus sophistiquées par rapport à celles soutirées de l’apprentissage supervisé classique, à l’exemple des politiques permettant d’apprendre à conduire des voitures ou à jouer à des jeux tel que le GO, etc.
- Comment faire pour enrichir les données existantes dans un domaine où l’obtention de nouvelles données peut avoir un coût significatif ?
- Comment intégrer des données de plus en plus déstructurées dans des chaînes d’apprentissage « big data » à l’exemple des séquences vidéo, des textes, ou encore des traces d’interactions homme-machine.
Ces questions semblent souvent être complexes et pour mettre en œuvre des produits ou des solutions « big data », il se montre plus qu’indispensable pour les entreprises d’avoir la capacité de s’adjoindre des spécialistes spécifiquement formés dans le domaine de la science des données. C’est également le cas pour les la majorité des laboratoires de recherche qui dépendent davantage de « data scientists » de qualité pour exploiter leurs données expérimentales.
Dans le domaine des entreprises, la science des données s’applique sur différents domaines, à savoir le business analytics, l’intelligence d’affaires, le marketing personnalisé, la segmentation de clients et ciblage, les comportementales des consommateurs, le marketing des objets connectés, la gestion de la relation client, prédiction du comportement des consommateurs, la satisfaction client, la régulation et optimisation des flux logistiques, etc.
I- Big data et Science des données dans la prise de décision stratégique
En 2011, une étude menée par The Economist pour le compte de Capgemini, intitulée “le facteur décisionnel : les Big Data et la prise de décision”, était arrivée à la conclusion que les données tenaient un rôle de plus en plus prégnant dans la prise de décision, mais que les paroles devançaient toujours les actes.
L’étude, qui se focalisait sur environ 600 décideurs dans le monde et de tous les secteurs, visait la mesure de l’utilisation des Big Data dans le circuit de décision de leurs entreprises.
Le fait d’exploiter les données internes et externes à l’entreprise était clairement d’actualité. Les entreprises sont conscientes que pour leur aider à prendre une décision, les données étaient d’une importance capitale. C’est là que de nombreuses expressions ont commencé à être employées pour définir au mieux la collecte et l’analyse de ces données : Big Data, Data Science ou encore Business Intelligence.
Pour mieux comprendre l’importante du Big Data et des sciences des données dans la prise de décision stratégique en entreprises, faisons un petit rappel de leur définition :
- Big Data : La notion du Big Data fait référence à la collecte d’un volume important de données puis à l’analyse de celles-ci en temps réel. Les analyses nécessaires pour traiter toutes les données demandent des moyens techniques et informatiques. Les logiciels dans la veine d’EthnosData permettent de traiter la totalité de ces données dans un temps record et très acceptable.
- Data Science : la Data Science est un procédé qui consiste à mettre au point des séries d’algorithmes à partir de règles statistiques et mathématiques ou de Machine Learning, afin de délivrer des solutions. Ces techniques s’appuient souvent sur le text-mining : l’analyse de textes, l’étude de corrélation entre capteurs, l’analyse d’image, etc.
Le Big Data se place au sommet des priorités de nombreuses entreprises, mais les projets ont souvent du mal à se concrétiser et à apporter les résultats voulus. Une faute qui vient notamment de l’inexistence des compétences nécessaires pour convertir les données en véritables insights. Une raison qui rend le profil des data scientists, un profil particulièrement très recherché.
- Analyse des données et compétence
Dans les années 60, pour la réalisation des projets Datamining, IBM a développé la méthode CRISP, plus connue sous son nom initial CRISP-D. Aujourd’hui, elle reste la seule méthode utilisable et en même temps efficace pour tous types de projets Data Science.
- Mode d’emploi de la méthode CRISP
La méthode CRISP se divise en 6 étapes distinctes qui commencent par la compréhension du problème métier vers le déploiement et la mise en production.
Figure 5 : La méthode CRISP
- La compréhension du problème métier
La première étape est la compréhension des éléments métiers et problématiques que la Data Science cherche à améliorer ou à résoudre.
- La compréhension des données
Cette deuxième étape consiste à identifier la qualité des données à disposition, à déterminer les données à analyser et à faire le lien entre les données et leur signification. Sachant que la Data Science est basée seulement sur les données, les problèmes métiers liés à des données existantes, qu’elles soient internes ou externes, peuvent être ainsi résolus via la Data Science.
- La construction du Data Hub
La construction du Data Hub est la phase de préparation des données qui rassemble les activités relatives à la construction de l’ensemble précis des données à analyser, conçue à partir des données brutes.
Ainsi, en fonction de critères choisis, elle inclura le classement des données, le nettoyage des données, mais surtout leur recodage afin de les rendre compatibles avec les algorithmes qui seront utilisés.
Pour ne pas fausser les résultats donnés par les algorithmes utilisés, le recodage des données catégorielles ainsi que la paramétricité des données numériques doivent être réalisés avec soin. En effet, toutes ces données doivent être centralisées dans une base de données bien structurée portant le nom de Data Hub.
- La modélisation
La modélisation est la phase qui représente le plus le Data Science. Elle comprend le paramétrage, le choix, le test de différents algorithmes ainsi que leur enchaînement, qui constitue un modèle.
Avant tout, le processus doit être descriptif pour en dégager de la connaissance, en démontrant pourquoi les choses se sont passées. Par la suite, il devient prédictif en expliquant ce qui va se passer, puis prescriptif en permettant d’optimiser une situation future.
- L’évaluation
L’évaluation est la phase de vérification de modèle ou des connaissances acquises afin de s’assurer qu’ils répondent bien aux objectifs formulés au début du processus. Elle joue aussi un grand rôle dans la décision de déploiement du modèle ou si nécessaire, à son amélioration. Au stade de l’évaluation, la robustesse et la précision, des modèles obtenus seront testés.
- Le déploiement
C’est la dernière étape du processus. Le déploiement est une sorte de mise en production des modèles obtenus pour les utilisateurs finaux. L’objectif étant de mettre la connaissance obtenue par la modélisation dans une forme adaptée, et l’intégrer par la suite au processus de prise de décision.
Ainsi, le déploiement peut, selon les objectifs, aller d’une génération d’un rapport décrivant les connaissances obtenues jusqu’à une mise en place d’application, qui après, permettra l’utilisation du modèle obtenu, pour la prédiction de valeurs inconnues d’un élément d’intérêt.
II- Les limites du Big data
- Politique et régulation
- Politique
Au niveau des relations de pouvoir, l’univers des données se donne avec un certain nombre de caractéristiques qui peuvent paraître paradoxales. En outre, elles apparaissent comme des instruments de pouvoir, comme les éléments d’un surplus de pouvoir, d’une surveillance renforcée, qui font penser à Big Brother, avec une possibilité de suivre, d’anticiper et de repérer les comportements de chacun dans des conditions qui auraient fait rêver les pouvoirs totalitaires.
Mais d’un autre côté, ce même univers, ces mêmes techniques et ces mêmes données se réalisent non pas dans le renforcement du pouvoir d’Etat mais dans le sens du renforcement d’une prise de pouvoir inédite des individus.
Il y a la privatisation massive des connaissances ou du savoir tout court. Les données considérées comme le « Big Data » sont essentiellement privées. Les grands opérateurs publics de production de données sont comme limités par les contraintes de leur institution, voire dépassés.
Aussi, on constate que les Etats sont contraints d’ouvrir leurs propres données, de rendre ces dernières accessibles à la production de nouveaux services, qui, eux-mêmes, engendreront de nouveaux rapports entre les citoyens et l’Etat.
Les relations de pouvoir dans le monde des données s’adaptent parfaitement à la forme de prestations de service : services de protection, services de surveillance (du côté de l’Etat), services de connaissance (par exemple sur son propre état de santé, à partir de la cartographie de son génome), services de consommation. Les « services publics » se trouvent immergés dans un vaste ensemble de prestations de services.
Les relations de pouvoir responsables de ces services se soumettent à des logiques de différenciation. En guise d’exemple, le service médical ne sera plus un service de renseignement sur la pathologie, mais plutôt du profil génétique qui particularise chaque patient et qui les distingue des autres.
Par ailleurs, les services de consommation vont passer par des logiques de différenciation, le but étant de traiter chacun en fonction de son profil, son style. En tout, il s’agit de faire de chacun un être « privilégié ».
- Régulation
Le pouvoir-savoir numérique est soumis à de très nombreuses régulations, à tous les niveaux : national, européen, international. Les unes concernent l’économie des données tandis que les autres concernent les aspects éthiques et juridiques. Concernant ce dernier point de vue découlent deux aspects particulièrement intéressants à étudier.
Le premier concerne le rôle de la Commission nationale informatique et libertés, la CNIL qui est appelée à devenir un des grands régulateurs de la vie économique au fur et à mesure qu’elle va se numériser. Le second concerne la régulation des informations issues du décryptage du génome humain.
Créée en 1978, la CNIL est une Autorité administrative indépendante. C’est le type d’institution qui gère la contradiction entre le nouveau et l’ancien. La lecture du livre témoignage de son premier président, Alex Türk, est fort intéressante quant à l’expression de l’effroi devant un monde qui parait à la fois incontrôlable, menaçant, dangereux pour les libertés fondamentales et pourtant impossible à contenir
- Problèmes de structure[16]
Si avant l’avènement des Big Data, l’intervention d’un ingénieur, d’un mathématicien ou d’un informaticien dans sa fonction de vrai « data scitientist » était encore une possibilité, aujourd’hui ce n’est plus le cas. Le big data fait face à des problèmes très complexes et un progrès scientifique et technologique très avancé.
Cette complexité, associée à la vitesse à laquelle progresse le secteur du big data, induit d’ailleurs assez naturellement le fait qu’un « data scientist » de qualité doit se munir d’un bagage très solide en informatique, en statistique et en mathématique, qui plus tard lui servira de bases pour faire évoluer par la suite une expertise en apprentissage automatique et, de manière plus générale, en intelligence artificielle.
Ce dernier, assez théorique soit-il, lui permettra en effet de bien assimiler la portée des solutions « big data » existantes, de les faire évoluer et enfin de suivre l’évolution très rapide du secteur tout au long de sa carrière.
- Des obstacles de structure
Les obstacles de structure concernent généralement les caractéristiques des systèmes de traitement de l’information qui peuvent être hermétiques ou hybrides. Au sein des entreprises, il est souvent remarqué que les systèmes utilisés dans la collecte de données semblent être très hermétiques, notamment au niveau des RH. En effet, entre les différentes fonctions de RH, les données récoltées sont souvent cloisonnées, sans réelle porosité.
S’ajoute à cela le fait que seules très peu de données sont partagées et communiquées en interne. Ainsi, les données ne sont pas réellement considérées comme des gisements de valeur.
L’étude menée par Gartner témoigne dans ce sens qu’environ 30 % des entreprises considèrent leur infrastructure et/ou leur architecture comme l’un des premiers défis du Big Data.
Par ailleurs, les logiciels d’exploitation de données mises en œuvre par certaines entreprises ne sont pas réellement simultanés d’un département à un autre ce qui rend particulièrement difficile l’harmonisation des systèmes. En effet, les systèmes semblent encore être hybrides et les différentes fonctions qui composent l’organisation ne possèdent pas forcément des logiciels de collecte et d’exploitation de données compatibles.
Toujours selon les études de Gartner, 33 % des entreprises considèrent l’intégration de multiples sources de données comme l’un des trois premiers défis du Big Data.
- Des risques de sécurité
Selon un rapport d’enquête mené par Verizon en 2012 concernant la violation de données numériques, 91 % engendrent des altérations de données dans une très courte durée, et 79 % des violations ne sont découvertes que plusieurs semaines après.
Dans ce contexte, le manque de maîtrise des outils destinés à la gestion des données et à leur sécurisation peut engendrer des problèmes de sécurité ayant comme effet de réduire le développement de la Data Science.
La sécurité des données est plus sensible dans le domaine des RH étant la particularité confidentielle des données. En effet, une simple fuite, ou encore une intervention malveillante peut avoir d’importantes conséquences (données rendues publiques, exploitation des données par des concurrents, etc.) et ce d’autant plus rapidement que la vitesse d’accès aux données ne fait qu’augmenter.
- Les cultures et éthiques
La question de cultures et d’éthique peut également se présenter comme facteurs venant limiter le traitement de données, particulièrement au sein des entreprises. Souvent, la mise en place de systèmes d’exploitation du Big Data au sein des entreprises se heurte souvent à des réticences engendrées par l’appréhension de voir l’organisation se transformer peu à peu en royaumes de chiffres, restreignant à l’extrême la place traditionnellement accordée à « l’humain » et réduisant par là même la place de l’Homme au sein de l’entreprise.
Face à l’introduction du Big data au sein d’une entreprise, les salariés peuvent également être amenés à renforcer leur productivité, mais également à prendre moins de risques et à être plus conventionnels, moins spontanés. Cela a pour effet de réduire la diversité de l’entreprise et par conséquent sa richesse.
2-1-2 La dématérialisation des informations
Toutes les entreprises, quel que soit leur secteur d’activités, sont touchées par le phénomène de la dématérialisation au niveau de presque tous les départements. La dématérialisation constitue l’une des principales déclinaisons d’un système d’information.
Bien qu’entrant dans les plus grands objectifs des organisations, la dématérialisation constitue également une grande difficulté pour certaines entreprises, car elle ne concerne pas uniquement la transformation des documents papier en fichiers numériques, mais touche également l’ensemble du processus de gestion. En effet, il est important de noter que la dématérialisation est différente de la numérisation dans la mesure où elle consiste à retirer le caractère matériel d’une chose tout en transformant les flux physiques en flux numérique.
Elle consiste donc en une conversion graduelle vers une gestion complètement électronique des données ou des documents qui passent au sein des organisations ou dans le cadre d’échanges des acteurs externes.
Par ailleurs, si la dématérialisation des échanges fait bénéficier de plusieurs avantages, elle peut dans certains cas être source de tracas. En effet, la dématérialisation du système d’information a engendré des problèmes de cohérence au niveau des entreprises, car peine avoir le temps de remette de l’ordre au niveau de l’architecture du système, l’émergence du protocole de réseau IP ou Internet Protocol est venu rapidement remettre en cause la conception de leurs réseaux.
La question de sécurité des données et des informations devient également cruciale, car le réseau interne est désormais ouvert au réseau mondial. Cela ouvre la possibilité à des intrusions pouvant engendrer des conséquences extrêmement dommageables.
Outre ces difficultés, la dématérialisation, de documents ou de processus, engendre également d’autres inconvénients tant pour les entreprises que pour l’organisation. Le changement des procédures papier par les échanges électroniques représente des enjeux importants à plusieurs niveaux :
- La difficulté à assurer le respect de la signature électronique
- La fiabilité documentaire
- La traçabilité des flux des opérations
- La gestion des preuves
- Les risques de perte de données
- Les entreprises doivent désormais stocker des données qui sont beaucoup moins structurées.
Le fait de dématérialiser les processus et les échanges, particulièrement dans les relations entre les organisations, engendre des besoins de traçabilité et de suivi des historiques des opérations entamées. Cela demande la conservation des preuves afin d’être en mesure d’identifier le parcours de données utilisées.
Par ailleurs, la question de sécurité engendrée par la dématérialisation implique également certaines exigences[17] pour les entreprises :
- La sécurité juridique des utilisateurs : responsabilité associée, informations minimales à fournir, modalité de contestation des paiements.
- La sécurité des données : protection et sécurité des équipements informatiques, besoin d’une politique de sécurité de l’information.
- La sécurité des transactions : identification des utilisateurs, sécurité de la transaction, signature numérique.
- La sécurité des documents : conservation, conditions de sécurité, modalité d’accès et de partage, contrôle et suivi des documents, conditions de restitution.
2-1-3 Régulation des documents numériques
Des difficultés se posent également sur l’archivage des documents électroniques. En effet, pour que les documents électroniques puissent réunir les conditions juridiques, il faut que l’entreprise se conforme à des modalités de conservation afin de garantir les conditions imposées pour leur reconnaissance juridique.
Parmi les principales conditions, il y a :
- L’intelligibilité, c’est-à-dire, la capacité des documents électroniques à être facilement lu et compris
- L’intégrité : la capacité des documents électroniques à garantir l’inexistence d’altération ou de modifications
- L’authentification de l’auteur des documents électroniques prouvant qu’il n’existe aucune ambigüité
- La traçabilité : la capacité à suivre et à enregistrer les modifications apportées aux documents électroniques.
Conclusion
La révolution culturelle introduite par les nouvelles technologies numériques a favorisée l’émergence de nouveaux modèles d’affaires qui se basent essentiellement sur le partage de l’information et de la connaissance, que ce soit au sein des entreprises ou en en dehors. Considérées comme une forme d’intelligence collective, les nouvelles technologies de l’information et de la communication développées dans l’entreprise est une véritable source de création de valeur et d’innovation, particulièrement dans un contexte caractérisé par la vitesse et l’accélération de la production de données massives.
Ce phénomène amène les différents facteurs au sein des entreprises à partager une vision cohérente qui se fonde sur la confiance et sur la valeur centrale d’une bonne gouvernance.
Les enjeux de transformation de l’entreprise dans la sphère numérique sont multiples. Nous pouvons par exemple citer la présence de nouveaux espaces de création de valeur, la prise en considération des pratiques émergentes dans la sphère sociétale, structure agile et processus d’innovation ouverte, la souplesse de la chaine de valeur, gouvernance et leadership…
Ces différentes mutations se traduisant par une importante extension des espaces de production de valeur, offrent de véritable opportunités de croissance pour les entreprises, et induisent de repenser leur stratégie et donc le modèle d’affaires autour de trois grands axes clés qui sont : l’expérience client, l’organisation des ressources et du travail et les pratiques managériales, le traitement des données et les flux d’informations ainsi que leur conservation dans la durée.
Dans ce contexte les méthodes traditionnelles de traitement de données semblent actuellement impuissantes à donner du sens aux volumes importants de données. Mais aujourd’hui, le recours à des algorithmes informatiques complexes associés à la puissance des méthodes de calcul et de stockage à travers les systèmes informatiques ainsi que la capacité des data scientiste, à faire « parler » les données à travers le développement de l’analyse statistique ouvrent de nouveaux champs d’étude prometteurs pour beaucoup d’entreprises.
En effet, le Big Data se caractérise par des innovations de rupture technologique donnant aux entreprises la possibilité = d’apporter des réponses en quasi temps réel, à des coûts beaucoup plus accessibles. Ces technologies permettent de linéariser la performance des modèles prédictifs basés sur un croisement de données, internes et / ou externes.
L’impact du Big Data sur le modèle économique des entreprises peut être majeur car celui-ci pourra être remis en cause, voire menacé. Les entreprises ont donc tout intérêt à anticiper et doivent réfléchir aux usages de l’information tout en s’interroger sur ce qui est prioritaire pour elle : est-ce la quantité, la vélocité, la qualité des informations afin de favoriser une approche de gestion responsable des masses de données qui sont à leur disposition.
C’est pourquoi, en conclusion de ce travail, nous pouvons dire que deux types d’obstacles semblent entraver le développement de traitement de données numériques dans les entreprises. La première difficulté concerne la qualité des données textuelles des collections, ce qui implique que le premier soin pour développer ces usages soit un investissement dans la qualité des données, qu’il s’agisse du plein texte ou des métadonnées. Cette difficulté qualitative prend des formes diverses, plus ou moins graves, et peuvent toucher tous les secteurs des collections : lacunes dans la conversion en mode texte des collections anciennes, médiocrité des métadonnées fournies par les éditeurs, sont autant de problèmes qui peuvent entraver des exploitations globales de collections numérisées pourtant riches. La seconde, et non la moindre est la sécurisation des données.
Bibliographie
- AKOYA consulting, « Le Big Data ig va-t-il révolutionner les RH? État de l’art et perspectives», 2015
- Alex Popescu « Big Data Causes Concern and Big Confusion. A Big Data Definition to Help Clarify the Confusion», 27 février 2012
- Bernard Scaringella, « Science ou magie? », La Revue mensuelle Automates Intellugent’s, 2013
- Cigref, Le réseau des grandes entreprises, « Big Data : la vision des grandes entreprises, opportunités et enjeux », paris 2013
- Ecoles d’ingénieurs et d’informations, « Science des données », Facultés des sciences appliquées, 2015
- Elizabeth Dwoskin, « How New York’s Fire Department Uses Data Mining », Digits, 24 janvier 2014
- Éric Biernat et Michel Lutz, « Data science : fondamentaux et études de cas», Editions Eyrolles, 2014
- Gossiaux J.F « L’ethnologie au bout du compte », Ministère de la culture/Maison des sciences de l’homme, 1998
- Institut Technologique de l’information et Sociétés « L’importance stratégique de la dématérialisation pour une ville », Université LAVAL, 2010
- Jean-Joseph HENRY, Directeur Associé Décision Performance Conseil, « Big Data, quel rôle pour les contrôleurs de gestion », Finance et Gestion, mars 2014
- Minyar Sassi Hidri, « Technologies pour le Bid Data », Ecole Nationale de l’ingénieur de tunis, 2016
- PRESS, G., « 12 Big Data Definitions: What’s Yours? », dans Forbes, 2013
- Lazare / F. Barthélemy, « Introduction Big Data», Axiodis, 2014
- Stefane Fermigier, « Big Data & Open Source: Une Convergence Inévitable?» VERSION 1.0, 2012
- Thomas Davenport « Importance du Big Data pour vous et votre entreprise» chapitre 1Pearson France – Stratégie Big Data, 2014
Annexes
Annexe 1
Annexe 2 :
Faire évoluer le SI traditionnel avec un SI Big Data
[1] Elizabeth Dwoskin, « How New York’s Fire Department Uses Data Mining », Digits, 24 janvier 2014
[2] PRESS, G., « 12 Big Data Definitions: What’s Yours? », dans Forbes, 2013. http://www.forbes.com/sites/ gilpress/2014/09/03/12-big-data-definitions-whatsyours/
[3] Jean-Joseph HENRY, Directeur Associé Décision Performance Conseil, « Big Data, quel rôle pour les contrôleurs de gestion », Finance et Gestion, mars 2014
[4] Cité dans : Stefane Fermigier, « Big Data & Open Source: Une Convergence Inévitable? » VERSION 1.0, 2012, p.6
[5] Alex Popescu « Big Data Causes Concern and Big Confusion. A Big Data Definition to Help Clarify the Confusion », 27 février 2012
[6][6] Stefane Fermigier, « Big Data & Open Source: Une Convergence Inévitable? » VERSION 1.0, 2012
[7] In Fondation CIGREF, « L’Accéluction en action, programme international de recherche ISD : premier rapport d’étape, une mise en perspective des projets » Vague A, Fondation CIGREF – Octobre 2011, p.4
[8] Cigref, Le réseau des grandes entreprises, « Big Data : la vision des grandes entreprises, opportunités et enjeux », paris 2013
[9] SH. Lazare / F. Barthélemy, « Introduction Big Data », Axiodis, 2014
[10] Gossiaux J.F « L’ethnologie au bout du compte », Ministère de la culture/Maison des sciences de l’homme, 1998
[11] Éric Biernat et Michel Lutz, « Data science : fondamentaux et études de cas », Editions Eyrolles, 2014
[12] Grands axes stratégiques de recherche pour les années 2017 à 2020 « Big Data et sciences numériques »,
[13] Cité dans, Minyar Sassi Hidri, « Technologies pour le Bid Data », Ecole Nationale de l’ingénieur de Tunis, 2016, p.32
[14] Bernard Scaringella, « Science ou magie? », La Revue mensuelle Automates Intellugent’s, 2013
[15] Ecoles d’ingénieurs et d’informations, « Science des données », Facultés des sciences appliquées, 2015
[16]AKOYA consulting, « Le Big Data ig va-t-il révolutionner les RH? État de l’art et perspectives », 2015
[17] « L’importance stratégique de la dématérialisation pour une ville », Université LAVAL, Institut Technologique de l’information et Sociétés, 2010
Nombre de pages du document intégral:56
€24.90