Big Data wants you to believe

Un des grands slogans de l’époque est « Big Data ».

Depuis que j’ai commencé ce blog, je me dis qu’il faudrait que j’écrive sur ce sujet, mais je ne savais pas très bien comment l’aborder. J’ai mis du temps à me faire quelques idées sur le sujet. J’ai effleuré le sujet plusieurs fois, par exemple en exprimant mon scepticisme sur le monde selon Google Traduction, sur la quantophrénie galopante, ou sur les mirages des algorithmes.

J’ai accumulé une jolie collection de documents sur le sujet, j’ai aussi accumulé quelques axes, pistes ou directions de réflexion, quelques métaphores. Mais avant de les détailler et livrer, je vais tenter une définition de Big Data. Ma définition.

Il y a toutes sortes de définitions techniques, supposées objectives ou factuelles, plus ou moins polluées par les actions de marketing de toutes sortes de vendeurs de soupe, voir par exemple ce que dit la version en anglais de Wikipedia :

Big data usually includes data sets with sizes beyond the ability of commonly used software tools to capture, curate, manage, and process the data within a tolerable elapsed time.[20] Big data sizes are a constantly moving target, as of 2012 ranging from a few dozen terabytes to many petabytes of data in a single data set. (…)

In a 2001 research report[22] and related lectures, META Group (now Gartner) analyst Doug Laney defined data growth challenges and opportunities as being three-dimensional, i.e. increasing volume (amount of data), velocity (speed of data in and out), and variety (range of data types and sources). Gartner, and now much of the industry, continue to use this « 3Vs » model for describing big data.[23] In 2012, Gartner updated its definition as follows: « Big data are high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization. »[24]

Pour moi, Big Data est, sinon une idéologie, au moins un ensemble de croyances — pré-supposés, idées reçues, craintes, fantasmes, espoirs — sur ce que permet l’informatique contemporaine, supposée désormais capable de traiter efficacement des volumes de données considérables.

Je dis « informatique » pour faire court — il faudrait élargir aux mathématiques, à la statistique, aux télécommunications, et quelques autres domaines.

Big Data est, en partie, une réactualisation de croyances attachées à l’informatique depuis bien longtemps, certains vieilles de plusieurs décennies, mais mises en sommeil, oubliées, négligées, pour toutes sortes de raison. Ces croyances sont remises à jour par divers phénomènes récents — la généralisation des accès Internet haut-débit, la généralisation des smartphones, les succès des GAFA (Google, Apple, Facebook, Amazon), la perception de l’explosion des volumes de données — et surtout, surtout, la croyance (ou plutôt, « méta-croyance ») que les volumes de données ne sont plus un obstacle.

La « méta-croyance » que les volumes de données ne sont plus un obstacle est essentielle : il n’y aurait plus de limites de temps de traitement, de limites de capacité de stockage, de limites de bande passante, de limites techniques en tout genre. C’est une des nombreuses déclinaisons de l’hubris contemporaine : « The sky is the limit » — ce qui sort du cadre de ce billet que je voudrais court.

Big Data est un ensemble de croyances, que mon esprit analytique français est tenté de regrouper en trois familles, en suivant un cycle de vie sommaire pour des données : collecte, stockage, exploitation.

Collecte. La croyance que nos vies génèrent de plus en plus de données informatiques, qui peuvent être et sont capturées, transmises et stockées. Un corollaire est que, dans tous les domaines que touche l’informatique (et ses confrères), les notions de vie privée, intimité, anonymat, oubli disparaissent plus ou moins vite. Dans tous ces domaines, l’informatique permet de tracer, quantifier, mesurer, enregistrer. De plus en plus d’actions, conscientes ou non, banales ou non, génèrent une flopée d’octets. Qui sait vraiment ce que son smartphone sait et dévoile de lui ?

Pour faire court, j’appelle cette croyance « Big Brother », en référence à l’univers totalitaire décrit par George Orwell dans son roman ‘1984’, paru en 1948.

George Orwell a laissé l’image des grosses caméras de surveillance dans toutes les pièces de tous les bâtiments — qu’aurait-il pensé des caméras de surveillance miniatures, avec GPS et connexion sans fil, que chacun porte sur lui, appelées « smartphones » ?

Big Brother is watching you.

Stockage. La croyance que les données peuvent être stockées pour l’éternité, et peuvent être exploitées. Elles sont et seront exploitées, sans qu’on nous demande notre avis, pour des usages qui nous dépassent complètement. Elles seront exploitées n’importe quand — dans les minutes qui suivent l’acquisition des données, aussi bien que dans dans quelques années ou décennies. Elles sont stockées n’importe où — quand vous tapez une phrase sur Gmail, dans les secondes suivantes elle est répliquée aux quatre coins de la planète dans les data-centers de Google. Elles sont rarement effaçables — Facebook et ses confrères n’oublient jamais rien.

Pour faire court, je rattache cette croyance à la « Bibliothèque de Babel », imaginée par José Luis Borges en 1941, et transfigurée par Umberto Eco en 1980 puis Jean-Jacques Annaud en 1986 dans « Le Nom de la Rose ». Le sujet, c’est la mémoire.

Dans sa préface à la troisième édition française de « La Société du Spectacle », datée du 30 juin 1992, Guy Debord a écrit :

(…) envisageant la disparition prochaine d’une société mondiale qui, comme on peut dire maintenant, s’effacera de la mémoire de l’ordinateur (…)

Utilisation. La croyance que ces données, parce que « big », peuvent avoir des capacités littéralement magiques. En particulier, des capacités prédictives. Avec suffisamment de données, et avec suffisamment de technologie, on peut prédire … l’évolution d’un cours de bourse, l’apparition d’une maladie chez un individu, un futur comportement criminel chez un enfant, l’apparition d’une épidémie dans un pays, une révolution, et pourquoi pas un séisme ?

Pour faire court, j’appelle cette croyance « psychohistoire », en référence à l’univers de « Fondation » imaginé par Isaac Asimov dans son cycle inauguré en 1942.

On pourra reprendre le concept initial de « psychohistoire » et son raffinement progressif de 1942 à 1992, de même que le raffinement du personnage et du mythe de Hari Seldon, mais je voudrais avant tout rappeler la définition de la magie donnée par son confrère Arthur C. Clarke :

Any sufficiently advanced technology is indistinguishable from magic.

Je reprendrai ces pistes dans de prochains billets, en fonction de l’inspiration et du temps disponible. Mon esprit analytique français est content d’avoir, pour une fois, une sorte de plan de travail. Le reste est sceptique.

Bonne journée.

Publicités
Cet article, publié dans big data, est tagué , , , , , , , , , , , , , , , , , , . Ajoutez ce permalien à vos favoris.

4 commentaires pour Big Data wants you to believe

  1. Ping : Big Data wants you to believe | D&IM (Docum...

  2. Lisande dit :

    Il y a quelque chose qui me turlupine beaucoup : sur quels critères a-t-on élaboré les GAFA au niveau international ? Et surtout comment on a fait le tri avec les autres géants informatiques, du web ou du numérique?

    Je me tourne vers vous car mes recherches n’ont pas donné beaucoup de résultats pour l’instant et ça m’agace profondément car c’est grâce à vous que j’ai découvert ces notions.

    Quand on parle des Géants, le plus souvent on omet de mentionner Apple (parce qu’il est déjà sur la pente descendante à cause du départ de Steve Jobs?), certains parlent déjà d’ajouter Netflix au classement des Géants influents en France… Netflix ne fait pas partie des GAFA ; j’ai cru lire pourtant que Netflix était la solution au piratage et que cela avait un succès fou déjà : peut-être uniquement sur le sol américain, ce qui limite sa portée de Géant… Un article francophone parlait d’ajouter un Y aux GAFA pour Yahoo aussi.

    Cette notion de poids des entreprises du monde informatique derrière le mot « géant » est difficile à saisir. Je m’interroge sur cette notion de GAFA. Savez-vous quand elle est apparue, si elle est encore en vigueur dans les journaux et revues sérieux? Je n’en connaissais pas l’existence avant de vous lire lors de la sortie de vos articles et une recherche sur une nouvelle expression qui remplacerait GAFA, ça me marche pas.

    • L’acronyme GAFA est un de ces acronymes très efficients du monde anglo-saxon, qu’il faut éviter de sur-interpréter. Comme BRIC ou PIGS.

      Il n’y a pas de critères objectifs et explicites.

      BRIC : faut-il dire BRIC ou BRICS ? Brazil, Russia, India, China … et éventuellement South africa … c’était une invention d’un analyste de Goldman Sachs, sauf erreur. Est-ce que l’Afrique du Sud est dans le même peloton que les quatre autres ? Ou pas ? Discussions un peu futiles. Mais ça sonne bien. Ça claque ! Ça sonne mieux qu’un synonyme laborieux tel que : « grands pays émergents ».

      PIGS : faut-il dire PIGS ou PIIGS ? Portugal Italy Greece Spain … et éventuellement Ireland … je ne sais plus qui avait inventé ça. Manière pour la presse financière de parler avec mépris des Etats du Sud de l’Europe surendettés, les vilains méchants pas beaux … si on rajoute un deuxième I pour Ireland, ça enlève le côté méditerranéen … et personne n’avait proposé un troisième I pour Iceland … et ils ont pas réussi à caser le F de France … encore des discussions futiles. Mais ça sonnait bien. Vous voyez l’idée.

      Pour revenir à GAFA … ça sera démodé dans quelques années. Faut-il ajouter Microsoft, Twitter, Yahoo! ou Netflix, faut-il virer Apple (déclin ? bof) ou Facebook (beaucoup plus petit ? bof) ? Ça peut occuper de longues discussions, pas forcément inintéressantes.

      Le truc, c’est qu’un bon acronyme peut être plus « sexy » (comme disent les Américains) qu’une formule un peu laborieuse telle que « les géants du numérique » — que j’ai du utiliser, il me semble. J’ai du dire aussi « les GAFAs et assimilés » ou « les GAFAs et leurs cousins ». L’essentiel est que l’idée passe.

      Dans mon souvenir, la première fois que j’ai vu l’expression GAFA, c’était dans le « The Economist » qui présentait une carte des guerres du numérique façon Westerlos … j’ignorais à l’époque ce qu’était Game of Thrones. Décembre 2012 … même pas deux ans …
      http://www.economist.com/news/21567361-google-apple-facebook-and-amazon-are-each-others-throats-all-sorts-ways-another-game

      « Les mots prennent de la valeur au fur et à mesure qu’ils perdent du sens. », n’est-ce pas ?

      Bonne fin de semaine.

  3. Lisande dit :

    « Les mots prennent de la valeur au fur et à mesure qu’ils perdent du sens. » C’est bien cela qui m’inquiète. Beaucoup de personnalités commencent à l’employer lors de discussions sur la culture et l’information (qui est mon centre d’intérêt actuel exclusif, concours oblige).

    « les géants du web », « les géants du numérique ». France culture s’y est mis (dans « Du grain à moudre », http://www.franceculture.fr/emission-du-grain-a-moudre-d-ete-qui-peut-se-mesurer-aux-geants-du-net-2014-08-13#xtor=EPR-32280591, ou encore « Place de la toile » censés être spécialisés sur le sujet mais parfois peu rigoureux), Télérama a fini aussi par utiliser le terme.

    Si ces termes se banalisent trop, une définition précise va devoir lui être attribuée je pense pour ramener cette nébuleuse conceptuelle à une problématique particulière. Je me penche peut-être trop tôt sur le sujet. GAFA = géants du numérique bien souvent, sans aucune explications. Raccourci facile.

    Le terme GAFA m’interpellait beaucoup car sa désignation d’entreprises très précise me faisait espérer pouvoir trouver des critères de caractérisation de ces géants (à part ce mythe qu’ils sont partout [ce qui n’est pas tout à fait faux] et qu’ils sont invincibles parce que tout le monde a peur ou s’est cassé les dents contre eux). Une première réflexion en collaboration avec la page Wikipédia sur les « géants du web » m’avait laissé sur des conjonctures. Je n’aime pas rester sur le doute sur ce genre de terme faisant appel au mythe et à la croyance populaire ((des « géants », des « ogres »!).

    Grands mercis pour votre éclairage ainsi que la référence de l’article de « The Economist » qui m’a bien fait sourire par son parallèle avec Game of Throne (le décryptage de la carte m’a beaucoup amusée). La métaphore est vraiment intéressante pour éclaircir la compétition entre les 4, vraiment complexe: les générations de géants organisés de gauche à droite, le rappel du Dark offline qui permet de relativiser l’omnipotence et l’omniprésence des GAFA (sinon leur omniscience, qui me paraît avérée au vu des investissements dans la recherche et le développement et leur capacité d’infiltration dans la vie quotidienne, au moins pour ses utilisateurs).

Tous les commentaires seront les bienvenus.

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s