Big Data : Les fantasmes du déterminisme assisté par ordinateur

Ce billet est le quatrième d’une petite série sur Big Data, plus précisément sur les croyances associées au thème de Big Data — idéologies, préjugés, espoirs, craintes, fantasmes.

Dans le premier billet, servant d’introduction, je me proposais d’explorer ces croyances en trois parties.

Première partie (publiée avant l’irruption d’Edward Snowden) : la collecte des données — collecte omniprésente, permanente, généralisée, systématique. Big Brother is watching you.

Deuxième partie : le stockage des données — stockage permanent, irréversible, incontrôlable, incontrôlé. Le Borg sait mieux que vous ce qui a été.

Troisième partie : l’utilisation des données. C’est le présent billet. C’est le dernier de la série, même si je pense que ce ne sera pas le dernier billet sur ce sujet.

Les données peuvent-elles être magiques ? Est-ce que, parce qu’elles sont colossales (« big »), et parce que la puissance de calcul est devenue considérable, les données permettent de percer à jour des vérités insoupçonnées, de résoudre des problèmes insolubles, et surtout de prédire l’avenir ? Big Data est-il, comme on le dit des voyants, « extra-lucides », c’est-à-dire capable d’une lucidité au-delà de la lucidité ordinaire, capable de voir ce que les humains dépassés ne voient pas, capable de voir l’avenir ?

Prédire l’avenir est un vieux thème, de la science-fiction et avant. Une des expressions les plus merveilleuses, c’est la psychohistoire de Hari Seldon, cette discipline scientifique imaginée dans les années 1940s par Isaac Asimov, à la base de la trilogie de Fondation — et des quelques ouvrages rajoutés à la trilogie par Asimov lui-même dans les années 1980s. Des livres que je relirai avec plaisir si j’avais le temps …

Gaal Dornick, using nonmathematical concepts, has defined psychohistory to be that branch of mathematics which deals with the reactions of human conglomerates to fixed social and economic stimuli …
… Implicit in all these definitions is the assumption that the human conglomerate being dealt with is sufficiently large for valid statistical treatment. The necessary size of such a conglomerate may be determined by Seldon’s First Theorem which … A further necessary assumption is that the human conglomerate be itself unaware of psychohistoric analysis in order that its reactions be truly random …

Dans quelques billets publiés sur le site Monday Note à l’automne 2012, Frédéric Filloux donnait des visions actualisées très convainquantes de comment les géants contemporains de Big Data pourraient permettre des sortes de prédictions.

Dans son billet du 23 septembre 2012, il raconte comment les données semées dans Facebook pourront se retourner même contre la plus prudente de ses utilisatrices. La conclusion est superbe :

Moore’s Law is definitely on the Inquisitors’ side.

Dans son billet du 9 décembre 2012, il explique comment les données agrégées par Google pourront permettre des prédictions extrêmement lucratives à de gros industriels.

While public transportation operators or utility companies are already good at collecting and analyzing their own data, Google will soon be in the best position to provide powerful predictive models that aggregate and connect many layers of information. In addition, its unparalleled infrastructure and proprietary algorithms provide a unique ability to process these ever-growing datasets. That’s why many large companies over the world are concerned about Google’s ability to soon insert itself into their business.

Un long reportage publié le 16 février 2012 dans The New York Times, intitulé « How Companies Learn Your Secrets », évoque longuement la puissance informatique et les théories psychologiques mises en oeuvre par la grande distribution pour déterminer ce qui pourrait intéresser chaque consommateur. L’article explique notamment comment les algorithmes arrivent à deviner qu’une femme est enceinte à partir de ses achats, même si elle cherche à le dissimuler. Il développe d’autres exemples. La conclusion est glaçante :

As Pole told me the last time we spoke: « Just wait. We’ll be sending you coupons for things you want before you even know you want them. »

Dans un article publié le 30 avril 2013 par Der Spiegel, un scientifique britannique nommé Stephen Wolfram décrit comment Facebook lui a laissé l’accès à certaines de ses données pour donner libre cours à ses fantasmes d’expérimentations informatiques à valeur supposée prédictive.

Our web analytics team was full of former experimental particle physicists. They were used to doing experiments on neutrinos or something, where they get data at some rate and make these plots on the behavior of particles and so on. The data rate in our web analytics system is about the same as the one they got in their particle physics experiments, the number of clicks is about the same as the number of particles going through a detector. The surprising thing is: The curves in web analytics are actually smoother than those they were used to in particle physics. People are, in a sense, more predictable than the quantum mechanics of particles.

Les Particules Elémentaires, titre du roman incontournable de Michel Houellebecq. Les individus ne sont-ils donc que cela, des particules élémentaires ? Calculables statistiquement comme des protons et des neutrons. Indifférenciés et insignifiants. Prédictibles.

Voilà quelques-uns des fantasmes — craintes ou espoirs — associés à Big Data, en tant que moyen de prédiction.

Allons un peu plus loin.

Le plus important n’est pas de savoir si Big Data permet effectivement de prédire l’avenir — c’est de constater que suffisamment de gens en sont persuadés. Ou vont le devenir. Vont accepter le caractère magique de la chose. Vont attendre des prédictions de la chose.

Ce qui me frappe, c’est qu’on semble accepter par avance que les prédictions issues de Big Data ne seront pas argumentées, au sens, argumentées en langage humain. Elles ne seront pas formulées d’une manière accessible à des esprits humains critiques. Elles seront juste calculées. Affirmées. Assénées. On suppose les calculs infaillibles. On n’imagine pas qu’ils pourront être contestés, remis en cause, décortiqués. Je suppose que, le moment venu, on repoussera quiconque demandera des détails sur les résultats des admirables algorithmes avec mépris : « Cela excède largement la compréhension d’un esprit humain limité comme le vôtre. » Circulez, y a rien à comprendre. Ayez confiance, l’ordinateur travaille. Mais le plus probable est que personne ne cherchera un raisonnement ou un argumentaire, on se contentera de la conclusion. Du verdict.

Les algorithmes sont supposés infaillibles, sont supposés objectifs — ou, en tout cas, ils seront présentés comme tels par ceux que ça arrange — pour défendre un pouvoir ou juste pour faire du pognon.

Un article du Guardian intitulé « How algorithms rule the world », daté du 1er juillet 2013, va plus loin, et, citant un professeur à Oxford, nous ramène sur le terrain de Philip K. Dick dans « Minority Report » :

Viktor Mayer-Schönberger (…) warns against humans seeing causation when an algorithm identifies a correlation in vast swaths of data. « This transformation presents an entirely new menace: penalties based on propensities (…). That is the possibility of using big-data predictions about people to judge and punish them even before they’ve acted. Doing this negates ideas of fairness, justice and free will. In addition to privacy and propensity, there is a third danger. We risk falling victim to a dictatorship of data, whereby we fetishise the information, the output of our analyses, and end up misusing it. Handled responsibly, big data is a useful tool of rational decision-making. Wielded unwisely, it can become an instrument of the powerful, who may turn it into a source of repression, either by simply frustrating customers and employees or, worse, by harming citizens.

Mon expérience limitée des affaires humaines est que les décisions doivent être justifiées, argumentées, motivées. L’arbitraire commence lorsqu’une décision vient sans rien, tombe du ciel, d’un oracle, d’un dictateur ou d’un manager.

Mon expérience limitée des sciences, mon vague bagage scientifique de jadis, me suggèrent que la science, ce n’est pas juste calculer des résultats, c’est aussi comprendre des phénomènes, les mettre en équations. C’est les mettre en histoire, les mettre en phrases, pouvoir les expliquer, les raconter, les discuter. Comprendre, c’est prendre. Et c’est démontrer, d’une manière qui peut être contestée, remise en cause, réfutée, rejetée. Il faudrait que je relise Karl Popper. Ce qui ne peut être réfuté par construction relève de la religion, ou de l’idéologie. Big Data est-il l’ébauche d’une nouvelle religion, ou d’une nouvelle idéologie ? Ou d’une dictature rampante ?

Ce qui me frappe aussi, c’est qu’avec Big Data, on pense que des analyses statistiques peuvent remplacer une réflexion sur les dynamiques sous-jacentes d’un phénomène. On ne cherche plus à élaborer des modèles, on ne cherche plus à comprendre, on ne cherche plus à expliquer, on cherche juste à trouver des motifs (ou « patterns »), des corrélations et à permettre des extrapolations. On cherche juste à prolonger les courbes — et à faire du pognon.

Comme l’a fait remarquer David Brooks dans le New York Times du 16 avril 2013 :

The theory of big data is to have no theory, at least about human nature. You just gather huge amounts of information, observe the patterns and estimate probabilities about how people will act in the future.

Ce qui me frappe enfin, c’est que, avec Big Data, on ne cherche à obtenir des prédictions, des informations, des idées, que sur des phénomènes qui ont déjà commencé, pour lesquels il y a déjà des données historiques exploitables. Tout le reste est laissé dans l’ombre. Négligé. Nié. Big Data est impuissant face à l’inédit. Big Data nous incite à concentrer notre attention sur ce qui a déjà eu lieu. Ce qui nous ramène à ce phénomène déjà noté plusieurs fois dans ce blog : on tourne en rond. On se regarde le nombril. On ne cherche qu’à reproduire ce qui a déjà marché, à refaire ce qui a déjà été fait. On ne tente plus rien. On n’innove plus. On cherche juste à rentabiliser la base de données — les données existantes.

Big Data, n’est-ce qu’une extension du domaine des statistiques ? Dans ce cas, toutes les objections contre les abus des statistiques s’appliquent, typiquement celles exposées par exemple dans le livre « The Black Swan » de Nassim Nicholas Taleb (que je n’ai toujours pas fini de lire, hélàs). Notamment celle-ci, que j’ai déjà évoquée : l’abus de statistiques, l’étalage de chiffres, l’ivresse de s’appuyer sur des données « historiques », si cela dispense de penser, c’est très dangereux. On se prépare de mauvaises surprises. Typiquement, si on prend le point de vue d’une dinde d’élevage aux Etats-Unis, chaque jour depuis sa naissance apporte à peu près la même quantité de grains et le même confort de vie. Les corrélations sont indiscutables. Les chiffres sont éloquents. Logiquement, pour la dinde, chaque jour devrait ressembler à tous les précédents. La courbe — une ligne droite ! — ne peut qu’être prolongée. Jusqu’à Thanksgiving.

Big Data, n’est-ce pas, au fond, plus simplement, la continuation du déterminisme par d’autres moyens ?

La définition la plus pure, la plus classique du déterminisme, avait été formulée par Laplace en 1840 :

Nous devons donc envisager l’état présent de l’univers comme l’effet de son état antérieur et comme la cause de celui qui va suivre. Une intelligence qui, pour un instant donné, connaîtrait toutes les forces dont la nature est animée, et la situation respective des êtres qui la composent, si d’ailleurs elle était assez vaste pour soumettre ces données à l’Analyse, embrasserait dans la même formule les mouvements des plus grands corps de l’univers et ceux du plus léger atome : rien ne serait incertain pour elle et l’avenir, comme le passé serait présent à ses yeux.

Pour faire court : si on savait tout du passé et du présent, on pourrait en déduire tout sur le futur.

Dès lors, le fantasme de Big Data, c’est que, on va bientôt savoir tout du passé et du présent. Ou presque. Bien assez pour verrouiller tout du futur — et faire du pognon.

En 1998, dans le film « Fight the Future », Fox Mulder se plaint à Dana Scully :

Whatever happened to playing a hunch, Scully? The element of surprise, random acts of unpredictability? If we fail to anticipate the unforeseen or expect the unexpected in a universe of infinite possibilities, we may find ourselves at the mercy of anyone or anything that cannot be programmed, categorized or easily referenced.

En 1990, dans le roman « The Fall of Hyperion » de Dan Simmons, la machine Ummon s’énerve contre le cybride Keats :

— (…) why fight the war if you know who won, Ummon? (…) Why fight a war and go through all this?
[KWATZ!]
[I tutor you/
create the finest retrieval persona for you
imaginable/
and let you wander among humankind
in slowtime to temper your forging/
but still you are
stillborn]
I spend a long moment thinking.
— There are multiple futures?
[A lesser light asked Ummon //
Are there multiple futures> //
Ummon answered //
Does a dog have fleas>

Et on n’a même pas parlé de bugs. Does software have bugs?

Le plus dangereux, ce n’est pas qu’il y ait des défauts dans un logiciel, c’est de croire qu’il n’y en a pas.

Le plus dangereux, ce n’est pas de faire des prédictions appuyées sur Big Data, c’est de les croire.

Big Data wants you to believe.

Bonne nuit.

Publicités
Cet article, publié dans big data, est tagué , , , , , , , , , , , , , , , , , , , , , , . Ajoutez ce permalien à vos favoris.

2 commentaires pour Big Data : Les fantasmes du déterminisme assisté par ordinateur

  1. Ping : Big Data : Les fantasmes du déterminisme...

  2. Lisande dit :

    L’expression « Data Dictator » pourrait peut-être s’appliquer à la description de ce fantasme de la vérité asolue obtenue par la science. Il semble que le mot dictateur puisse être compris comme le tyran mais aussi comme celui qui dicte (Wordreference n’en parle par mais les articles anglophones glissent vers ce sens : http://www.forbes.com/sites/gilpress/2012/09/06/help-wanted-data-dictators/).

    En tout cas ça sonnerait bien pour compléter la galerie de personnages : « Big Brother », « Borg » and « Data Dictator ».

    La seule chose qui pourrait chagriner, c’est que je n’ai pas décelé de référence à un ouvrage de science-fiction.

Tous les commentaires seront les bienvenus.

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s