Big Data : Le Borg sait tout et même plus

Billet faisant partie d’une série. Voir ici l’introduction. Cette série porte sur les perspectives, croyances et fantasmes associés à « Big Data ».

La première partie « Big Data et Big Brother : Démesure de la mesure » traitait de la collecte des données. La troisième partie traitera de l’utilisation des données. Cette deuxième partie traite du stockage des données.

La rédaction de ce billet a commencé avant les révélations de Edward Snowden. Il est indépendant de ces révélations. De mon point de vue, ces révélations ont apporté assez peu de choses — juste des confirmations.

Commençons cependant par une observation sur l’affaire Prism / Snowden. Beaucoup de commentaires réduisent cette affaire à une banale problématique d’excès de surveillance, de mise sur écoute à grande échelle. A mon avis, ils se trompent. La surveillance n’est que l’acquisition des données. Une fois acquises, les données sont stockées, puis exploitées. Le mot « surveillance » — et plus encore, le mot « interception » — sent bon l’image classique des écoutes téléphoniques dans les films du XXème siècle : des hommes en noir écoutent dans l’obscurité des conversations téléphoniques, prennent des notes sur des feuilles de papier, ces notes sont ensuite dactylographiées et transmises à un grand chef. Puis elles seront rangées dans des dossiers, emballées dans des cartons, rangées dans d’immenses entrepôts silencieux, au milieu d’autres tonnes de papier, perdues, oubliées, inexploitées.

La deuxième croyance derrière Big Data est que, précisément, les données informatiques produites par la surveillance ne seront jamais perdues, jamais inaccessibles, toujours disponibles, toujours vivantes.

La troisième croyance derrière Big Data est, précisément, que les données ne seront jamais inexploitées, qu’elles pourront à tout moment être exploitées, mises en musique pour des applications littéralement magiques.

Voyons donc cette deuxième croyance.

(a) Le Borg qui assimile les données.

Les « Big Data », ces données qui sont « dans le cloud », « sur le web », ou « dans le cyberespace » (comme on disait dans les années 1990s, le mot ayant été forgé par William Gibson en 1984) — ces données ne sont pas nulle part. Peter Pan vit à Neverland, mais Neverland ce n’est pas nulle part. Les données sont dans des centres de données — en bon français, des « data centers ». Les données sont stockées par des infrastructures techniques.

Se représente-t-on bien l’ampleur des infrastructures techniques mises en oeuvre par les GAFAs, et par leurs confrères tels que la NSA ?

A l’automne 2012, j’ai vu passer des articles de vulgarisation technique absolument fascinants sur ce qui est mis en oeuvre pour l’une de ces infrastructures, le système de base de données Spanner de Google. Voir la définition officielle de Spanner par Google :

Spanner is Google’s scalable, multi-version, globally-distributed, and synchronously-replicated database. It is the first system to distribute data at global scale and support externally-consistent distributed transactions.

Voir aussi l’article dans Wired en novembre 2012 :

Spanner is something that stretches across the globe while behaving as if it’s all in one place.

Google, NSA, Apple, Facebook, Amazon, Microsoft, DCRI, FSB, etc se dotent d' »infrastructures techniques » informatiques extraordinaires, plus ou moins discrètement. Pas la peine d’entrer dans plus de détails techniques. Ce sont des capacités de stockage colossales. Des moyens de réplication colossaux. Et gardons pour plus tard les capacités de traitement. Des « infrastructures techniques » qui ne perdront jamais aucune donnée, qui n’oublieront jamais rien. Qui ne s’arrêtent jamais.

Je dis « infrastructure technique » entre guillemets, parce que j’hésite à écrire juste la « chose ». La « chose » informatique. Something. J’avais initialement prévu d’intituler ce billet « La Bibliothèque de Babel », en hommage à Borges, mais après relecture de Borges, j’ai renoncé à cette métaphore. Même si je connais mal l’univers de Star Trek, je vais utiliser le mot « Borg » pour nommer cette « chose », ou « infrastructure technique ». Par parenthèse, les créateurs de Star Trek auraient-ils forgé ce mot en hommage au maître ?

Borg is a collective proper noun for a fictional alien race that appears in the various incarnations of the Star Trek franchise. The Borg are a collection of species that have been turned into cybernetic organisms functioning as drones of the collective or the hive. A pseudo-race, dwelling in the Star Trek universe, the Borg take other species by force into the collective and connect them to « the hive mind »; the act is called assimilation and entails violence, abductions, and injections of cybernetic implants. The Borg’s ultimate goal is « achieving perfection ».

Et, rappelons-le :

You will be assimilated.

Resistance is futile.

Plutôt que le Borg, il faudrait plutôt dire les Borgs, au moins temporairement, en attendant que Wall Street ne décide, pour accroître les profits, de fusionner Google et Facebook, ou Apple et Amazon, puis le tout.

Les Borgs n’oublient jamais rien.

(b) Les données ne sont plus chez nous.

Pendant que les Borgs ont commencé à être construits, nos données ont commencé à partir de chez nous.

J’appartiens à la génération (et à la caste sociale) heureuse qui a pu avoir l’illusion de maîtriser ses données. Nous avons eu l’ivresse de gérer nos propres données, avec des disquettes, des SyQuest, des Zip Drives, des graveurs de CD-ROM et de DVD-ROM, des clefs USB et autres disques durs amovibles, et toutes sortes d’autres jouets maintenant voués à l’oubli.

J’appartiens à la génération heureuse pour qui un ordinateur, c’est un système de fichiers. On peut les créer, les modifier, les copier, les déplacer, les effacer ou les archiver. On les possède. Sur les appareils modernes, type tablette, les systèmes de fichiers sont consciencieusement dissimulés — de même que le clavier est devenu un accessoire complètement optionnel et négligeable.

Cette génération (et cette caste), bien sûr, ne va pas disparaître du jour au lendemain. Nous allons juste devenir progressivement minoritaires, dépassés, ringards, marginalisés.

Où sont stockées les données ? De moins en moins chez soi, de plus en plus dans le Cloud d’un Borg. Ailleurs. Hors de portée. Mais c’est tellement « plus pratique » !

On s’en rend surtout compte pour les données dont nous avions conscience en tant que fichiers de données, par exemple les lettres, les courriers électroniques, les photos, les musiques et les films. Ce qu’on peut penser comme fichiers, ce qu’on peut penser posséder, manipuler, copier, déplacer, modifier ou effacer. On ressent que ces données partent de plus en plus, qu’elles sont de moins en moins saisissables.

Quant aux autres données, celles qui n’étaient pas ou presque pas des fichiers, qui a conscience de leur existence ? Qui s’en soucie ?

Un exemple : J’ai été convaincu de passer à Gmail, plutôt qu’à Hotmail, il y a quelques années, parce que Gmail permettait théoriquement, via un accès en protocole POP3, de récupérer ses mails sur une machine personnelle, « en local », contrairement à Hotmail. Je ne sais pas s’il le permet encore. En tout cas, je n’ai jamais pris le temps de transférer mes courriers Gmail sur une machine personnelle — et de gérer moi-même mes archives de données. Les années passent. Je suis peut-être paresseux. Je ne pense pas être le seul, cependant. Je crains même d’être dans la majorité : ceux dont les mails sont sur le cloud de Google, pas chez eux.

Nous perdons graduellement l’habitude d’avoir nos données chez nous — alors que les coûts de stockage sont devenus dérisoires. Immense paradoxe : on pourrait stocker chez soi de plus en plus, et en pratique on stocke de moins en moins — sauf des initiés de plus en plus minoritaires. Illusion d’optique.

Les données s’en vont — ou ne viennent plus — discrètement … parce que c’est plus pratique, moins contraignant, « transparent pour l’utilisateur », conçu ainsi … Parce que tout est fait pour nous en éloigner. Pour nous en déposséder. Volontairement.

La dématérialisation des factures offre une bonne illustration de cette dépossession.

La dématérialisation des factures et autres documents commerciaux s’est généralisée ces dernières années, notamment chez les grands oligopoles : électricité, gaz naturel, eau, télécommunications, autoroutes. Encore un effort, et on ne nous demandera même plus notre avis pour nous forcer à passer à la « facture électronique », et à renoncer à la « facture papier ».

C’est présenté comme un progrès, comme un service supplémentaire, apportant une vraie valeur ajoutée au client — vous pourrez voir votre facture sur votre smartphone, trop cool ! C’est aussi présenté comme un « geste pour la planète » — moins de papier, moins d’enveloppes, moins de CO2, bla bla bla ! C’est souvent vu comme une manière d’économiser des frais postaux. Mais pour moi, la vraie motivation de la course des opérateurs vers la dématérialisation est ailleurs.

La dématérialisation éloigne le consommateur (ou client, ou usage, ou abonné) de sa facture. La dématérialisation complète le mouvement engagé par le prélèvement bancaire automatique (vous ne savez même plus quand et quoi vous payez), et la complexification à outrance des factures (ça fait vieux con de le dire, mais les factures d’électricité étaient lisibles, « avant » !). Quand vous recevez une facture par la poste, vous avez la tentation d’essayer de la lire, vous pouvez même y déceler des erreurs, et, ô horreur, vous pourriez même décider de la contester ! Quand vous recevez juste un mail de notification, une ou deux fois par an, noyé au milieu du reste (voire exfiltré dans la boîte à spam), allez-vous cliquer sur le lien, chercher vos identifiants reçus quelques années auparavant (parfois par courrier papier), naviguer péniblement pour essayer de comprendre une facture rendue illisible par plus d’une décennie de consulting à outrance ?

La dématérialisation des factures est une opération de dépossession du consommateur. Le consommateur est là pour payer, et pas pour faire chier, point-barre. L’oligopole sait mieux que lui, et n’a pas envie de lui fournir les données qu’il pourrait utiliser contre lui !

(c) Les données ne sont plus à nous.

Les données sont parties de chez nous, et, en plus, les données ne sont plus à nous.

Les données ne sont plus à nous d’un point de vue juridique. Google, Facebook, et leurs confrères, avec leurs armées de lawyers, de lobbyistes et autres effendis grassement rémunérés, ont tous les droits légaux possibles et imaginables sur ces données. On ne rate pas une occasion de nous le rappeler, de nous faire comprendre que nous ne sommes rien à côté de ces mastodontes.

Au milieu des années 1990s, comme beaucoup d’étudiants, j’avais bricolé quelques « pages personnelles » en HTML, plus ou moins sottes. Au début des années 2000s, j’ai réalisé qu’elles étaient encore en ligne chez un hébergeur ayant racheté d’autres hébergeurs qui avaient eu même copié du contenu ailleurs, etc. Je crois bien avoir fait un courrier recommandé avec accusé de réception pour demander le retrait de ces choses obsolètes. Elles sont toujours en ligne. Elles ne seront jamais retirées. Elles ne seront jamais effacées. Elles ne sont plus à moi, même s’il y a mon nom dessus.

Quand le père noël m’a offert un Kindle en 2011, je me suis dit qu’il faudra que je fasse des copies de sauvegarde de mes livres à venir sur cet engin. C’est dans ma liste de choses à faire. Je ne l’ai jamais fait. Je ne sais même si c’est possible. Je pense que ça ne l’est pas. C’est dans « le cloud ». Et les fichiers locaux sont cryptés. Si Amazon ne m’aime plus, je perds tout. Et pourtant, j’ai acheté ces livres … l’idée que je puisse perdre des livres — mes livres — suite à la simple manipulation d’un opérateur à l’autre bout du monde, ou suite à un simple bug informatique, me terrifie. Ces livres ne sont ni vraiment chez moi, ni vraiment à moi.

Steve Wozniak, qui fut avec Steve Jobs le co-fondateur d’Apple à l’époque de Léonid Brejnev, a résumé la situation avec une comparaison cinglante avec la défunte Union Soviétique :

You couldn’t own anything [in communist Russia]. Well, nowadays in the digital realm you don’t own anything anymore. It’s all subscriptions… Anything you put on the cloud you don’t own. You’ve signed away the rights to it. If they decide deliberately they don’t like you, and cut you off, you’ve lost all the photographs of your life. You don’t own it anyway! When we grew up, ownership was what made America different to Russia.

(d) Le Borg sait mieux que nous.

Les données ne sont plus chez nous, les données ne sont plus à nous … et en plus, le Borg dispose de données dont nous n’avions même pas conscience. Le Borg se souvient de ce que nous avons déjà oublié.

Le Borg se souvient — et se souvient mieux que nous.

Julian Assange, bien avant Edward Snowden, a bien expliqué cette situation, typiquement dans une interview à Russia Today en novembre 2012 :

The problem is that all the time nearly everything people do on the internet is permanently recorded, every web search.

Do you know what you were thinking one year, two days, three months ago? No, you don’t know, but Google knows, it remembers.

The National Security Agency who intercepts the request if it flowed over the US border, it knows.

Soyons concrets. Je tape un bout de texte dans Gmail. Au fil de l’écriture, le brouillon est enregistré automatiquement, périodiquement. Avant même que je n’ai fini de l’écrire, les premières lignes ont donc été sauvegardées sur un serveur dans un des data-centers géants de Google. Elles ont même été probablement répliquées vers un autre data-center, voire dans plusieurs autres. Si j’efface mon bout de texte, a priori il sera effacé du serveur, des serveurs, en cascade, pareillement. Ou pas. Rien ne dit que le bout de texte que j’ai effacé ne subsistera pas, pour une durée indéterminée, quelque part dans le Borg de Google.

Je discute avec un ami sur Facebook. Sauf erreur, il n’y a pas d’option pour que la conversation ne soit pas enregistrée — on peut juste, en cherchant bien, l’effacer après coup, ou, plus précisément, la rendre invisible. En pratique, phrase après phrase, mot après mot, tout est sauvegardé dans un serveur, répliqué dans un autre, etc. Pour l’éternité — dans les limites techniques de l’infrastructure technique, du Borg de Facebook.

Dans « Le Pendule de Foucault », Umberto Eco décrit finement la psychologie de son personnage Jacopo Belbo, expérimentant l’art délicat de la saisie de texte sur un micro-ordinateur du début des années 1980s. C’est-à-dire sur une machine avec un clavier, mais déconnectée, et équipée d’un logiciel assez rudimentaire. Ce qui était tapé n’était pas stocké dans une mémoire tampon, permettant de revenir en arrière, de rattraper une erreur à grands coups de Control-Z. Ce qui était tapé n’était pas instantanément propagé sur un serveur distant, sur un nombre indéterminé de serveurs distants, siphonné par un Borg.

Oh, j’avais écrit quelque chose, j’ai bougé le pouce par erreur, tout s’est volatilisé. De quoi s’agissait-il ? Je ne me rappelle pas. Je sais que je n’étais en train de révéler aucun Message. Mais sait-on jamais par la suite.

Les systèmes informatiques gardent toujours une trace. Ils effacent rarement quand on leur demande d’effacer, ils se contentent de déréférencer, archiver, masquer ou historiser. En surface, c’est supprimé. En profondeur, c’est encore là, plus ou moins facilement récupérable. Les individus oublient plus facilement que les ordinateurs.

(e) Nous ne pourrons jamais prendre le Borg en défaut.

Nos données nous ont échappé. Et ce sont des données informatiques. Ce ne sont pas des hiéroglyphes taillés dans la pierre, ou des parchemins à l’encre noire. Ni même des CD-ROM, ou des DVD-ROM — Read-Only Memories.

Elles peuvent être modifiées. Toujours.

L’enfer est dans les détails. Tout est enregistré. Un individu ordinaire ne peut pas faire effacer ce qu’il voudrait faire effacer. Mais certains le peuvent peut-être. Les administrateurs. Leurs robots.

Mes vieilles « pages personnelles » des années 1990s, je n’ai aucun moyen de les faire retirer, je n’ai pas non plus de moyen de les modifier … mais elles sont parfaitement modifiables, quelque part, sur une machine quelque part sur cette planète.

Un utilisateur ordinaire de Facebook a moins de prise qu’il ne le croit sur les photos, les statuts, les commentaires, et autres activités qu’il a offerts à Mark Zuckerberg pour commercialisation. Tout peut être effacé arbitrairement par les sbires de Zuckerberg, du jour au lendemain, sans préavis, mais ça reste peu probable, car ça se verrait. Et tout peut aussi être modifié arbitrairement, peut-être très subtilement, pour servir tel ou tel dessein, sans que cela ne se voit. Allez prouver que vos données Facebook ont été trafiquées ! Quels éléments, quelles preuves aurez-vous ?

L’Histoire est un art de la mémoire. Mais l’Histoire est écrite par les vainqueurs. Écrite et modifiée.

Le général Curtis LeMay, principal responsable des bombardements massifs de populations civiles pendant la 2ème Guerre Mondiale, reconnut un jour :

Killing Japanese didn’t bother me very much at that time. I suppose if I had lost the war, I would have been tried as a war criminal.

Quel était le travail de Winston Smith, le personnage principal du roman de George Orwell, ‘1984’ ? Réécrire l’Histoire, en fonction des impératifs politiques du moment. Son employeur s’appelle « le ministère de la Vérité » — Ministry of Truth. « We’ve always been at war with Eastasia. » doit devenir « We’ve always been at war with Eurasia. » dès le changement d’alliance.

He who controls the present, controls the past. He who controls the past, controls the future.

Les Borgs disposeraient certainement, le cas échéant, d’algorithmes bien plus efficients que le brave individu Winston Smith.

Dans un billet antérieur, pour donner une idée de la puissance du quasi-monopole de Google sur la vérité, j’ai proposé un petit exercice. La phrase suivante est de George Orwell, dans 1984, essayez de remplacer « the Party » par Google… essayez …

In the end the Party would announce that two and two made five, and you would have to believe it.

Concluons.

Les brillants mécanismes de redondance mis en oeuvre par Google et confrères ont pour but de ne jamais perdre de données. Si un support est détruit, les données seront récupérées d’un autre support. Si un data center brûle, comme la bibliothèque d’Alexandrie, ou la bibliothèque du « Nom de la Rose », les données seront récupérées d’un autre data center. C’est l’objectif. C’est la théorie. Est-ce que ça marchera vraiment ? N’y aura-t-il pas des bugs ? Est-ce que ça a été testé ? Comment tester un truc pareil ?

Plus subtilement, quand des données archivées sont perdues, en général, personne ne s’en aperçoit immédiatement. C’est quand on tente de récupérer des données — de leur support principal, ou d’un support en réserve –, qu’on s’aperçoit qu’il y a un problème.

Et encore plus subtilement, quand des données archivées sont altérées, ou manipulées, personne ne s’en aperçoit immédiatement.

Surtout lorsqu’il s’agit de données dont leur auteur n’avait même pas conscience de l’existence.

Surtout lorsqu’il s’agit de données qu’il n’y a aucun moyen de mettre en doute.

Du prodigieux roman « Le Nom de la Rose » de Umberto Eco, inspiré par la bibliothèque de Babel de Borges, on retient l’incendie final de la bibliothèque, et la destruction massive de documents. On retient moins facilement les histoires de manipulations et de dissimulations de documents. Et pourtant …

Une des dernières prophéties de Guy Debord, datée du 30 juin 1992, est :

(…) envisageant la disparition prochaine d’une société mondiale qui, comme on peut dire maintenant, s’effacera de la mémoire de l’ordinateur (…)

Il faut faire attention au sens du verbe « s’effacer ». Ce n’est pas forcément disparaître, ce peut être se mettre de coté, céder la place. Se métamorphoser.

Le Borg sait mieux que vous ce qui a été.

Bonne journée.

Publicités
Cet article, publié dans big data, est tagué , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , . Ajoutez ce permalien à vos favoris.

5 commentaires pour Big Data : Le Borg sait tout et même plus

  1. Lisande dit :

    Les Borgs sont repris dans l’univers de la série Doctor Who, monument de la culture populaire au Royaume-Uni. On parle de Cybermen et ils ont explicitement le discours selon lequel il faut transformer tout le monde en cybermen pour atteindre la perfection (en leur ôtant toute forme de sentiment). Le « Hive mind » reste implicite dans l’idée d’une similarité des cybermen, tous construits selon la même pensée (pas vraiment l’idée de partager le même océan d’informations à partir duquel réfléchir et mener son destin).

    • Merci pour ces remarques.
      Décidément, il faudrait que je m’intéresse à « Docteur Who », je connais bien un grand fan.
      Cependant, je ne comprends pas très bien la nuance que vous faites entre « construits selon la même pensée » et « partage le même océan d’informations à partir duquel réfléchir » ?

  2. Lisande dit :

    Je ne connais pas très bien la notion de « Hive mind » de Star Strek. En lisant vos citations sur cet univers, j’ai eu l’impression de retrouver une nuance que j’ai toujours faite.

    Cela me vient de la lecture de romans de jeunesse, qui appartiennent à la catégorie « littérature de l’imaginaire » (le terme « science-fiction » ou « fantaisy » est trop restreint en général dans l’univers jeunesse très fantaisiste), explorant le thème de la mémoire ancestrale, transmise de générations en générations aux individus d’une espèce. Celui qui me vient à l’esprit est la trilogie « À la croisée des mondes » de Philippe Pullman, qui a peut-être marché chez les adultes aussi (elle a en tout cas immédiatement été intégrée dans les manuels scolaires de Français du collège à une certaine époque).

    La richesse culturelle de la trilogie est équivalente à celle de la saga Harry Potter, supérieure même à mon sens car le manichéisme est beaucoup plus discret, mieux battu en brèche, et surtout la richesse de l’univers du livre beaucoup plus prolixe et propre à stimuler l’imagination (Univers britannique à la fois proche et lointain de notre culture, univers du XIXe siècle avec Oxford plutôt bien restitué, exploration du monde et notions de géographie [Qui sait que « Svalbard » existe réellement?], réflexion métaphysique sur le sens du monde, de la vie et de l’amour, etc).

    Dans cette trilogie (surtout le dernier tome il me semble, « Le miroir d’Ambre »), l’héroïne et le héros ainsi que l’un des personnages secondaires adjuvants entrent en contact avec un monde parallèle où vivent des créatures appelées les Mulefas (sortes d’éléphants intelligents). Les Mulefas sont chargées d’une partie de la réflexion métaphysique du roman d’apprentissage auprès des héros et des lecteurs.

    Ils sont dotés d’une mémoire ancestrale qui rend presque caduque toute éducation (instinct de survie, compréhension métaphysique du monde), sauf peut-être pour certains savoir-faire rattachés au progrès (produire de l’huile par exemple). Ces créatures restent pourtant des individus avec une volonté propre, des sentiments propres, capables de fonder une famille ou de débattre dans l’intérêt de la communauté-village.

    Je distingue cette mémoire ancestrale, non déterministe et réduite aux fondamentaux, du puits de connaissances collectif des Cybermen. Il peut être enrichi au fil des siècles (absolument aucune éducation n’est nécessaire une fois qu’on est devenu un Cyberman) mais il ne peut être utilisé par un Cyberman de manière individuelle.

    Ce puits de connaissance est un algorithme en soi, un programme de conduite pour chacun des Cybermen. Tous disent les mêmes phrases, les mêmes idées, réagissent de la même façon à la même situation. Ils vivent, si je me souviens bien, dans l’équivalent d’une ruche, qui prend en phase finale la forme d’un robot géant destiné à conquérir et transformer d’autres espèces

    Il y a d’autres « espèces » dans Doctor Who qui peuvent correspondre à cette inhumanité et cette incapacité à s’approprier la mémoire collective. Les plus connus sont les Daleks, ennemis jurés du docteur et des Seigneurs du temps. Ils se distinguent des Cybermen dans leur objectifs : les Cybermen veulent perfectionner les espèces (ils disent « upgrade ») tandis que les Daleks veulent nettoyer l’univers et tuer tout le monde (la ligne de dialogue « Exterminate ! » revient à toutes les sauces, ça en devient comique).

  3. Lisande dit :

    (Rectificatif d’une erreur de frappe: Philipp Pullman)

Tous les commentaires seront les bienvenus.

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s