Big Data et Big Brother : Démesure de la mesure

Billet faisant partie d’une série. Voir ici l’introduction.

Derrière l’idée de Big Data, il y a une nouvelle occurrence de Big Brother.

Big Brother is watching you.

Il sait tout.

Il voit tout.

Tout est mesuré, filmé, enregistré, sauvegardé dans des bases de données.

Pour paraphraser la fameuse tournure de phrase dont usa et abusa Bill Clinton en 1998 : It all depends on your definition of « tout ». Tout ce qui est mesuré.

Commençons par Internet.

En 1999, Scott McNealy, alors patron de Sun, avait dit :

You have zero privacy anyway. Get over it.

Se rappelle-t-on ce qu’était Sun à l’époque ? Une des sociétés leader de l’Internet 1.0, fournisseur obligé de la plupart des dot-coms, héraut du slogan « The Network is the Computer », j’en passe et des meilleures, et dire qu’il n’en reste presque rien. Sauf beaucoup de puissance de calcul déployée un peu partout, et quelques slogans.

A l’époque on parlait déjà largement de l’impossibilité de garantir la vie privée sur Internet, et de la possibilité de tout intercepter sur Internet. Je me rappelle avoir entendu l’idée que, non seulement tout était surveillé, mais tout était collecté et archivé dans d’immenses bases de données vers 2001. Lorsque Google a commencé à émerger de l’ombre de Yahoo!.

En 2010, Eric Schmidt, alors patron de Google, a dit :

I don’t believe society understands what happens when everything is available, knowable and recorded by everyone all the time.

Dans sa newsletter du 15 avril 2013, Bruce Schneier résume la situation :

The Internet is a surveillance state. Whether we admit it to ourselves or not, and whether we like it or not, we’re being tracked all the time. Google tracks us, both on its pages and on other pages it has access to. Facebook does the same; it even tracks non-Facebook users. Apple tracks us on our iPhones and iPads. One reporter used a tool called Collusion to track who was tracking him; 105 companies tracked his Internet use during one 36-hour period.

Attention, le sujet de ce billet n’est pas la vie privée, la surveillance, la sécurité informatique. Il est la mesure. Il est tout ce qui alimente Big Data.

Commençons donc par le Web.

Pour reprendre le titre d’une excellente série d’articles du Wall Street Journal, chaudement recommandée : What (do) They Know ?

Je crois qu’on se représente mal la quantité d’efforts, l’intensité technologique, la densité de cookies et autres mécanismes traceurs, style « balise pixel » ou « web bug« , massivement mis en oeuvre par les sites Web contemporains pour surveiller leurs visiteurs. J’ai essayé de lire le code source d’une page Facebook il y a quelques mois. C’est terrifiant. Plus d’un méga-octet, de mémoire. Je viens de jeter un oeil au code source de la page d’accueil de Google. Plus de cent kilo-octets. Qu’on ne me dise pas que ces monceaux de JavaScript savamment obfusqués sont là pour gérer la dense esthétique de cette page ! C’est là pour collecter des données.

La cerise sur le gâteau, c’est le mode « navigation privée » que tous les navigateurs Internet offrent maintenant. Cela me fait penser au Coca-Cola Light (Diet Coke en Amérique). Pendant des années, Coca-Cola a expliqué que, certes, boire des sodas sucrés c’est pas bien, c’est pour ça qu’ils vendent une version « light » sans sucre. Et puis plus récemment, ils ont osé sortir le Coca-Cola « Zero » (Coke Zero en Amérique), qui, lui, est vraiment sans sucre et sans calories, cette fois-ci on vous le promet, vraiment sans rien de mauvais, c’est promis juré. J’attends dans 20 ans le Coca-Cola « Epsilon » ou « Moins Un ». Et pour les navigateurs Web, on a donc maintenant un mode « Navigation Light », j’attends dans quelques années un mode « Navigation Zero ». Don’t be evil.

Je ne vois pas de contournement possible à tout cela. Utiliser le Web, c’est se promener tout nu. Zero privacy. Il faut assumer.

Parlons de la télévision.

Vous allumez un récepteur de télévision classique, vous regardez une chaîne hertzienne. Personne ne sait quelle chaîne vous regardez — sauf vos voisins si le son est trop fort. Le récepteur est passif.

Vous allumez un récepteur de télévision « connecté », ou juste un récepteur associé à un boîtier décodeur ADSL-TV. Ces appareils sont actifs, reliés à des serveurs. Les serveurs savent quelle chaîne vous regardez. Cela peut être mesuré, enregistré, exploité. Votre gentil opérateur télécom pourrait, à la fin du mois, vous sortir une gentille liste de tout ce que vous avez regardé à la télévision via l’ADSL.

Seule nuance : le serveur de télévision connectée ne sait pas si vous êtes effectivement devant votre écran, si quelqu’un — et qui précisément — regarde le canal, ou flux de données, sélectionné. Si vous voulez perturber les statistiques, laissez votre boîtier ADSL-TV sur le canal d’Arte toute la soirée, télévision éteinte. Le serveur enregistrera un spectateur de plus. Vous aurez juste consommé un peu d’électricité en vain. Avec une caméra type XBox, cette dernière nuance peut être contournée. La caméra peut vous filmer même quand l’écran est éteint. Comme les « télécrans » du monde de 1984 selon George Orwell. Et les caméras des smartphones c’est encore mieux, en attendant celles des gadgets à venir style Google Glasses …

Mesurer l’audience d’un programme télévisé est un art approximatif, basé sur l’utilisation d’un échantillon, ou panel, de téléspectateurs, et l’usage de statistiques pour extrapoler à l’échelle du pays. Ca marche, à quelques points de pourcentages près.

Mesurer l’audience d’un programme diffusé via Internet, c’est précis à l’unité près — sauf incident techniques. Et c’est potentiellement nominatif. En tout cas, la liste est collectée — savoir si elle est conservée ou exploitée est une autre histoire.

Est-ce que dans dix ans seront encore commercialisés des téléviseurs entièrement passifs, non connectés, se contentant de traduire en pixels un flux d’information entrant, sans produire de flux d’information sortant ?

Quelques mots sur le Kindle d’Amazon.

Quand vous lisez un livre sur un Kindle, si celui-ci a accès à un réseau WiFi, il informe périodiquement le serveur de la page où vous en êtes. Cela permet, si vous reprenez plus tard la lecture d’un autre Kindle ou appareil équipe de logiciel Kindle, de vous proposer de reprendre là où vous étiez resté. Cela rend aussi sérieusement paranoïaque sur les possibilités de surveiller ce que vous lisez.

Vous pouvez lire un document sur un Kindle, un document « personnel » que vous n’avez pas acheté à Amazon — un fichier PDF ou un fichier Microsoft Word, par exemple. Mais pas en copiant le document avec un câble USB, localement. Non, juste en l’envoyant à votre adresse électronique créée à cet effet sur kindle.com, afin qu’il soit stocké dans le nuage d’Amazon. Discrétion garantie. Paranoïa offerte.

Que restera-t-il des livres dans dix ans ?

Bref, Big Brother est arrivé.

Je me demande cependant, est-ce qu’on n’exagère pas ?

D’abord une anecdote personnelle. Dans les années 1990s, une commune d’île-de-France, Levallois-Perret, avait acquis une réputation d’être pionnière dans le domaine de la vidéo-surveillance. C’était une sorte de légende urbaine. On trouve encore des articles de cette période dans les archives. J’ai eu l’occasion de fréquenter cette commune au début des années 2000s. Je n’ai rien remarqué de particulier. Peut-être les caméras avaient-elles été démontées. Peut-être ne suis-je pas très observateur. Peut-être était-ce banalisé. Difficile à dire.

Ensuite, est-ce que le fait d’avoir des quantités invraisemblables d’équipements de mesure garantit des bonnes mesures ? Je n’en suis pas convaincu. J’ai déjà développé ce point, qui rejoint la quantophrénie de l’époque, l’obsession de tout mettre en chiffres, et des chiffres précis avec trois décimales après la virgule au moins, attention, on rigole pas, c’est sérieux ! Quand on sait comment parfois les chiffres sont obtenus, on est sceptique. Quand on essaie d’introduire des notions telles que marge d’erreur, angle mort, illusions d’optique, bruit, brouillard, flou, incomplétude … Oui, je suis sceptique.

C’est bien beau de déployer des milliers de caméras de surveillance, mais il faut penser à nettoyer les lentilles de temps en temps, sinon les images seront floues. C’est bien beau de déployer des sites Web truffés de mouchards divers, mais est-ce que ces mouchards sont bien étalonnés, et ne vont pas dire tout et n’importe quoi ? Faux-positifs, faux-négatifs, ce ne sont pas que des concepts — en d’autres temps, un faux-positif a failli précipiter une guerre thermonucléaire. Il faut se méfier des instruments de mesures.

Il ne faut pas non plus sous-estimer l’inventivité des gens. La littérature, les films, les séries télévisées, les romans policiers débordent de trouvailles sur comment se cacher des caméras de surveillance, comment déjouer une filature, comment tromper l’attention, comment semer des leurres, comment ne pas laisser de traces. Et cela, à toutes les époques. Les techniques évoluent, et à chaque itération on trouve des failles. C’est un peu comme la course aux armements, une course sans fin entre l’épée et le bouclier, les armes offensives et les armes défensives, à chaque itération des équilibres dynamiques réapparaissent tant bien que mal.

J’ai découvert il y a quelques mois le concept de « dark social ». Les médias dits « sociaux » sont conscients que toute l’information du monde n’est pas — pas encore — partagé par leurs merveilleux outils. Ce qui ne passe pas par eux est appelé « dark social », soit « social obscur », ou « social de l’ombre », en français — comme si Facebook et Twitter étaient la lumière, quelle drôle d’idée, tellement révélatrice. Ainsi est résumé un article d’Alexis Madrigal dans The Atlantic en octobre 2012 :

1. The sharing you see on sites like Facebook and Twitter is the tip of the ‘social’ iceberg. We are impressed by its scale because it’s easy to measure.

2. But most sharing is done via dark social means like email and IM that are difficult to measure.

3. According to new data on many media sites, 69% of social referrals came from dark social. 20% came from Facebook.

4. Facebook and Twitter do shift the paradigm from private sharing to public publishing. They structure, archive, and monetize your publications.

Le bout de phrase le plus intéressant, avec « monetize your publications » est « that are difficult to measure ».

J’ai déjà cité cette phrase d’Etienne Mougeotte, numéro 2 de TF1 en 1995 :

Ce qui n’est pas montré sur TF1 n’existe pas.

J’ai maintes fois entendu dans le monde professionnel des phrases telles que : « Ce qui n’est pas mesuré n’existe pas », « Ce qui n’est pas quantifié dans les contrats n’existe pas », « Ce qui n’impacte pas de manière mesurable le chiffre d’affaires ou les indicateurs financiers n’existe pas ». Quantophrénie à tous les étages.

Ce qui n’est pas mesuré par les instruments de mesure des GAFAs — ce que Big Brother ne voit pas — n’existe pas ?

Ce qui ne peut pas être mesuré, chiffré, numérisé, stocké dans des bases de données, n’existe pas ?

Ce qui reste dans l’ombre, ou dans les interstices, n’existe pas ?

Le roman 1984 de George Orwell, d’où vient le concept de Big Brother, décrit un Etat totalitaire exerçant une surveillance omniprésente de ses sujets, avec des caméras partout. Mais des zones d’ombre — pas forcément où on les attend –. Et des mouchards qui ne sont non plus forcément ceux qu’on attend. Encore un livre-que-je-relirai-si-j-avais-le-temps.

Le roman 1984, publié en 1948, parlait des Big Brother des années 1940s — notamment Staline.

L’image de Big Brother portée par le slogan Big Data nous parle de l’idéologie des années 2010s.

Bonne nuit.

Publicités
Cet article, publié dans big data, est tagué , , , , , , , , , , , , , , , , , , , , , , . Ajoutez ce permalien à vos favoris.

2 commentaires pour Big Data et Big Brother : Démesure de la mesure

  1. Lisande dit :

    Je croyais que même les télévisions ancienne génération (utilisant une antenne plutôt qu’un boîtier adsl) pouvaient informer les chaînes TV & Co sur les audiences (ou du moins l’existence de téléviseurs allumés sur une chaîne à une heure précise et pour une durée déterminée). A vous lire, la connaissance des sondages reposeraient uniquement sur des sondages? Ils ne peuvent pas mesurer qui et combien tirent sur la « bande passante » (le terme est probablement impropre)?

    • Non, à ma connaissance, les postes de télévision « classique » sont de simples récepteurs passifs, bien incapables d’envoyer le moindre signal à un site central. Par le spectre hertzien toutes les chaînes passent en même temps, le poste permet juste de choisir quel flux doit être affiché.

      Quand il n’y avait que de tels postes, la mesure d’audience nécessitait d’équiper un échantillon supposé représentatif de foyers, leur installer un boitier complémentaire qui, lui, permettait ensuite de récupérer en site central des informations sur l’activité. Ou juste de sonder par téléphone, chaque jour, un échantillon supposé représentatif de téléspectateurs : « Qu’avez-vous regardé hier soir ? » Ou d’autres techniques, oui, de sondage. Avec toutes les réserves que cela suppose. « Vous ne vous souvenez pas de ce que vous avez regardé ? »

      De nos jours, changer de chaîne sur une box ADSL nécessite que la dite box envoie un signal à son serveur central pour lui demander de modifier le flux vidéo qu’il lui envoie. Le serveur central peut donc enregistrer tous les changements de chaîne de tous les abonnés. Et dire, à tout instant, à l’unité près, combien de boxes reçoivent chaque flux — et lesquelles.

      Et bien sûr, tout cela peut être archivé. Vous ne vous souvenez pas ce que vous avez regardé il y a trois ans, le 11 septembre 2011 à 21h21 précises ? Vous ne vous en souvenez pas ? Si c’était via l’ADSL, votre opérateur, lui, il le sait.

Tous les commentaires seront les bienvenus.

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s