février 2014 – Le Guide des Egarés

Du Tag au like, les images sous licence CC

On me l’a demandé à plusieurs reprises et c’est une envie partagée. Je vais mettre dorénavant toutes les images, schémas ou infographies que je crée sous une licence Creative Commons de façon à faciliter leur réutilisation en dehors de leur contexte et production d’origine.
Du coup, je commence cette initiative en plaçant les images utilisées dans l’ouvrage Du Tag au Like sous licence CC by. L’ouvrage reste sous le régime du droit d’auteur classique pour le moment. La licence est souple, vous avez le droit d’en faire ce que vous voulez, il suffit d’en citer l’origine. Je vais les mettre également sous mon compte Pinterest. Il serait sans doute intéressant de le mettre également sous les wikipedia commons.
Tout le dossier est disponible ici sur gdrive.

Les différentes formes de l'indexation — Les différentes formes de l’indexation

Le web comme espace de partage et de diffusion des données, des nouvelles et de la documentation

Il est toujours bon de se replonger dans l’histoire, et plus particulièrement dans l’histoire du web. Et pour cela rien de mieux qu’un document qui annonce justement la création du web. Le document est signé Tim Berners Lee, mais le « we » du début démontre un travail collectif avec Robert Cailliau. Et le texte apparaît clairement comme une œuvre collective. Ce qui est intéressant dans ce texte, c’est le but du web qui est dessiné : partager des données, de la documentation et des nouvelles dans un premier temps pour les physiciens. Si bien que l’expression de news ne renvoie pas nécessairement à un aspect journalistique, mais plutôt à des nouvelles qui concerne le public scientifique, notamment l’annonce de colloque ou de publications. Mais ce qui est étonnant, c’est de trouver en première position, l’expression de données et de d’emblée. Cela démontre bien l’envie de démontrer qu’il s’agit de partager des résultats de recherche avant tout.

Le document qui annonce la création du web

Ce qui nous intéresse le plus au final, c’est le fait qu’on y mentionne clairement qu’il s’agit de partager de la documentation. Le mot figure tel quel en anglais. On sait que l’expression est surtout francophone, et l’influence de Cailliau qui est belge est évidente. Mais il faut probablement considérer que l’expression est néanmoins courante chez les chercheurs et qu’elle correspond à une réalité en 1990. Ce n’est pas anodin de voir que le mot documentation figure dans ce triptyque. On peut y voir comme une inscription initiale dans le web.

Le passage au web commercial n’a fait qu’ accroitre l’aspect news dans ses formes les plus simples voire simplistes désormais au détriment des formes documentaires plus élaborées. En ce qui concerne les documents, désormais ils ont tendance à se constituer non pas a priori, mais a posteriori par un amalgame de données qui constituent alors des documents en réponse à des requêtes. La logique documentaire s’est déplacée sur l’échelon individuel au niveau des profils personnels. Le web n’appartient plus depuis longtemps à ses créateurs, on peut déplorer qu’ils appartiennent de plus en plus à des firmes privées.

Le Html est alors dans ses formes les plus primaires dans une évolution issue du SGML, dédié historiquement à la documentation technique. Voilà de quoi rappeler que la documentation est dans le web depuis le début et sans doute un peu avant.

Retour vers le futur : le projet MEMEX

La nouvelle a commencé à circuler. La fameuse Darpa vient de lancer un appel d’offres pour un projet nommé Memex. Abondance s’en fait l’écho et rappelle l’origine du MEMEX, le memory extender de Vannevar Bush, projet théorisé dans l’article « as we may think » de 1945. Un document présente le cadre du projet et il est intéressant à plus d’un titre. Si à première vue, Abondance considère que l’objet est d’améliorer le référencement des documents et données présents dans le web profond, notamment pour des questions d’intelligence économique et de repérage de trafics illégaux, la question est en fait peut-être davantage complexe.

En premier lieu, l’interrogation classique consiste à se demander si les résultats ne vont surtout pas alimenter des logiques d’indexation de personnes au bénéficie des institutions de surveillance telle la NSA. L’hypothèse est possible tant les industries de surveillance et de captation de l’attention semblent avoir pris le dessus sur ces aspects, si bien que les institutions s’en trouvent désormais dépendantes, au point de devoir demander des autorisations pour accéder aux données privées. On sait que la tentation est de passer outre les autorisations parfois.

Mais il faut peut-être aller plus loin.

Les références à Bush ne sont pas anodines, d’autant que le savant américain n’est pas le seul à être cité comme référence dans le document. On retrouve aussi Douglas Englebart et sa démonstration emblématique de 1968. Un parfum de nostalgie semble régner.

Si on lit la page 5, on comprend que le but est de dépasser la recherche dominante, qui est celle de la logique de la correspondance d’une ressource avec une requête. Si on suit le cheminement d’as we may think, c’est plutôt de déduire la requête à partir d’un cheminement.

Pour ma part, je ne suis pas certain que le projet porte justement sur ce qu’on nomme le web invisible, car il est bien mentionner qu’il s’agit du web public. Il reste à savoir quelles sont désormais les frontières du web public, tant les dispositifs du cloud tendent à publiciser ce qui était du domaine privé et de nos disques durs.

Les méthodes d’indexation doivent être nouvelles selon l’appel d’offres. Ce qui intéresse c’est tout ce qui permet de dégager du sens, mais dans des logiques qui dépassent celles du TAL. On est dans des logiques de métadonnées augmentées pour dégager du sens dans les mises en relation entre différents types de données ou de facettes. On a quand le même le sentiment très fort qu’il s’agit surtout d’examiner les données et documents issus des espaces de cloud…

Les mécanismes de recrutement et de fonctionnement sont également intéressants car on retrouve toutes les recettes qui ont fait le succès de l’Arpanet… avec des logiques de collaborations relativement souples. A travers ce projet, on pressent qu’il s’agit de refonder l’Ipto de la grande époque. Reste à trouver les nouveaux Licklider, les Bob Taylor des futures générations. Sur ces aspects historiques, on ira voir du côté de la thèse d’Alexandre Serres et le support sur l’histoire de l’Internet.

Il reste à se demander qui va répondre à l’appel d’offres. C’est le grand mystère car les territoires de l’indexation semblent parfois sans limite. Et quid de Google dans l’affaire ?

Mes dernières parutions en SF faisaient justement le point sur les questions de l’indexation et la désindexée faisait déjà référence à la Darpa et au professeur Vannevar. Le prochain roman mettra en scène justement un géant du web nommé Argos, la Darpa rachetée justement par Argos et des questions stratégiques au niveau du cloud. A lire très prochainement…

Reste à savoir désormais qui mène la danse entre les institutions de l’indexation et de la surveillance et des industries des mêmes domaines. Une chose est certain, les leaders sont américains…