Home

Home
Cititi-ne pe FacebookUrmati-ne pe TwitterFeed RSS gratuit

Spacer

Zona Membri

Memoria Internetului - pe www.archive.org


Bogdan Ghiu

Miercuri, 14/11/2007 - 19:11
TextText mai micText mai mare
Adauga cu AddThis

La mémoire du Web est sur Archive.org, qui répertorie quelque 65 millions de sites
LE MONDE | 13.11.07 | 16h23 • Mis à jour le 13.11.07 | 16h23

A l'instar des autres moteurs de recherche, Google a cessé de comptabiliser le nombre de pages Web. Archive.org, de son côté, en a archivé près de 86 milliards, correspondant à 65 millions de sites Web, en 37 langues. Sa base de données pèse près de 2 pétaoctets, soit 2 millions de gigaoctets, l'équivalent de deux cents fois le contenu de la Bibliothèque du Congrès américain.

A l'origine du projet, Brewster Kahle, un spécialiste de l'intelligence artificielle issu du célèbre Massachusetts Institute of Technology (MIT) qui, en 1989, avait inventé WAIS, l'ancêtre des systèmes de publication et des moteurs de recherche Internet.

En 1992, Kahle publiait un code de bonne conduite à l'intention des autres bibliothécaires numériques : l'informatique laisse des traces, il ne s'agit pas de surveiller les usagers, mais de leur donner accès au savoir.

Encore fallait-il pouvoir y accéder : en 1996, constatant que la durée de vie moyenne d'une page Web était de cent jours, Brewster Kahle crée une fondation pour archiver le Web à l'intention des futures générations.

Sa "machine à remonter le temps" permet ainsi, non seulement de revisiter les sites Web tels qu'ils se présentaient il y a un, cinq ou dix ans, mais aussi de retrouver la trace de ces contenus qui, depuis, ont disparu, avec une prédilection pour certains événements marquants, tels que les attentats terroristes du 11 septembre 2001, l'ouragan Katrina, qui a ravagé La Nouvelle-Orléans en 2005, ou encore le tsunami de décembre 2004, qui font l'objet de "collections".

Au-delà du Web, la richesse d'Archive.org se mesure aussi à l'aune de la diversité de sa bibliothèque multimédia, forte de près de 45 000 concerts et de plus de 100 000 films, 200 000 enregistrements audio et 290 000 livres et textes... Car Archive.org s'est également donné pour mission de mettre à disposition tous les contenus textes, audio, vidéo disponibles en format numérique. A la différence des médiathèques traditionnelles, tout ou presque y est téléchargeable gratuitement. Alimenté par des collectionneurs, des fondations, des particuliers, les rayons d'Archive.org n'ont rien à voir avec ceux d'une médiathèque traditionnelle.

Au rayon musique, les 2 862 enregistrements des Grateful Dead, le groupe psychédélique américain, font un tabac, tout comme la compilation de messages secrets interceptés par des radio- amateurs, ou encore celle de chansons détournées pour dénoncer les méfaits du copyright et de la propriété intellectuelle.

Au rayon vidéo, la retransmission de la partie de Final Fantasy II, gagnée par un certain Kevin Juang en trois heures cinquante-six, tient le haut du pavé, avec plus d'un million de téléchargements, tout comme, au rayon lettres, le recueil de casse-tête mathématiques d'Henry Ernest Dudeney.

Prototype emblématique des archives ouvertes, Archive.org cherche moins à rivaliser avec les services de téléchargement audio ou vidéo qu'à ouvrir la voie aux futures médiathèques numériques.

En octobre, Google annonçait avoir scanné plus d'un million de livres de 27 bibliothèques, et l'Open Content Alliance, un consortium de 80 bibliothèques réunies autour d'Archive.org, plus de 100 000 ouvrages. Il leur en coûte 10 cents la page, ou 30 dollars par livre. Le prix d'une certaine liberté : Google, tout comme Microsoft, paie en effet les bibliothèques afin d'obtenir le droit de numériser leurs ouvrages, mais interdit en contrepartie aux autres moteurs de recherche commerciaux de les indexer.

Jean-Marc Manach


Spacer Spacer