Bilbiothèque

Derrière les tours, la BnF stocke 45 milliards de pages web !

Les données sont conservées dans des baies de stockage. - Photo © David Paul Carr BnF

Derrière les tours, la BnF stocke 45 milliards de pages web !

Chaque seconde, les robots de la Bibliothèque nationale de France scannent le web (français) pour en garder une trace, dans le cadre du dépôt légal. Sélection, outils, consultation... Voyage au cœur de cette entreprise titanesque pilotée par des archivistes geek.

J’achète l’article 1.5 €

Par Fanny Guyomard,
Créé le 07.01.2022 à 09h30

Ils ne sont que onze personnes, à occuper un petit bout de couloir dans l'une des tours de la BnF Mitterrand, ces quatre livres de verre surplombant la Seine. Sept personnes, pour gérer 45 milliards de pages web produites depuis 1996. En 2006, la loi française inscrivait le web dans le dépôt légal, au même titre que les livres, près de cinq siècles plus tôt. Sites internet des médias (même payants), PDF de toute la presse quotidienne régionale, annonce du Bon Coin, images (nombreuses) de chatons... « Tout ce qui a fait l'objet d'une publication est digne d'entrer dans nos collections », sourit l'énergique Vladimir Tybin, le chef du Dépôt légal numérique.

L'INA collecte le web lié à la radio et à la télévision, (sites internet et comptes des réseaux sociaux de ces médias) ; la BnF s'occupe du reste. Enfin presque : seuls les contenus publics et issus des sites en .fr et ses extensions (comme .re, pour la Réunion) voire .com, .org ou .net, lorsque le contenu est hébergé ou produit par une personne domiciliée en France sont recensés... quand la BnF arrive à tous les identifier - « Environ 20 % des sites échappent à notre périmètre », estime Vladimir Tybin.

Le web archivé est consultable dans un espace dédié, le DataLab.- Photo © BNF

Ce qui représente tout de même 5,5 millions de sites moissonnés en 2021. Cette « moissonneuse », plus officiellement nommée Heritrix, est un robot développé par Internet Archive, qui l'a partagé en open source. Chaque année, ses répliques aspirent pendant une trentaine de jours les sites inscrits à leur périmètre, à hauteur de 2 000 pages par site... Un nombre choisi pour atteindre 114 téraoctets (To), la limite de stockage allouée à la collecte large. 114 000 Go. Vertigineux, mais pas extravagant. « L'espace de stockage reste limité. On a moins un objectif d'exhaustivité que de représentativité », glisse l'archiviste.

Politique documentaire

Restent 81 To réservés aux collectes ciblées. Les sélectionneurs sont une centaine d'« humains » à la BnF et une trentaine dans les 26 bibliothèques gérant le dépôt légal en région. Sur l'outil développé par la BnF, qui va le partager au consortium international de la préservation d'Internet, ils distinguent des hashtags (#JoséphineBaker), des actualités éphémères (5e vague du Covid), des thématiques (l'environnement) ou encore des comptes publics sur les réseaux sociaux sur lesquels le robot va spécialement se concentrer. Avec des lacunes, notamment sur Instagram et Facebook, où il est souvent confronté à des barrières d'authentification. Le bibliothécaire détermine la fréquence de scannage (une, deux, quatre fois par jour), le nombre de pages recueillies pour chaque site (moins de 50 000, plus de 150 000 URL)... Des chercheurs peuvent réclamer des collectes spécifiques. « Et toute entreprise peut nous demander de garder une image de leur site. Le service sera payant, à terme. »
 

La BnF site François-Mitterrand.- Photo PHILIPPE GUIGNARD


Ce web est doublement archivé. D'un côté, il part vers des baies de stockage pour être rejoué grâce à l'application Archives de l'internet, où ses contenus soumis à des droits d'auteur sont uniquement consultables dans les différents lieux de la BnF et dans les 26 bibliothèques associées - la dernière à proposer le service est celle des Champs Libres, à Rennes, depuis le 18 novembre. Et depuis le 16 octobre, les chercheurs qui se rendent à la BnF du XIIe arrondissement peuvent s'adonner à la fouille de données dans l'espace dédié, le DataLab. « Onze équipes de recherche travaillent actuellement sur nos collections, sur le sujet de la représentation du corps sur le web ou sur la question de la viralité », donne comme exemple le responsable du dépôt légal.

Le web archivé est, de l'autre côté, stocké sur des bornes dédiées à la préservation. Les boîtiers sont conservés à la BnF François-Mitterrand et dans l'un des entrepôts français, renseigne discrètement l'institution, qui réfléchit à un troisième lieu, en cas de pépin dans les deux autres. Certaines pages web sont déjà des vestiges. « Quand on a appris que les blogs de Libé et du Monde n'allaient plus être disponibles, on les a contactés pour tout collecter. Aujourd'hui, on ne les trouve plus sur le web. On est là pour garder une trace de ce qui a été publié à un moment donné », résume le spécialiste du numérique. Pour faire durer dans le temps ces textes, sons et images sauvegardés sous forme de code, ils sont basculés, comme les autres dépôts numériques, sur des bandes magnétiques, moins périssables que le langage informatique. Un travail titanesque. « Excitant, stimulant, s'enthousiasme Vladimir Tybin. C'est un métier où l'on se réinvente sans cesse pour trouver des outils qui s'adaptent rapidement aux technologies. » L'avenir : stocker le métaverse ? « Quels que soient les supports, la BnF sera toujours là ! »

Les dernières
actualités