La Bibliothèque nationale de France annonce avoir atteint 2 Po (Peta octets) de données du web français archivées dans le cadre de sa mission de conservation patrimoniale depuis 2002. Ces contenus sont mis à disposition des chercheurs par la bibliothèque. En 2024, les collectes ciblées porteront sur les Jeux olympiques et les élections européennes.
Deux collectes d’urgence avant la fermeture des plateformes
En 2023, la BNF a collecté 6 milliards d’URL du web français en 2023. La BNF réalise une collecte large annuelle et des collectes ciblées qui ont servi à sauvegarder 4,4 milliards d’URL, auxquelles s’ajoutent deux collectes « d’urgence » de plateformes ayant fermé à l’été 2023, ce sont les skyblogs et les pages personnelles Orange, pour un volume de 1,9 milliard d’URL.
La BNF archive les sites mis en ligne à partir de 1996 et s’applique à toutes les publications du web français
La BNF réalise des « moissonnages » de l’internet français à l’aide de logiciels d’archivage automatique en ligne, une fois par an et aussi à l’occasion de collectes ciblées, en lien avec les collections thématiques et spécialisées de ses départements ou en lien avec l’actualité nationale et internationale comme la guerre en Ukraine, les élections ou les Jeux olympiques.
Impossible d’archiver Twitter devenu X depuis juin 2023
La BNF poursuit l’intégration de nouveaux contenus tels que les réseaux sociaux, YouTube, Instagram, et TikTok ou les podcasts. Le passage de Twitter à X et les nouvelles modalités d’accès associées à ce réseau social ne rendent plus possible sa collecte par les robots de la BNF depuis juin 2023.
L’archivage vise à assurer la meilleure représentativité possible du web français
L’archivage est réalisé selon les recommandations de la Cnil relatives à la protection des données personnelles. La collecte annuelle 2023 s’est déroulée du 18 octobre au 5 décembre et a porté sur 5 731 808 domaines de départ à raison de 2 200 URL collectées par domaine. 3 173 362 231 URL ont ainsi été sauvegardées.
Sauvegarde de Skyblogs, l’un des premiers réseaux sociaux
Deux collectes d’urgence en 2023 ont préservé les contenus de deux plateformes considérées comme majeures qui avaient annoncé leur fermeture en milieu d’année. Il s’agit de Skyblogs, l’un des premiers réseaux sociaux lancé en France en 2002. il mettait gratuitement à disposition de ses membres un espace numérique personnalisé. Cette collecte a duré 85 jours, du 28 août au 17 novembre, et a sauvegardé 12 607 289 blogs pour un total d’URL collectées s’élevant à 1 873 993 846 (dont 1 093 089 908 images et 729 475 996 pages web).
La collecte des pages personnelles Orange concerne l’espace qui permettait aux clients d’Orange de créer un ou plusieurs sites internet de manière assistée ou autonome. Cette collecte a eu lieu du 20 novembre au 7 décembre et a permis la sauvegarde de 298 188 sites et 26 094 982 URL.