L’institut national de l’audio-visuel (INA) lance data.ina.fr une nouvelle plateforme destinée à décrypter la TV et la radio grâce à l’intelligence artificielle et en faisant appel à ses propres données. L’INA donne comme exemple, une étudiante en économie qui souhaite connaitre la couverture médiatique du terme “shrinkflation” dans les matinales radio et qui pourra trouver des éléments de réponse sur une sélection de chaînes qu’elle aura identifiées.
Nous avons testé certains écrans d’interrogation des données fournis pré-paramétrés par l’INA comme les personnalités le plus mentionnées sur les chaînes TV. La plateforme répond dans certains cas mais une erreur de chargement des données apparaît lorsque l’on essaie de saisir des requêtes plus personnalisées.
Des capsules directement en provenance de notre passé grâce à l’INA
Jusqu’à présent, l’INA avait marqué les esprits notamment via ses publications sur Youtube d’extraits d’émissions TV qui permettent de se pencher sur notre passé tel qu’il a été capté par l’audio-visuel national. De quoi découvrir l’opinion des Français enregistrée au fil des ans, et constater la transformation de notre société durant ces 50 dernières années.
La nouvelle plateforme est présentée comme révolutionnant la manière de comprendre les médias audiovisuels français grâce à l’intelligence artificielle. Celle-ci est mobilisée afin de transcrire en texte les contenus audio-visuels au vu des informations communiquées par l’INA. Les données du dépôt légal de l’audiovisuel sont utilisables par tous. Le site « data.ina.fr » permet d’exploiter les données de référence de la télévision et de la radio françaises grâce à des outils d’IA, dont un algorithme développé par les équipes de recherche de l’INA.
L’INA fait apparaître l’usage de différents dispositifs techniques de transcription et d’analyse des contenus audio-visuels. On relève la présence de Whisper un outil de transcription « speech to text » d’OpenAI placé en Open Source et de Textrazor, une API (interface informatique) de NLP (Natural Language Processing) destinée à extraire les signifiants d’un texte, tels que « qui, quoi, pourquoi et comment ».
Data visualisation des tendances statistiques
La plateforme propose de la datavisualisation afin de mettre en lumière des tendances statistiques majeures des médias et de la société avec une approche qui vise à être transparente et pédagogique. Le site est alimenté par des flux de 20 chaînes de télévision et de radio. Il permet d’explorer de manière personnalisée les grandes tendances de présence médiatique.
Le site est destiné au grand public, aux journalistes, aux experts et aux chercheurs. data.ina.fr propose d’accéder à des informations précieuses à travers des cartes et des graphiques interactifs. Le lancement s’effectue avec 5,5 ans d’historique du 1er janvier 2019 au 30 juin 2024. Il y aura un événement éditorial deux fois par an. A chaque mise à jour, le site bénéficiera des données les plus récentes d’une plus grande profondeur historique.
Une centaine de spécialistes ont contribué au site
Pour cette plateforme, 27 millions d’heures de documents TV et radio au 31/12/23 sont stockées et archivées dont une partie a déjà fait l’objet de traitements par des outils IA. L’INA a créé une direction « Data et tech » en 2021. Une dizaine de métiers sont sollicités pour cette initiative, des Data analystes, des Data scientists, des Data engineers, des architectes d’infrastructures, etc. soit une centaine de personnes ayant contribué au site.
La direction Data et technologies à l’INA : un état dans l’état selon la Cour des Comptes ➔ lire l’article