Peu à peu l’univers de la télévision se marie à la data afin d’améliorer les performances du ciblage publicitaire. En témoigne le projet mené par Médiamétrie et TF1 afin de mieux cibler les audiences sur les programmes TV vus en « replay » sur le portail MyTF1, via les box des opérateurs télécoms.
La Data Science mobilisée pour prédire les profils socio démo
La Data Science, le Machine Learning et le Deep Learning sont mobilisés afin d’améliorer le ciblage publicitaire sur les utilisateurs de ce nouveau service. Jusqu’alors, les annonceurs ne pouvaient acheter que des packs affinitaires en IPTV, c’est-à-dire d’insérer leurs publicités autour de programmes en affinité éditoriale avec leur cible.
Une audience au profil socio démo qualifié peut être valorisée 50% plus cher
« La première demande des agences médias ou des annonceurs, est de diffuser des publicités auprès du bon socio démo des personnes » dit-il. « Par exemple, il s’agit de diffuser une campagne auprès de femmes de 25 à 49 ans, ou d’hommes de 15 à 24 ans » illustre-t-il. La difficulté à résoudre était le fait que les 2 tiers de l’audience de MyTF1 sont des inconnus car ils accèdent aux programmes « replay » via leur téléviseur connecté à la box de leur opérateur télécoms (ce que l’on appelle l’IPTV). Cela concerne plusieurs millions de box.
27 millions d’utilisateurs en mode OTT
Le dernier tiers en revanche peut être qualifié car il se connecte depuis un PC ou un mobile (c’est le mode OTT ou Over The Top, c’est-à-dire un programme TV diffusé sur internet). Il faut alors s’authentifier par un login/mot de passe, et remplir une rapide description, c’est-à-dire son sexe et son âge. « C’est un énorme succès, nous avons 27 millions de connectés, 27 millions de personnes dont nous connaissons le sexe et l’âge, et donc je peux diffuser le bon message à la bonne personne. C’est commercialement très intéressant car les tarifs sont 50% plus chers » confirme Paul Ripart.
L’enjeu est de prédire le profil socio démo le plus susceptible d’être en train de regarder la TV
Pour ces personnes, Médiamétrie dispose des données d’audience individuelles et des moments de visualisation des programmes en « replay » – pour ceux qui utilisent ce service -, des programmes visualisés, du genre de programmes qui les intéressent, etc. De plus, TF1 a communiqué les données de consommation de ses programmes. Il s’agit des données d’usage des foyers à qualifier avec 1 an d’historique des usages sur les box en opt-in afin de respecter le RGPD. Cela permet de connaître pour ces box, la consommation en IPTV de MyTF1 comprenant la date, l’heure, la durée de complétion du programme visionné et les données de contexte, c’est à dire le référentiel des programmes, les genres et les sous-genres de la période.
Une performance de 60% à 80% des impressions sur la bonne cible
Un modèle algorithmique a ainsi été développé. Cela permet de prédire quel est le profil du spectateur qui est présent sur quelle box, un homme de 25-49 ans ou une femme responsable des achats, FRDA (Femme responsable des achats), par exemple. Le modèle algorithmique créé par Médiamétrie a été amélioré conjointement avec TF1 jusqu’à obtenir une performance qui fasse que 60% à 80% des impressions publicitaires aient lieu sur la cible recherchée par l’annonceur.
Les performances des campagnes sont vérifiées avec l’outil Digital Ad Ratings de Nielsen
Le projet a mobilisé 2 Data scientists de Médiamétrie durant 6 mois début 2019. Le premier modèle opérationnel a été livré à TF1 en septembre 2019. Les développements ont été réalisés dans le Cloud d’Amazon, en langage Python et en utilisant PySpark, l’interface vers Spark, une plateforme de calcul distribué. Les Data scientists ont constitué plusieurs milliers de variables explicatives des usages du « replay ». Ce sont des variables sémantiques, temporelles ou issues de la théorie des graphes.
Puis, ils ont créé un système d’IA (Machine Learning) pour sélectionner le meilleur modèle parmi des combinaisons d’algorithmes. La sélection s’opère au vu des résultats obtenus sur des bases de tests, indépendantes des bases d’apprentissage. Chaque jour, 6,7 millions de Français regardent des programmes TV en « replay » pour près d’une heure et quart chacun (Source Médiamat et Global Vidéo, septembre 2020).