ChatGPT n’est pas prêt pour répondre aux clients de la SNCF

ChatGPT a des "hallucinations" qui empêchent sa mise en service

ChatGPT n’est pas prêt pour renseigner directement les voyageurs de la SNCF lorsqu’ils veulent changer leur billet de train, accéder à leur titre de transport ou aux horaires de trains. C’est ce que l’on retient de l’intervention des équipes internes de la SNCF qui ont testé cette intelligence artificielle générative. La SNCF a fait un point d’étape à l’occasion du salon Viva Tech 2023.

Des réponses totalement erronées ayant l’apparence d’être bonnes

Les tests à la SNCF ont montré que ChatGPT peut répondre n’importe quoi avec l’apparence de la plus solide crédibilité, ce que les spécialistes appellent les « hallucinations » des LLM (Large Language Models). Pour rappel, ChatGPT parle par exemple avec certitude de l’existence d’œufs de vache comme si cela était une réalité. Avec ChatGPT, la réponse dans certains cas a l’air bonne alors qu’elle est complètement erronée.

Les tests de la SNCF ont fait apparaître les « hallucinations » de ChatGPT lors de réponses plausibles mais fausses

C’est ce qu’illustre Charlotte Percher-Brard, responsable Data Science chez SNCF Connect&Tech. Les tests menés par la SNCF ont par exemple fait apparaître ces « hallucinations » dans le cas de réponses plausibles de ChatGPT sur les conditions de remboursement d’un billet Ouigo ou sur les horaires de trains entre Paris et Nantes. Charlotte Percher-Brard pointe que les conditions d’annulation d’un billet Ouigo, parfaitement rédigées et de lecture facile par ChatGPT, étaient en fait celles d’un autre transporteur que Ouigo.

Quant aux horaires de trains entre Paris et Nantes, la réponse de ChatGPT en apparence très carrée, fait référence à des trains intercité roulant la nuit, alors que ce type de trains n’existe pas entre les deux villes et encore moins la nuit. « Pour un utilisateur non expert, il est très difficile de réussir à déceler ces erreurs car les réponses apportées sont dans le domaine du possible » constate-t-elle.

Charlotte Percher-Brard, responsable Data Science chez SNCF Connect&Tech, 15 juin


La version pré-entraînée de ChatGPT n’est pas satisfaisante

La période est toujours aux tests. « ChatGPT, c’est puissant. Pour l’instant, on teste. Dans sa version pré-packagée, pré-entraînée sur l’entièreté web, ce n’est pas une réponse satisfaisante » résume-t-on côté SNCF. Pour l’heure, les équipes de la SNCF vont poursuivre les tests avec d’autres algorithmes, sur d’autres solutions de LLM  à la fois en Open Source, comme Bloom, ou des solutions telles que celle de Google. La SNCF souhaite entraîner des modèles sur ses propres bases de données, probablement avec celui de Google, cela n’ayant pas été fait avec ChatGPT.

« Nous avons testé Bloom, mais pour l’instant les performances ne sont pas satisfaisantes »

« Nous avons testé Bloom, mais pour l’instant les performances ne sont pas satisfaisantes » indique-t-on à la SNCF. Prendre une décision apparaît compliqué en matière de solutions. Elles sont nombreuses et évoluent très vite. « Pour l’instant nous sommes encore sur une phase de test, nous benchmarkons une grande partie des modèles qui sont disponibles, pour voir aussi quel écart il nous reste à combler » explique-t-on à la SNCF. Les équipes sont en phase de veille et de POC (Proof of concept). Cette phase a minima devrait durer encore 3 mois avant de prendre une première décision.

Une question se pose notamment de la mesure de la justesse des réponses fournies par l’IA générative. « Avec l’IA générative, il est assez compliqué pour nous de mesurer le succès [NDLR : c’est-à-dire si la réponse est correcte]. Au vu des exemples que nous vous avons présentés, on ne se voit pas mettre cela en frontal avec nos clients parce que la réponse a l’air bonne alors qu’elle est complètement erronée » réagit-on chez SNCF.

Difficile de mesurer le nombre de réponses justes

Les fournisseurs n’ont pas non plus de réponse. « L’IA génère le texte de la réponse. Il est difficile pour nous d’avoir des données de vérification de la justesse, à part le ‘test and learn’. On se pose ces questions. Nous interrogeons les différents partenaires et les Gafa qui proposent des modèles de LLM. Pour l’instant nous n’avons pas de réponse claire de leur part non plus sur comment on se rassure et on suit un KPI de justesse de réponse » poursuit-on à la SNCF.  « Beaucoup de choses devraient s’améliorer dans le temps et beaucoup d’acteurs arrivent sur le marché, qui vont probablement faire aussi bien voire mieux » pense-t-on à la SNCF.

« On peut envisager de mettre l’IA générative plutôt devant les conseillers clientèle dans un premier temps« 

La question se pose sur comment suivre un KPI de justesse des réponses de l’IA générative, et de savoir si elle s’est trompée ou pas. C’est qu’avec l’IA générative, il n’y a pas de phrase type pour la réponse. L’IA génère un texte probabiliste par rapport à ce qu’elle a appris. L’IA peut régénérer la phrase d’une manière légèrement différente selon la façon dont la question est posée. « Comme on a du mal à mesurer, une des techniques que l’on peut envisager est de ne pas la mettre en frontal avec les clients dans un premier temps, mais de la mettre plutôt devant les conseillers clientèle » explique-t-on à la SNCF.


Le modèle d’IA proposerait des réponses aux conseillers. Les conseillers pourraient faire un feed-back. Ils ont la connaissance et pourraient dire si le modèle d’IA répond de manière juste ou fausse. Cela permettrait de mesurer son efficacité, sa justesse et de savoir quand la SNCF est prête à le mettre en face d’un client.   Le projet est traité par Charlotte Percher-Brard, responsable Data Science chez SNCF Connect&Tech et Ludovic Grauser, Head of Product chez SNCF Connect&Tech.

Ludovic Grauser, Head of Product chez SNCF Connect&Tech, 15 juin


Répondre plus rapidement et plus humainement aux clients

Lors du lancement des tests de ChatGPT, les promesses perçues par la SNCF étaient de pouvoir répondre plus rapidement aux clients qu’un conseiller clientèle, que les interactions seraient plus humaines comme si l’on parlait à quelqu’un avec une réponse très adaptée à la question posée, une amélioration par rapport aux chatbots connus jusqu’à présent, et que les réponses seraient plus pertinentes et exhaustives pour répondre à des questions plus larges. Côté équipes internes à la SNCF, la promesse était de réduire la maintenance de la base de connaissances employée pour répondre aux clients car les horaires de trains et les tarifs changent. ChatGPT pourraient aider les conseillers clientèle à traiter plus de clients.

Le système testé a associé ChatGPT et Tock (The Open Conversation Kit), une solution Open source développée par la SNCF

Le système testé a associé ChatGPT et Tock (The Open Conversation Kit), une solution Open source développée par la SNCF depuis 2016. Tock est une plateforme qui permet de générer des chatbots sur de multiples canaux dont les réseaux sociaux. Tock est la génération de solutions datant d’avant les LLM tels que ChatGPT. On apprend au bot à comprendre les questions, on le supervise et on le corrige. Lors du test, lorsque Tock ne comprend pas la question, il passe la main à ChatGPT au lieu de solliciter la base de connaissances.

Par ailleurs, la SNCF considère qu’il faut prendre en compte les risques de cyber sécurité sur ses systèmes d’information et la confidentialité des données. Enfin, la compagnie retient que ces modèles de langages sont très consommateurs de ressources informatiques.



Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *