OpenAI annonce commencer à déployer de nouvelles fonctionnalités vocales et image dans ChatGPT, son intelligence artificielle générative. Cela doit apporter une interface plus intuitive en permettant d’avoir une conversation vocale ou de montrer à ChatGPT de quoi on parle. ChatGPT vient ainsi concurrencer Siri d’Apple, Alexa d’Amazon et Google Assistant.
Prendre une photo lors d’un voyage et échanger avec ChatGPT
On peut prendre une photo lors d’un voyage et en discuter en direct afin de savoir ce qui est intéressant ou prendre une photo de son réfrigérateur pour savoir ce qu’il y a pour le dîner et poser des questions pour réaliser une recette étape par étape, suggère OpenAI. On peut aider son enfant à résoudre un exercice de maths en prenant une photo, en encerclant le problème et en demandant à ChatGPT de vous guider.
Les fonctions voix et images dans ChatGPT seront déployées progressivement pour des raisons de prudence
On pourra engager une conversation avec l’assistant ChatGPT, lui demander une histoire avant de s’endormir ou régler un débat à table, propose OpenAI. La nouvelle capacité vocale est alimentée par un nouveau modèle de synthèse vocale (texte vers la voix), capable de générer un son de type humain à partir de texte et de quelques secondes d’échantillon de parole. OpenAI a collaboré avec des comédiens professionnels pour créer chacune des voix proposées. Il utilise Whisper, son système de reconnaissance vocale Open source, pour transcrire les paroles de l’utilisateur en texte.
Use your voice to engage in a back-and-forth conversation with ChatGPT. Speak with it on the go, request a bedtime story, or settle a dinner table debate.
— OpenAI (@OpenAI) September 25, 2023
Sound on 🔊 pic.twitter.com/3tuWzX0wtS
Analyse des images par GPT-3.5 et GPT-4
Quant à la compréhension des images présentées à ChatGPT, elle est alimentée par GPT-3.5 et GPT-4 multimodaux. Ces modèles appliquent leurs capacités de raisonnement linguistique à divers types d’images, telles que des photographies, des captures d’écran et des documents contenant à la fois du texte et des images.
La synthèse vocale à partir d’un échantillon de voix sert à alimenter le chat vocal
OpenAI indique avoir également pris des mesures techniques pour limiter considérablement la capacité de ChatGPT à analyser et à faire des déclarations directes sur les personnes. OpenAI reconnaît que ChatGPT n’est pas toujours exact et que ces systèmes doivent respecter la vie privée des individus.