ChatGPT peut désormais voir, entendre et parler, annonce OpenAI

OpenAI annonce commencer à déployer de nouvelles fonctionnalités vocales et image dans ChatGPT, son intelligence artificielle générative. Cela doit apporter une interface plus intuitive en permettant d’avoir une conversation vocale ou de montrer à ChatGPT de quoi on parle. ChatGPT vient ainsi concurrencer Siri d’Apple, Alexa d’Amazon et Google Assistant.

Prendre une photo lors d’un voyage et échanger avec ChatGPT

On peut prendre une photo lors d’un voyage et en discuter en direct afin de savoir ce qui est intéressant ou prendre une photo de son réfrigérateur pour savoir ce qu’il y a pour le dîner et poser des questions pour réaliser une recette étape par étape, suggère OpenAI. On peut aider son enfant à résoudre un exercice de maths en prenant une photo, en encerclant le problème et en demandant à ChatGPT de vous guider.

Les fonctions voix et images dans ChatGPT seront déployées progressivement pour des raisons de prudence

Les fonctions voix et images dans ChatGPT seront déployées progressivement pour des raisons de prudence auprès des utilisateurs Plus et Enterprise au cours des deux prochaines semaines. La voix arrive sur iOS et Android (opt-in dans les paramètres) et les images seront disponibles sur toutes les plateformes.

On pourra engager une conversation avec l’assistant ChatGPT, lui demander une histoire avant de s’endormir ou régler un débat à table, propose OpenAI. La nouvelle capacité vocale est alimentée par un nouveau modèle de synthèse vocale (texte vers la voix), capable de générer un son de type humain à partir de texte et de quelques secondes d’échantillon de parole. OpenAI a collaboré avec des comédiens professionnels pour créer chacune des voix proposées. Il utilise Whisper, son système de reconnaissance vocale Open source, pour transcrire les paroles de l’utilisateur en texte.

Use your voice to engage in a back-and-forth conversation with ChatGPT. Speak with it on the go, request a bedtime story, or settle a dinner table debate.

Sound on 🔊 pic.twitter.com/3tuWzX0wtS
— OpenAI (@OpenAI) September 25, 2023

Analyse des images par GPT-3.5 et GPT-4

Quant à la compréhension des images présentées à ChatGPT, elle est alimentée par GPT-3.5 et GPT-4 multimodaux. Ces modèles appliquent leurs capacités de raisonnement linguistique à divers types d’images, telles que des photographies, des captures d’écran et des documents contenant à la fois du texte et des images.

La synthèse vocale à partir d’un échantillon de voix sert à alimenter le chat vocal

Afin que la fonction de synthèse vocale (à partir d’un échantillon de voix) ne soit pas détournée de son usage, la technologie sert à alimenter un cas d’utilisation spécifique : le chat vocal. Spotify utilise cette technologie pour le projet pilote de sa fonction de traduction vocale, qui aide les podcasteurs à traduire les podcasts dans des langues additionnelles avec leur propre voix.

OpenAI indique avoir également pris des mesures techniques pour limiter considérablement la capacité de ChatGPT à analyser et à faire des déclarations directes sur les personnes. OpenAI reconnaît que ChatGPT n’est pas toujours exact et que ces systèmes doivent respecter la vie privée des individus.

Facebook X LinkedIn