OpenAI annonce GPT-4o, un modèle d’IA apte à répondre à la vitesse d’un humain

Newsletter La Revue du Digital

Le nouveau modèle GPT-4o d’OpenAI a la capacité de raisonner en temps réel sur l’audio, la vision et le texte. La société a présenté ce nouveau modèle GPT-4o le 13 mai et a montré ses fonctionnalités, notamment des compétences de conversation vocale en temps réel, de reconnaissance visuelle et d’analyse de graphiques. La présentation a été menée par Mira Murati, directrice de la technologie d’OpenAI. Une courte vidéo de 3 minutes permet de comprendre les capacités de GPT-4o.

Une interaction homme-machine plus naturelle

GPT-4o (« o » pour « omni ») est une étape vers une interaction homme-machine plus naturelle. Il accepte en entrée n’importe quelle combinaison de texte, d’audio et d’image et génère n’importe quelle combinaison de sorties de texte, d’audio et d’image. OpenAI annonce que GPT-4o peut répondre aux entrées audio en seulement 232 millisecondes, avec une moyenne de 320 millisecondes, ce qui est similaire au temps de réponse humain dans une conversation.

GPT-4o correspond aux performances de GPT-4 Turbo sur le texte en anglais et sur le code, avec une amélioration significative sur le texte dans les langues autres que l’anglais, tout en étant beaucoup plus rapide et 50 % moins cher dans l’API. OpenAI déclare que GPT-4o est particulièrement meilleur en termes de compréhension visuelle et audio par rapport aux modèles existants.

Newsletter La Revue du Digital

Un modèle unique pour le texte, la vision et l’audio

Avec GPT-4o, OpenAI a formé un nouveau modèle d’IA unique de bout en bout pour le texte, la vision et l’audio, ce qui signifie que toutes les entrées et les sorties sont traitées par le même réseau neuronal. « Étant donné que GPT-4o est notre premier modèle combinant toutes ces modalités, nous n’en sommes encore qu’au début de l’exploration de ce que le modèle peut faire et de ses limites » déclare OpenAI.

La session de présentation est disponible dans son intégralité :