OpenAI annonce GPT-4o, un modèle d’IA apte à répondre à la vitesse d’un humain

Mira Murati, CTO d'OpenAI, 13 mai


Le nouveau modèle GPT-4o d’OpenAI a la capacité de raisonner en temps réel sur l’audio, la vision et le texte. La société a présenté ce nouveau modèle GPT-4o le 13 mai et a montré ses fonctionnalités, notamment des compétences de conversation vocale en temps réel, de reconnaissance visuelle et d’analyse de graphiques. La présentation a été menée par Mira Murati, directrice de la technologie d’OpenAI. Une courte vidéo de 3 minutes permet de comprendre les capacités de GPT-4o.


Une interaction homme-machine plus naturelle


GPT-4o (« o » pour « omni ») est une étape vers une interaction homme-machine plus naturelle. Il accepte en entrée n’importe quelle combinaison de texte, d’audio et d’image et génère n’importe quelle combinaison de sorties de texte, d’audio et d’image. OpenAI annonce que GPT-4o peut répondre aux entrées audio en seulement 232 millisecondes, avec une moyenne de 320 millisecondes, ce qui est similaire au temps de réponse humain dans une conversation.

GPT-4o correspond aux performances de GPT-4 Turbo sur le texte en anglais et sur le code, avec une amélioration significative sur le texte dans les langues autres que l’anglais, tout en étant beaucoup plus rapide et 50 % moins cher dans l’API. OpenAI déclare que GPT-4o est particulièrement meilleur en termes de compréhension visuelle et audio par rapport aux modèles existants.


Un modèle unique pour le texte, la vision et l’audio

Avec GPT-4o, OpenAI a formé un nouveau modèle d’IA unique de bout en bout pour le texte, la vision et l’audio, ce qui signifie que toutes les entrées et les sorties sont traitées par le même réseau neuronal. « Étant donné que GPT-4o est notre premier modèle combinant toutes ces modalités, nous n’en sommes encore qu’au début de l’exploration de ce que le modèle peut faire et de ses limites » déclare OpenAI.

La session de présentation est disponible dans son intégralité :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *




L'événement digital

Retour au pragmatisme vis-à-vis de l’IA générative
Thomas Hussson de Forrester Reserach et Pierre Casanova  de l’éditeur Contentsquare, 7 novembre

Retour au pragmatisme vis-à-vis de l’IA générative

L’IA générative va alléger la manière dont on interagit avec une marque en ligne, via un chatbot, ou lors de l’interrogation …