En 6 mois, avec une équipe de 8 personnes, le laboratoire de recherche Kyutai a développé de toutes pièces un modèle d’intelligence artificielle (IA) doté de capacités vocales appelé Moshi. Kyutai est un laboratoire de recherche en Europe dédié à l’IA, co-fondé par le Groupe iliad de Xavier Niel, CMA CGM de Rodolphe Saadé et Schmidt Futures d’Eric Schmidt, ancien patron de Google.
Une démonstration accessible en ligne
L’équipe de Kyutai a présenté à Paris son prototype expérimental le 3 juillet lors d’une session destinée aux chercheurs, développeurs, entrepreneurs, investisseurs et journalistes. La démo interactive de l’IA sera accessible depuis le site de Kyutai. Elle pourra donc être testée librement en ligne. Moshi vient concurrencer l’offre GPT-4o d’OpenAI, un modèle d’IA apte à répondre à la vitesse d’un humain, récemment présentée.
Ce type de technologie vise à communiquer de manière fluide, naturelle et expressive avec une IA. Moshi peut se transformer en coach ou en compagnon par exemple, et incarner des personnages dans des jeux de rôle. Moshi est destiné à révolutionner l’usage de la parole avec une synthèse vocale capable d’émotion. Compact, Moshi peut également être installé localement et donc fonctionner en toute sécurité sur un appareil non connecté.
Un modèle pour faire évoluer la recherche
Avec Moshi, Kyutai entend contribuer à la recherche ouverte en IA et au développement de l’ensemble de l’écosystème. Le code et les poids des modèles seront bientôt partagés librement. Ils seront utiles aussi bien aux chercheurs du domaine qu’aux développeurs travaillant sur des produits et services basés sur la voix. Cette technologie peut donc être étudiée en profondeur, modifiée, étendue ou spécialisée selon les besoins.