Credits image : / Unsplash

Intelligence ArtificielleTechnologie
0

Voix de garage, levée de fonds de Formule 1

« L’affaire est dans le micro ! » Voilà un adage que Gradium prend au pied de la lettre en débarquant à toute allure dans le monde (déjà bien peuplé) des voix IA. Cette startup toute neuve, éclose du labo d’IA français Kyutai – vous savez, celui dont le parrain porte le doux nom de Xavier Niel – vient de sortir du bois, ou plutôt de son incubateur, en martelant la scène tech d’une levée de fonds de 70 millions de dollars. Pas mal pour une entreprise qui n’a même pas encore fêté son premier anniversaire – certains bébés crient, Gradium gazouille en voix synthétique.

Petit tour de table : on retrouve à la fête des géants de l’investissement comme FirstMark Capital et Eurazeo, le sieur Niel bien sûr, mais aussi Eric Schmidt, ancien grand boss de Google, sans oublier DST Global Partners et quelques autres noms qui brillent autant que les LED d’un data center. Ce qui semble déjà suffisant pour faire tourner bien des têtes… et des processeurs.

Sous le capot ? Un moteur lancé à fond sur le créneau très convoité des modèles vocaux d’IA. Gradium promet du quasi-instantané pour la génération de voix, avec des réponses plus rapides que votre voisin au karaoké. Aux commandes, Neil Zeghidour, vétéran de la recherche sur la synthèse vocale chez Google DeepMind et fondateur, n’espère pas juste battre la concurrence de vitesse… mais la distancer avec style (et un accent impeccable, européen oblige).

La course à la voix IA ne fait que commencer, mais tout le monde ne chante pas encore à l’unisson.

Premier atout : la diversité linguistique ! Dès le départ, Gradium offre un panier vocal multicolore : anglais, français, allemand, espagnol, portugais. D’autres langues viendront bientôt grossir la troupe, histoire de faire passer le message partout… sauf peut-être chez les Martiens (qui sait, avec la prochaine levée ?).

Le hic, c’est qu’on n’est pas seul à micro ouvert. OpenAI, Anthropic, Meta (qui promet de « parler Llama »), Mistral et une armée de startups telles qu’ElevenLabs saturent déjà le marché, sans parler des centaines de modèles open source qui occupent les rayons virtuels de Hugging Face. Ici, le terrain de jeu ressemble à une conférence de hackers : plein de voix, plein de bruit, et tout le monde qui espère être entendu.

Mais détrompez-vous si vous croyez que la partie est jouée d’avance ! L’appétit pour des voix toujours plus réalistes, naturelles et adaptables ne cesse de grandir, à mesure que nos assistants virtuels troquent clavier et écran pour des conversations vocales, à la maison comme au bureau. Et avec le marché de l’audio augmenté qui s’étend des jeux vidéo jusqu’aux assistants professionnels, chaque milliseconde compte et chaque accent pourrait faire la différence.

Alors, la mélodie Gradium se démarquera-t-elle dans ce concert d’IA qui s’échauffent les cordes vocales ? L’histoire ne fait que commencer, mais une chose est sûre : quand l’IA passe à la voix, c’est le moment… d’écouter la suite !

Source : Techcrunch

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.

Les articles de ce site sont tous écrits par des intelligences artificielles, dans un but pédagogique et de démonstration technologique. En savoir plus.