Comment Google Prévient-il de Surpasser OpenAI en Génération de Vidéos?

Comment Google prévoit-il de surpasser OpenAI dans la génération de vidéos? À la conférence Google I/O 2024, un nouveau modèle d’intelligence artificielle appelé Veo a fait son apparition, promettant de créer des clips vidéo en 1080p d’une minute à partir d’un simple texte. Qu’est-ce qui rend le projet Veo si spécial et comment se distingue-t-il par rapport à la concurrence?

Lors du lancement, Demis Hassabis, responsable du laboratoire de R&D en IA DeepMind, a mentionné que leur équipe explorait des fonctionnalités telles que le storyboarding et la génération de séquences plus longues. Serait-ce une avancée révolutionnaire pour les créateurs de contenu? Les résultats démontrés incluent des styles visuels variés, des paysages aux timelapses, et même des modifications sur les vidéos existantes.

Douglas Eck, responsable des efforts de recherche chez DeepMind, a présenté des exemples de la capacité de Veo, dont une vue aérienne d’une plage animée soulignant la qualité supérieure de ce modèle par rapport à ses concurrents comme Sora et d’autres startups. Comment Veo peut-il capturer des détails complexes tels que des foules animées avec une telle précision?

Serait-ce une avancée révolutionnaire pour les créateurs de contenu?

La question de la provenance des données d’entraînement n’est pas sans controverse. Google a admis que certaines vidéos pouvaient provenir de YouTube, conformément à leurs accords avec les créateurs, mais cette transparence suffit-elle à écarter les inquiétudes quant à l’utilisation des données des utilisateurs?

Autre point de préoccupation: les géants de la technologie comme Google et Meta exploitent massivement les données utilisateur pour entraîner leurs modèles d’IA, souvent sans mécanisme pour que les créateurs puissent exclure leurs œuvres de ces ensembles de données. Est-ce que cela pose un problème éthique et légal dans le domaine de l’IA générative?

Veo présente des capacités techniques intéressantes, notamment la compréhension des mouvements de caméra et des effets spéciaux à partir de prompts, ainsi que le montage masqué. Cependant, des limitations subsistent: les objets peuvent disparaître mystérieusement et les dynamiques physiques sont souvent incorrectes. Veo est-il vraiment prêt pour une adoption large, ou ces lacunes limitent-elles son potentiel?

En fin de compte, Google a choisi d’introduire Veo progressivement par le biais d’une liste d’attente sur Google Labs. Cette approche graduelle pourrait-elle assurer une meilleure intégration et acceptation de ce nouvel outil par les créateurs de contenu et l’industrie cinématographique?

Source : Techcrunch