Une équipe de chercheurs de Microsoft a présenté un modèle d’intelligence artificielle capable de générer des visages parlants à partir d’une photographie et d’un enregistrement audio.
Selon Microsoft, VASA-1 ne serait pas mis à disposition du public pour éviter une utilisation abusive avouant eux-mêmes leur inquiétude sur les dérives possibles (usurper l’identité de quelqu’un).
Comme le détaillent les chercheurs sur la page de l’Université de Cornell, leur premier modèle, VASA-1, « est capable non seulement de produire des mouvements labiaux parfaitement synchronisés avec l’audio, mais aussi de capturer un large spectre de nuances faciales et de mouvements naturels de la tête qui contribuent à la perception de l’authenticité et de la vivacité. Les principales innovations comprennent un modèle holistique de dynamique faciale et de génération de mouvements de tête qui fonctionne dans un espace latent de visage
VASA-1 vise essentiellement à renforcer l’équité en matière d’éducation, ainsi qu’à améliorer l’accessibilité pour les personnes ayant des difficultés de communication, leur permettant d’avoir un avatar pour s’exprimer à leur place.