Lors de l’événement annuel MAX d’Adobe à San Diego, la société a dévoilé quelques projets sur lesquels elle travaille. L’un s’appelait Project VoCo et c’est probablement la chose la plus impressionnante et, en même temps, potentiellement désastreuse jamais conçue.

Projet VoCo

C’est un concept assez simple qui a le potentiel de faire économiser beaucoup de temps et d’argent aux studios et aux ingénieurs. Project VoCo a la capacité d’éditer et de remplacer le mot prononcé. Comme Photoshop vous donne la possibilité de prendre une matière première et de la transformer en autre chose, VoCo peut donc réorganiser les mots, les remplacer ou les ajouter de manière complètement réaliste. Cela donne aux radiodiffuseurs la possibilité de supprimer ou de corriger les dialogues enregistrés.

Le développeur Zeyu Jin a démontré (voir la vidéo ci-dessous) en prenant un extrait de discours et en ajoutant de nouveaux mots simplement en les tapant dans une zone de texte. Les mots sont ensuite apparus dans le fichier audio exactement de la même voix. Apparemment, vous avez besoin d’environ 20 minutes de discours enregistré pour que le moteur ajoute avec précision de nouveaux mots.

Donc, dans l’analogie avec Photoshop où vous pouvez prendre une image et la placer dans un nouvel emplacement sans avoir à reprendre ou à payer le modèle/photographe, avec VoCo vous pouvez prendre un discours et le modifier sans avoir à réenregistrer l’audio et ainsi payez l’acteur/réalisateur, etc. Une technologie qui permet d’économiser du temps et de l’argent pour la diffusion, le podcasting, les livres audio et les voix off.

Faites confiance à vos oreilles

Mais attendez une minute. Avec 20 minutes de discours enregistré, Project VoCo peut faire dire à cette personne…. quoi que ce soit. Ainsi, vous pourriez prendre, disons, Donald Trump et lui faire dire comment il mange des enfants, ou faire dire à Hilary Clinton qu’elle est en fait un robot d’Uranus. Et la voix serait incroyablement précise ? Cela soulève toutes sortes de dilemmes éthiques. Nous ne pouvons déjà pas vraiment croire ce que nous voyons à cause de Photoshop et maintenant nous ne pourrons plus croire ce que quelqu’un dira (bien que ce soit réellement nouveau ?).

Un point intéressant que Zeyu fait vers la fin de la présentation est que pendant qu’ils travaillent sur Project VoCo, ils travaillent également sur la façon de filigraner l’audio – pour rendre les modifications détectables sous une forme ou une autre afin que l’audio soit fiable. Il sera bien sûr incassable !

Mis à part les questions éthiques, ce qui m’intéresse, c’est le tout nouveau marché des packs de sons de célébrités mortes. Voulez-vous des livres audio lus par Vincent Price ? Aucun problème. Des histoires au coucher lues par Richard Burton ? Juste 99 dollars pour le pack de sons. Vous pouvez piller partout tous les discours enregistrés pour générer des voix SatNav et des assistants informatiques avec les tonalités de votre célébrité préférée. Cela pourrait également être utile pour votre propre voix. Vous pourriez potentiellement mener des conversations téléphoniques avec quelqu’un en sélectionnant dans une bibliothèque de phrases. Le summum de l’interaction sociale paresseuse.

Où tout cela finira-t-il ? Regardez la vidéo ci-dessous pour voir le potentiel du projet Voco. Des informations peuvent devenir disponibles sur le site Web d’Adobe.