Comment créer de l’émotion dans la voix artificielle ? L’Ircam Amplify ouvre les portes du futur

REPORTAGE•L’équipe d’Amplify, filiale de l’Institut de Recherche et Coordination Acoustique/Musique (Ircam), a dévoilé ses travaux sur la voix artificielle et ce qu’on peut attendre pour les futurs assistants vocaux

Le dôme ambisonique dans le studio 1 de l'Ircam. Illustration - G. ARESTEANU / IRCAM AMPLIFY / HPE

Laure Beaudonnet

Publié le 17/12/2020 à 14h29 • Mis à jour le 17/12/2020 à 14h38

L'essentiel

L’équipe de l’Ircam Amplify - filiale de l'Institut de Recherche et Coordination Acoustique/Musique (Ircam) - a dévoilé les travaux les plus avancés sur la voix artificielle.
Amplify, créée depuis quelques mois, s’appuie sur les travaux d’une centaine de chercheurs de l’Ircam pour réfléchir aux usages de demain.
Dans quelques années, on pourra imaginer des voix artificielles capables d’adapter ses réponses en fonction de nos intonations et, cela, en temps réel.

«Quand on parle à un humain, on s’adapte à la manière dont il parle. Un même message, un même contenu prononcé différemment déclenche une réaction différente sur l’interlocuteur. » Nathalie Birocheau, directrice générale d’Ircam Amplify, pourrait débattre pendant des heures sur l’interaction entre l’homme et la machine. Avec Marion Laporte, directrice marque et communautés, et Vincent Meurisse, chef de projet à Amplify, elle a reçu 20 Minutes ce mercredi du côté de la fameuse place Igor-Stravinsky, à Paris, où se dessinent notamment les futurs usages des voix de synthèse.

A quelques pas de la fontaine de Jean Tinguely et Niki de Saint Phalle, près du Centre Pompidou, trône l’Institut de recherche et coordination acoustique/musique (Ircam) fondé en 1977 par le musicien Pierre Boulez. C’est dans ce bâtiment anciennement souterrain complètement isolé que le futur musical prend vie. La filiale Amplify, créée depuis quelques mois, s’appuie sur les recherches d’une centaine de techno-scientifiques de l’Ircam pour réfléchir aux usages de demain. L’équipe a dévoilé les travaux les plus avancés sur la voix artificielle et ce qu’on peut envisager pour les assistants vocaux intelligents.

La subtilité des intonations

Entre deux « démos », le débat investit rapidement le sujet de la prosodie [les caractéristiques de la voix qui rendent les émotions et les intentions intelligibles]. Un axe de recherche phare pour les prochaines générations d’assistants vocaux. Pour comprendre les autres, il ne suffit pas de prononcer des mots sur un ton monocorde. Le nombre de quiproquos dans nos échanges écrits en est la preuve. L’intonation, le volume sonore, le timbre donnent autant d’indications sur l’état émotionnel de l’interlocuteur que la sémantique. Peut-être même plus. C’est bien pour cela que les assistants vocaux ont encore du pain sur la planche avant de ressembler à la voix suave de Scarlett Johansson, l’intelligence artificielle, dans le film Her de Spike Jonze.

Vincent Meurisse tape des lignes de codes sur son ordinateur pour nous ouvrir les portes du futur. Il s’adresse à la machine d’une voix joyeuse et entraînante. Cette dernière lui répond, sans formuler de mots intelligibles, en reproduisant exactement le même ton que lui. « On peut imaginer un petit robot qui a une voix d’animal sous forme d’onomatopées, explique-t-il. Il va s’adapter à la manière dont je vais parler et à mes intonations de voix pour ensuite les reproduire ».

Si la démonstration se cantonne à faire un copier-coller de la prosodie, elle laisse entrevoir une nouvelle forme d’interaction avec les voix artificielles. « On peut imaginer, avec un apprentissage de machine learning et avec un data set [ensemble de données] assez important de réponses, une interaction qui va se construire en fonction de l’évolution de l’intonation de la discussion », anticipe-t-il. La machine pourra s’adapter à l’émotion de l’humain qui s’adresse à elle. S’il est en colère ou épuisé, elle ne lui répondra pas de la même façon.

Lutter contre certains biais cognitifs

Sans la prosodie, difficile de dépasser les interactions un peu primaires qu’on observe avec les assistants personnels intelligents d’aujourd’hui. « De nombreux laboratoires des géants américains de la tech sont partis sur des méthodes purement mathématiques avec des ingénieurs 100 % technique », observe Nathalie Birocheau. La dimension émotionnelle n’était pas toujours présente. Résultat : des assistants vocaux incapables de faire illusion, tant sur leur capacité d’appréhender le sens commun que sur leur façon de réagir à l’émotion.

Or, pour comprendre les autres, il y a tout un tas d’éléments extérieurs à prendre en compte. Lorsqu’on interagit, on s’adapte à un contexte. On augmente ou on baisse le niveau sonore, on modifie le ton en fonction d’une multitude d’éléments : le niveau de stress de l’interlocuteur, son âge, son genre. Y a-t-il du bruit autour? Est-il seul ou accompagné ? Quel est son niveau de concentration ?

La façon dont on dit « bonjour » plonge l’interlocuteur dans un certain état émotionnel. « Des tests ont été faits sur les centres d’appel d’urgences médicales », souligne Nathalie Birocheau. Ils ont montré qu’un même message ne déclenche pas la même réaction. « Si je suis un homme, que je parle doucement avec un certain timbre, une certaine prosodie, j’ai neuf chances sur dix d’avoir des secours, alors que si j’ai une voix aiguë et chevrotante, peu sûre d’elle, j’ai une chance sur 10 d’avoir des secours », pointe-t-elle. La voix charrie des informations au-delà des mots.

Hyperpersonnalisation et génération en temps réel

Amplify travaille surtout sur le compagnonnage homme machine. Un assistant intelligent capable de repérer le niveau d’anxiété, de colère, de fatigue, pourrait prévenir l’agent opérateur des centres d’appels et l’aider à adopter le meilleur comportement possible dans une situation donnée. Et, surtout, il pourrait lui éviter de tomber dans le piège des biais cognitifs comme ceux de l’exemple des appels d’urgences médicales.

Comment l’analyse d’une prosodie peut provoquer un traitement particulier sur la voix ? L’Ircam n’est pas loin du but. L’institut a les connaissances en traitement du signal, en analyse du signal, en synthèse de la voix. Il a la multicompétence en psycho-acoustique, design sonore, perception, construction de la voix, de façon à provoquer une émotion. Car il est bien question d’améliorer l’expérience utilisateur à l’aide de l’intelligence artificielle.

« Ces briques technologiques sont à la disposition d’Amplify pour les implanter dans le marché et trouver des usages réels qui ont un sens pour le plus grand nombre, poursuit Nathalie Birocheau. C’est en train d’être inventé. L’intelligence artificielle a les capacités ». C’est une question de temps, de puissance de calcul, de qualité et de quantité des données de départ. La directrice d’Amplify prévoit l’arrivée de cette technologie dans deux à trois ans. Et, à terme, on pourrait même imaginer des technologies hyperpersonnalisées qui génèrent la bonne voix et une intonation adaptée à la situation en temps réel. Restera à déterminer si l’humain voudra parler à une voix artificielle qui ressemble à celle de son parent.