Grâce à l’IA, Google vient de résoudre l’un des principaux problèmes des appels vidéo
Depuis l’émergence de la crise du coronavirus, les services de messagerie et conférence vidéo sont à la fête et voient leur audience exploser en raison du télétravail, que ce soit à la maison ou en coworking. Ce qui pose parfois quelques problèmes de disponibilité et de fluidité des conversations puisque cette augmentation soudaine de l’utilisation mobilise énormément de bande passante et met les serveurs à rude épreuve, sans parler des problèmes de sécurité que cela peut également engendrer.
Côté utilisateur, cela se traduit souvent par des désagréments qui sont généralement de deux ordres : une qualité d’image dégradée, mais surtout des moments où la transmission se fige de façon récurrente. Cela ne concerne parfois que l’image, mais il arrive aussi que cette saturation se manifeste par des coupures du flux audio, rendant les conversations hachées, difficiles, voire impossibles.
Comme l’expliquent nos confrères du MIT Technology Review, lorsque vous passez un appel en ligne, votre voix est coupée en plusieurs segments qui sont ensuite envoyés sur internet sous forme de blocs de données appelés paquets. Les paquets arrivent souvent à l’autre bout pêle-mêle et les logiciels doivent les réorganiser. Mais parfois, les paquets n’arrivent pas du tout, ce qui crée des trous dans une conversation, car il manque des mots ou des bouts de phrases. C’est ce qui se produit dans les meilleurs cas. D’après Google, 99 % des conversations sur sa messagerie Duo ont des paquets mélangés ou perdus, tandis qu’un dixième de ces appels perdent plus de 8 % de leur contenu audio. Ce qui fait beaucoup si l’on veut continuer à se comprendre.
Une IA qui parle à votre place pour qu’on vous comprenne
Google s’est donc emparé de la question, et comme souvent a trouvé une solution à base d’intelligence artificielle. Au même titre que certains logiciels graphiques sont capables désormais de reconstituer une section d’image manquante, Google s’est appuyée sur un réseau de neurones développé par sa filiale IA DeepMind pour générer une voix « humaine » réaliste à partir d’un texte. Le nouveau réseau neuronal WaveNetEQ a ensuite été formé sur un vaste ensemble de données de 100 voix humaines enregistrées parlant 48 langues différentes jusqu’à ce qu’il puisse compléter automatiquement de courtes sections de parole basées sur des modèles communs de language.
Ce qui de surcroit ne devrait pas poser de problème de confidentialité : la messagerie Duo étant cryptée de bout en bout, l’IA fonctionne sur l’appareil et rien ne passe sur les serveurs de Google. Au cours d’un appel, WaveNetEQ apprend les caractéristiques de la voix d’une personne et génère des segments audio qui correspondent à la fois au style et au contenu prononcé. De fait, lorsqu’un paquet est perdu, la voix générée par l’IA est insérée à sa place. Une performance bluffante, dont Google précise qu’elle est déjà utilisée sur Duo. Ce n’est d’ailleurs pas le seul recours à l’intelligence artificielle puisque la messagerie de Google inclut aussi une fonctionnalité de « bokeh » ou arrière-plan flouté à la demande, également généré par une IA.
Pour l’instant, le dispositif ne peut générer que des syllabes, et non pas des mots ni des phrases entières. Mais de courts exemples mis en ligne par Google montrent que les résultats peuvent être assez réalistes, même si en tendant bien l’oreille on peut quand même entendre le côté synthétique des segments de voix insérés par l’IA.
(image : Pxhere)