A Microsoft anunciou recentemente um novo recurso de Inteligência Artificial (IA) que é capaz de simular qualquer voz humana ditando qualquer texto usando apenas três segundos de um áudio em que essa pessoa esteja falando (via Gizmodo).
O mecanismo chamado de VALL-E é um “modelo de linguagem de codec neural” construído sobre a tecnologia de compressão de áudio EnCodec da Meta, revelada no final do ano passado, que usa IA para compactar áudio com qualidade melhor que CD para taxas de dados 10 vezes menores do que até mesmo arquivos MP3, sem perda perceptível de qualidade.
Ele consegue preservar o tom emocional da voz do locutor original e também simular a acústica ambiente do áudio. Assustador!
Em seu produto, a Microsoft está usando a tecnologia como uma forma de tornar o som de transformação do texto para fala mais realista com base em uma amostra bastante limitada.
Para chegar neste resultado, os cientistas utilizaram 60 mil horas de gravação em inglês de mais de 7 mil falantes do LibriLight, composta por audiolivros de domínio público.
Em seu formato atual, o VALL-E está limitado a simular a fala em inglês e, mesmo que seu desempenho ainda não seja considerado perfeito, ele irá melhorar à medida que seu conjunto de dados de amostra for expandido.
Entendendo os riscos que esse novo recurso representa, como uso indevido do modelo, falsificação de identificação da voz ou personificação de um locutor específico, a equipe da Microsoft não irá liberar o código-fonte da ferramenta.
Por enquanto, a Microsoft compartilhou um site com diversos modelos de linguagem dos sintetizadores de textos, com amostras de falas e comparativo entre os áudios originais e a versão criada pela IA.