Tecnologias de inteligência artificial, quando utilizadas para simular a fala humana, por vezes apresentam falta de expressividade análogas à de robôs representados no cinema. Sem vida, com ritmo repetitivo e apego puro e simples aos significados de palavras, as falas desses sistemas inteligentes, na maioria das vezes, não enganam humanos — exceto em alguns casos bem interessantes, como o Google Duplex apresentado em 2018.
Ainda há um longo caminho para se percorrer nesse sentido e chegarmos a um mundo com androides replicantes como em Blade Runner, porém, a Nvidia parece bem encaminhada nesse sentido. A companhia revelou, nesta terça-feira (31), um vídeo para mostrar os avanços na construção da tecnologia I AM AI, apresentada originalmente em 2017. Nas imagens, é possível notar os avanços da inteligência artificial especialmente no que toca a naturalidade com que ela se comunica, soando perfeitamente como um humano.
A ideia sempre foi colocar uma inteligência artificial para narrar o programa e explicar a evolução das tecnologias, mas até hoje os episódios são descritos por humanos. Foi em 2020, então, que o time de pesquisa da NVIDIA voltou esforços para melhorar o narrador.
A Flowtron, como foi chamada a voz da IA em questão, soava como um humano, mas ainda não estava completa. Faltava criar uma forma de unir a direção do clipe com o narrador virtual e, para isso, o trabalho continuou no modelo chamado RAD-TTS. A partir dele, diretores poderiam gravar o próprio discurso e, em cima desse áudio, determinar tom, prolongamento de palavras e expressividade da inteligência artificial.
Um IA capaz de copiar tons
“Com o RAD-TTS eu pude me gravar pronunciando uma fala específica. Quando eu dava ênfase ou colocava mais energia em uma palavra, deixava minha voz mais grave ou aguda, desacelerava o discurso, e isso afetava a voz do ator do mesmo jeito”, comentou o produtor de vídeo da NVIDIA, David Weissman.
O resultado incrível, que pode ser conferido no vídeo acima, foi possível graças à comparação entre o discurso falado e música. “O discurso tem notas, tem ritmo e, como um pesquisador vindo do segmento musical, estou sempre escutando a voz como um instrumento que eu posso manipular”, descreveu o pesquisador carioca Rafael Valle, outro envolvido no projeto. Para Valle, com o novo modelo tornou-se possível “criar arte”.
Futuro promissor
Para a NVIDIA, as portas abertas pela evolução do modelo são várias. A voz por inteligência artificial poderia ser utilizada para auxiliar na comunicação de pessoas com problemas de dicção ou recriar performances de cantores icônicos, já que melodias estão entre as suas habilidades.
Por enquanto, os resultados dessa evolução não devem aparecer no cotidiano, mas o caminho está sendo pavimentado. O conjunto de ferramentas de código aberto NVIDIA NeMo dá a oportunidade para desenvolvedores conhecerem e experimentarem o desenvolvimento de modelos de fala.
Mais detalhes sobre a evolução da voz por inteligência artificial da NVIDIA serão divulgados no Interspeech 2021, evento focado em comunicação que acontece desde o dia 30 de agosto e termina em 3 de setembro.
Fonte: Canal Tech
Comentários