Novidade foi demonstrada no Interspeech 2021 e pode dar voz a personagens, assistentes virtuais e avatares personalizados
A Inteligência Artificial (IA) transformou a fala sintetizada do tom monótono das ligações automáticas e dos primeiros sistemas de navegação GPS para o tom profissional de assistentes virtuais em smartphones e speakers inteligentes. Mas ainda há uma lacuna entre a fala sintetizada por IA e a fala humana que ouvimos nas conversas diárias e na mídia.
As pessoas falam com um ritmo, entonação e timbre complexos que são desafiadores para a IA produzir. Para oferecer suporte aos desenvolvedores e criadores, os pesquisadores da divisão NVIDIA Enterprise estão construindo modelos e ferramentas para síntese de voz controlável de alta qualidade que captura a riqueza da fala humana, sem artefatos de áudio.
Esses modelos podem ajudar as linhas de atendimento automatizado ao cliente de voz para bancos e varejistas, dar vida aos personagens de videogames ou livros e fornecer síntese de voz em tempo real para avatares digitais. A equipe de criação interna da divisão NVIDIA Enterprise usa a tecnologia para produzir narração emotiva para uma série de vídeos sobre o poder da IA.
A síntese de voz expressiva é apenas um elemento do trabalho da área de pesquisa da NVIDIA em IA conversacional, um campo que também abrange o processamento de linguagem natural, reconhecimento automatizado de voz, detecção de palavras-chave, aprimoramento de áudio e muito mais. Otimizadas para funcionar com eficiência em GPUs da NVIDIA, as ferramentas de IA conversacional de última geração são lançadas no kit de ferramentas NVIDIA NeMo de código aberto, disponível no NGC.
Alguns dos mais recentes projetos de síntese de fala e reconhecimento de fala da NVIDIA Research estão em exibição na conferência Interspeech 2021, que será realizada até sexta-feira, dia 3 de setembro.
“Essa novidade traz diversos benefícios para a inteligência artificial como um todo. Cada vez mais podemos ver a importância de uma tecnologia personalizada e com as soluções da divisão NVIDIA Enterprise isso é possível, com aplicabilidade em diversos setores”, ressalta Marcio Aguiar, diretor da NVIDIA Enterprise para América Latina. “Os desenvolvedores brasileiros também poderão aproveitar a tecnologia para inovar ainda mais nos projetos.”
Nos bastidores do I AM AI
Os pesquisadores e profissionais criativos da NVIDIA não apenas falam sobre IA conversacional, eles executam, colocando modelos de síntese de fala inovadores para trabalhar na série de vídeos I AM AI.
Esses vídeos destacam as vastas aplicações da inteligência artificial em todos os setores, mas, até recentemente, eram narrados por um humano. Os modelos de síntese de fala existentes ofereciam controle limitado sobre o ritmo e o tom de uma voz sintetizada, portanto, as tentativas de narração de IA não evocavam nos espectadores a resposta emocional que um falante humano poderia.
Isso mudou no ano passado, quando a equipe da divisão NVIDIA Enterprise de pesquisa de texto para fala desenvolveu modelos de síntese de voz mais poderosos e controláveis, como RAD-TTS, usados na demonstração vencedora da NVIDIA na competição SIGGRAPH Real-Time Live. Ao alimentar o modelo de texto para fala entre 5 e 30 minutos de áudio de treinamento da fala de um indivíduo, a solução pode converter qualquer prompt de texto na voz do orador.
Outro de seus recursos é a conversão de voz, em que as palavras de um locutor (ou até mesmo o canto) são transmitidas na voz de outro locutor. Inspirado pela ideia da voz humana como um instrumento musical, a interface RAD-TTS oferece aos usuários um controle refinado em nível de quadro sobre o tom, a duração e a energia da voz sintetizada.
Com essa interface, o produtor de vídeo da empresa pode gravar a si mesmo lendo o roteiro do vídeo e, em seguida, usar o modelo de IA para converter sua fala na voz do narrador feminino. Usando essa narração básica, o produtor poderia então dirigir a IA como um ator de voz, ajustando a fala sintetizada para enfatizar palavras específicas e modificando o ritmo da narração para expressar melhor o tom do vídeo.
Os recursos do modelo de inteligência artificial vão além do trabalho de locução: a conversão de texto em voz pode ser usada em games, para ajudar pessoas com deficiências vocais ou até mesmo para ajudar os usuários a traduzir outros idiomas em sua própria voz. É possível até recriar as performances de cantores, combinando não apenas a melodia de uma música, mas também a expressão emocional por trás dos vocais.
Dando voz a desenvolvedores e pesquisadores de IA
Com o NVIDIA NeMo, um kit de ferramentas Python de código aberto para IA conversacional acelerada por GPU, pesquisadores, desenvolvedores e criadores ganham uma vantagem inicial na experimentação e no ajuste de modelos de fala para suas próprias aplicações.
APIs fáceis de usar e modelos pré-treinados no NeMo ajudam os pesquisadores a desenvolver e personalizar modelos para conversão de texto em fala, processamento de linguagem natural e reconhecimento de fala automatizado em tempo real. Vários dos modelos são treinados por mais de 100.000 horas em sistemas NVIDIA DGX em conjuntos de dados de código aberto e podem ser ajustados para um caso de uso de desenvolvedor usando computação de precisão mista em GPUs NVIDIA Tensor Core.
O NVIDIA NeMo também oferece modelos treinados no Mozilla Common Voice via NGC, um conjunto de dados com quase 14.000 horas de dados de voz coletados em 76 idiomas. Apoiado pela NVIDIA Enterprise, o projeto visa democratizar a tecnologia de voz com o maior conjunto de dados de voz de dados abertos do mundo.
Pesquisadores da NVIDIA apresentam novidades em IA conversacional
A Interspeech reúne mais de 1.000 pesquisadores para apresentar um trabalho inovador em tecnologia da fala. Na conferência desta semana, a área de pesquisa da NVIDIA está apresentando arquiteturas de modelos de IA conversacional, bem como conjuntos de dados de voz totalmente formatados para desenvolvedores.
Assista às seguintes sessões conduzidas por palestrantes da NVIDIA Enterprise:
- Scene-Agnostic Multi-Microphone Speech Dereverberation – Terça-feira, 31 de agosto
- SPGISpeech: 5,000 Hours of Transcribed Financial Audio for Fully Formatted End-to-End Speech Recognition – Quarta-feira, 1º de setembro
- Hi-Fi Multi-Speaker English TTS Dataset — Quarta-feira, 1º de setembro
- TalkNet 2: Non-Autoregressive Depth-Wise Separable Convolutional Model for Speech Synthesis with Explicit Pitch and Duration Prediction — Quinta-feira, 2 de setembro
- Compressing 1D Time-Channel Separable Convolutions Using Sparse Random Ternary Matrices — Sexta-feira, 3 de setembro
- NeMo Inverse Text Normalization: From Development To Production — Sexta-feira, 3 de setembro
Encontre os modelos NVIDIA NeMo no catálogo NGC e assista às palestras dos pesquisadores da NVIDIA Enterprise na Interspeech.
Sobre a NVIDIA
A invenção da GPU pela NVIDIA (NASDAQ: NVDA), em 1999, estimulou o crescimento do mercado de games para PC e redefiniu a computação gráfica moderna, computação de alto desempenho e Inteligência Artificial. O trabalho pioneiro da empresa em computação acelerada e IA tem revolucionado setores de trilhões de dólares, como transporte, saúde e manufatura, enquanto incentiva o crescimento de muitos outros mercados. Saiba mais em http://nvidianews.nvidia.com/
Acesse também:
Site oficial da NVIDIA no Brasil: https://www.nvidia.com/pt-br/
Facebook: @NVIDIABrasil
Twitter: @NVIDIABrasil
Informações para a Imprensa:
Sing Comunicação de Resultados
31/08/2021