Como usar a ferramenta AI de clonagem de áudio e voz da Meta

A Meta apresentou seu modelo generativo de IA para fala, Voicebox, em meados de 2023. Meta pretende levar a geração de som de IA para o próximo nível com Audiobox, o sucessor do Voicebox. A ferramenta inovadora gera efeitos sonoros a partir de prompts de texto, elimina ruídos de gravações de fala, cria uma voz reestilizada, gera fala no estilo de um clipe de áudio e muito mais. Antes de darmos uma volta, vamos aprender mais sobre o Audiobox do Meta.


A demonstração do Audiobox está disponível apenas na web. Experimente em seu Mac, desktop Windows ou em um Chromebook de última geração.


O que é Audiobox?

Criar áudio de alta qualidade pode ser um processo desafiador. Nem todo mundo é engenheiro de som e tem acesso a ferramentas abrangentes para criar áudio. É aqui que entra a Audiobox do Meta. É uma ferramenta de geração de som do Facebook AI Research (FAIR). A oferta mais recente da Meta gera áudio e efeitos sonoros usando entradas de voz, prompts de texto e uma combinação de ambos.

Com o Audiobox, o Meta visa diminuir a barreira da criação de áudio e facilitar aos usuários em geral a criação de amostras de som de alta qualidade. Se você deseja criar áudio para um podcast, vídeo do YouTube, audiolivro ou videogame, o Audiobox pode ser sua ajuda para realizar o trabalho.

Recursos da caixa de áudio

A IA generativa tornou popular a criação de áudio e a clonagem de voz. Não faltam essas ferramentas. A Audiobox da Meta se destaca facilmente da multidão devido às suas capacidades únicas. Aqui está o que você pode fazer com isso:

  • Crie um discurso realista baseado em texto escrito.
  • Crie faixas de áudio sem software ou instrumentos.
  • Crie efeitos sonoros a partir de uma descrição de texto.
  • Remova o ruído das gravações de fala.
  • Substitua seções vazias em um clipe de áudio por novos sons.
  • Ajuste o estilo de uma amostra de voz usando instruções de texto.

Todos os recursos do Audiobox estão disponíveis para teste no site oficial da empresa. Você pode gerar amostras de áudio, verificar prévias e baixá-las para o seu dispositivo.

  1. Vá para Audiobox na web e vá para o Capacidades aba.
  2. Selecione uma opção relevante abaixo do Criar áudio cardápio. Vamos usar Vozes Reestilizadas.
  3. Grave sua voz ou escolha uma amostra de voz no menu suspenso.
  4. Adicione um pequeno parágrafo que você deseja que o modelo de IA fale. Descreva o estilo de voz para narrar o texto. Por exemplo, você pode escrever um parágrafo curto e pedir à Audiobox para criar uma amostra de áudio no tom amigável de uma pessoa de meia-idade.
    Voz reestilizada da Audiobox

  5. Selecione Gerar e deixe o modelo de IA criar alguns resultados de áudio. Selecione os jogar botão para verificar os resultados de voz reestilizados e salvá-los em seu computador.
    baixar amostra de voz do Audiobox

Você também pode ir para o menu Efeitos Sonoros e descrever a amostra de som que deseja criar. Adicione detalhes suficientes para obter resultados astutos do Audiobox. Executamos vários prompts de texto e ficamos impressionados com os efeitos sonoros gerados.

gerar efeitos sonoros no Audiobox

A Audiobox pode produzir amostras de som próximas à forma como as pessoas falam naturalmente. Isso gerou preocupações sobre deepfakes alimentados por IA. Especialmente porque as eleições presidenciais dos EUA estão ao virar da esquina, não se pode descartar o uso indevido de tais ferramentas de IA. Meta implementa marca d’água automática de áudio no áudio gerado pelo Audiobox.

O sinal incorporado no áudio gerado é insignificante para o ouvido humano, mas pode ser rastreado até o nível do quadro. Meta também adicionará autenticação de voz para evitar falsificação de identidade. A pessoa deve falar um comando de voz enquanto registra sua voz. O prompt de texto é atualizado a cada 50 segundos, portanto, é difícil reproduzir a voz pré-gravada de outra pessoa.

prompts de texto durante a gravação de um áudio

A Meta decidiu não tornar o modelo de IA de código aberto para evitar possíveis usos indevidos.

Meta fez um trabalho notável com Audiobox. É preciso e muito bom. Experimente com diferentes prompts e amostras de voz e verifique os resultados. Além do Facebook, gigantes da tecnologia como Google e Microsoft estão explorando a inteligência artificial generativa para criar conteúdo.

O gigante das buscas lançou recentemente o Google Bard para enfrentar o ChatGPT da Open AI (e da Microsoft). Leia nossa postagem dedicada para saber mais sobre o Google Bard. Também comparamos o Google Bard com o ChatGPT para descobrir suas capacidades, limitações e potencial.