Tudo o que você precisa saber sobre a ferramenta de geração de vídeo com tecnologia de IA

Modelos de IA generativa, como Bing Image Creator e Google Images, foram manchetes em 2023. Esses modelos de IA foram integrados aos telefones Google Pixel com recursos como Reimagine. Mas o mundo da tecnologia nunca para, e o foco mudou para a geração de vídeo de inteligência artificial. A OpenAI saltou à frente, introduzindo sua ferramenta de texto para vídeo, Sora, em fevereiro de 2024. Agora, o Google está aumentando a competição. Vamos dar uma olhada no Google Veo, sua ferramenta de geração de vídeo.




Google Veo: Transformando texto em vídeo

O Google Veo, apresentado no Google I/O 2024, é um gerador de vídeo de IA que transforma prompts de texto e referências visuais em vídeos. Ele cria vídeos 1080p que duram mais de um minuto, usando processamento de linguagem e renderização visual para produzir cenas realistas. Ele também interpreta instruções detalhadas para adicionar efeitos como lapso de tempo, câmera lenta ou outros toques cinematográficos. Por exemplo, um prompt como um lapso de tempo de uma flor abrindo produz um vídeo profissional e polido. Você também pode ajustar os resultados do vídeo adicionando mais prompts.


Um lapso de tempo de um girassol florescendo

Fonte: Google

Criação de vídeo baseada em imagem

Junto com prompts de texto, o Veo combina imagens com texto para gerar vídeos que carregam o estilo visual da sua imagem. Esse recurso é ideal para criadores que buscam manter um estilo visual consistente em seus projetos ou adicionar movimento a visuais estáticos.

Capacidades de edição mascaradas

O Google Veo inclui um recurso de edição mascarada que modifica áreas específicas de um vídeo sem afetar a cena inteira. Por exemplo, em uma bela tomada de drone de um litoral, você pode querer adicionar caiaques à água. O Veo faz isso sem alterar o resto do vídeo.


Geração de quadros consistente

Graças aos transformadores de difusão latentes, o Google Veo mantém os elementos visuais consistentes em todos os quadros de vídeo. Por exemplo, ao trabalhar em um vídeo com movimentos complexos, como um carro dirigindo por uma paisagem urbana, o Veo mantém o carro consistente de uma tomada para a outra. Esse recurso leva a um vídeo fluido e profissional, permitindo que os criadores produzam conteúdo de alta qualidade com menos falhas técnicas.

Duração do vídeo estendida

A capacidade do Google Veo de gerar vídeos com mais de sessenta segundos de duração abre novas possibilidades para contar histórias. Combinar prompts permite que você crie uma narrativa contínua que adiciona profundidade aos seus projetos de vídeo. Por exemplo, você pode fazer um vídeo que conta uma história em capítulos, como um dia na vida de uma cidade, do nascer ao pôr do sol, dentro de um vídeo contínuo. É uma excelente ferramenta para adicionar estrutura e fluxo a projetos mais longos.


Potencial avançado de produção cinematográfica

O Google Veo entende termos cinematográficos e integra perfeitamente esses elementos ao seu vídeo. Você pode solicitar instruções de produção de filmes que permitem adicionar efeitos profissionais, como close-ups ou sequências de panorâmicas.

Em parceria com o Google, Donald Glover e seu estúdio Gilga exploraram as capacidades de produção cinematográfica do Google Veo. Eles experimentaram técnicas criativas como tomadas de rastreamento dinâmicas, onde movimentos de câmera precisos e enquadramento consistente são fundamentais. A parceria destaca o potencial do Veo em expandir os limites criativos dentro da indústria cinematográfica.


A tecnologia por trás do Google Veo

O Google Veo é construído em anos de pesquisa de projetos anteriores como Generative Query Networks (GQN), Imagen-Video, modelos Transformer e Gemini. Esses projetos ajudaram o Veo a interpretar prompts com precisão impressionante, gerar movimento realista (mesmo com simulações de física) e garantir a consistência do quadro para evitar oscilações ou metamorfose de objetos. Veja como a arquitetura funciona.

Entrada e codificação

Quando você fornece um prompt de texto (opcionalmente, um prompt de imagem), o Google Veo usa codificadores separados para cada um. O texto é processado usando um codificador UL2, enquanto a imagem (se fornecida) passa por um codificador de imagem dedicado. As saídas desses codificadores combinam-se em um único prompt incorporado, que atua como entrada para geração de vídeo.

Difusão latente

O prompt incorporado passa por um modelo de difusão latente, que gera quadros de vídeo compactados a partir da representação incorporada. Isso permite que o Veo crie vídeos de forma rápida e eficiente sem sacrificar detalhes visuais.


Decodificação e saída

Após gerar o vídeo latente, uma etapa de decodificação transforma a representação compactada em um vídeo 1080p completo. Esse processo garante que a saída final seja clara, visualmente estável e coerente em toda a sequência de vídeo.

Um diagrama ilustrando um processo de geração de vídeo a partir de entrada de texto e imagem.

Fonte: Google

Como acessar o Google Veo e entrar na lista de espera

O Google Veo está acessível a um pequeno grupo de criadores, com acesso público pendente. Ele está sendo lançado por meio do VideoFX, uma nova ferramenta experimental no Google Labs. Os criadores que quiserem ter acesso a ele antecipadamente podem entrar em uma lista de espera para testar e explorar a plataforma.

Embora o Veo esteja em versão de pré-visualização limitada para criadores selecionados, o Google deu a entender que suas ferramentas de geração e edição de texto para vídeo podem ser adicionadas ao YouTube Shorts e outros produtos.


O Google Veo previne o uso indevido com recursos de segurança integrados

O Google Veo é responsável por design e inclui vários recursos de segurança para garantir o uso responsável. Uma ferramenta essencial é o SynthID, que incorpora uma marca d’água exclusiva em vídeos gerados por IA. Isso permite que o conteúdo seja identificado como criado por IA, evitando o uso indevido e oferecendo transparência sobre a origem da mídia.

Além disso, o Veo tem proteção integrada contra preconceito, direitos autorais e privacidade por meio de verificações de memorização. Isso garante que o modelo não reproduza acidentalmente material protegido por direitos autorais ou dados confidenciais, mantendo os vídeos gerados originais e em conformidade com os padrões legais. Os filtros estão em vigor para bloquear conteúdo inapropriado ou prejudicial.

Explorando o futuro: usos potenciais para o Google Veo

Com a introdução antecipada do Google Veo, várias indústrias podem estar à beira da transformação. Vamos explorar os setores onde o Google Veo pode causar impacto.


Marketing e publicidade

O Google Veo pode mudar o jogo no marketing ao automatizar a criação de anúncios de vídeo dinâmicos e personalizados, adaptados às preferências do espectador. As marcas podem usar o Veo para contar histórias que ressoam emocionalmente, fortalecendo sua identidade de marca ao construir uma conexão mais profunda com seu público.

Educação

O Google Veo pode tornar o conteúdo educacional mais interativo e ilustrativo. Esta ferramenta pode dividir assuntos complexos em segmentos compreensíveis por meio de visuais e animações envolventes, tornando o aprendizado mais acessível e agradável para alunos de todas as idades.

Entretenimento

O Google Veo poderia transformar a forma como o conteúdo é produzido para mídias sociais e serviços de streaming ao lidar de frente com a produção de cenas complexas. Normalmente, cenas caras e desafiadoras poderiam ser acessíveis e econômicas para filmar com o Veo. Seu potencial no desenvolvimento de mídia interativa poderia fornecer novas experiências em videogames e realidade virtual.


Uma nova era na criação de vídeos de IA está chegando

O Google Veo marca um passo à frente na tecnologia de IA generativa. A expectativa aumenta enquanto aguardamos ansiosamente seu lançamento. Quem emergirá como líder no espaço de modelos de vídeo generativos? Será o OpenAI ou o Google assumirá o comando? A competição está esquentando e mal podemos esperar para explorar cada plataforma em primeira mão.