O novo recurso ‘Perguntar com vídeo’ do Google usa Gemini AI para interagir com o mundo real

Resumo

Em breve, o Google permitirá que os usuários enviem vídeos junto com consultas de texto para aumentar a precisão da pesquisa.
Gemini AI facilitará o upload de vídeos retratando problemas, permitindo pesquisar soluções em vários recursos online.
O recurso estará inicialmente disponível para teste no Search Labs para usuários dos EUA em inglês.

Na conferência de desenvolvedores Google I/O de 2021, a empresa revelou um avanço em IA chamado Multitask Unified Model, ou MUM, que pode processar e compreender vários formatos como texto, imagens e vídeos de uma só vez. Possui uma opção de pesquisa múltipla que combina imagens com texto para refinar os resultados. Em breve, você também poderá fazer perguntas por meio de vídeos no Google Lens.

O objetivo é integrar mais profundamente a pesquisa de vídeos na Pesquisa Google, com tecnologia Gemini AI. Anunciado na conferência Google I/O de hoje, o recurso “Perguntar com vídeo” em breve permitirá que você carregue um vídeo junto com uma consulta de texto. Essa combinação ajudará a IA a fornecer um resumo abrangente das respostas que você procura.

Relacionado

Google I/O 2024: tudo anunciado até agora

Este ano é tudo sobre IA – aqui está tudo o que o Google falou até agora

Gemini AI permitirá que você carregue um vídeo mostrando um problema que você está enfrentando e, em seguida, pesquise em fóruns de usuários e outros recursos online para ajudá-lo. Por exemplo, Rose Yao, do Google, compartilhou no palco sua experiência com um toca-discos de segunda mão que comprou. Ela não conseguiu fazer com que a agulha entrasse em contato corretamente com o disco. Depois de enviar um vídeo sobre o problema, Gemini localizou rapidamente um guia que explicava como ajustar o equilíbrio do braço para seu modelo específico de toca-discos.

De acordo com Yao, a Pesquisa compreenderá perguntas que você pode fazer em voz alta e analisará o vídeo quadro a quadro, usando os modelos de fala do Google, compreensão visual profunda e o modelo Gemini personalizado. Cada quadro foi para a longa janela de contexto do Gemini, permitindo que o Search identificasse com precisão a marca e o modelo do toca-discos e entendesse o movimento entre os quadros, identificando que o braço estava oscilando, explicou Yao. A Pesquisa Google então vasculhou a web, extraindo insights de artigos, fóruns, vídeos e muito mais, e compilou tudo em uma visão geral de IA.

O Google poderia realmente aumentar sua relevância de pesquisa

Esse recurso pode realmente brilhar em pesquisas onde é difícil descrever o que você procura apenas com palavras – situações em que há um elemento visual que pode ser interpretado de várias maneiras. Ao mesclar vídeo com texto em uma única consulta, o Google poderia melhorar muito sua capacidade de fornecer resultados de pesquisa relevantes.

O recurso será lançado primeiro como um teste no Search Labs para usuários dos EUA em inglês. O Google planeja aproveitar a câmera do telefone na Pesquisa para se manter competitivo à medida que os usuários recorrem cada vez mais a plataformas como TikTok e Instagram para vídeos curtos, que estão se tornando parte de seu principal produto de Pesquisa.