Vi a ‘visão do Google para o futuro dos assistentes de IA’ no I/O e estou cautelosamente otimista

O Google I/O 2024 tem sido, para surpresa de ninguém, tudo sobre IA. Durante a maior parte da palestra de duas horas de terça-feira, o Google falou sobre compras de IA, ferramentas de espaço de trabalho de IA, ferramentas de educação de IA – essa é a ideia. Muito disso foi impressionante, mas o anúncio mais intrigante relacionado à IA foi o que o Google está chamando de Projeto Astra, um acrônimo para “agente responsivo avançado para ver e falar”.

Astra representa os esforços do Google para ajudar Gemini a compreender o mundo real através entrada multimodal, tanto vídeo quanto áudio. Pude ver uma demonstração pessoalmente: em uma pequena sala equipada com uma câmera, um microfone e vários acessórios, Gemini respondia perguntas, inventava histórias e jogava jogos simples usando informações de entrada simultânea de áudio e vídeo. Temos sido rotineiramente queimados por promessas grandiosas de IA há alguns anos, mas se a funcionalidade do Projeto Astra realmente chegar aos usuários e funcionar tão bem quanto o que vi no I/O, acho que poderia ser um grande negócio.

As demonstrações do Projeto Astra

Eu vi truques de IA, mas o software que os sustenta parece promissor

As demonstrações do Astra das quais participei aconteceram em frente a uma grande tela sensível ao toque que mostrava uma transmissão ao vivo de uma câmera apontada para baixo em uma mesa (nos pediram para não tirar fotos, infelizmente). Em quatro demonstrações diferentes, os representantes do Google colocaram vários objetos à vista da câmera. Uma voz que chamarei apenas de Gêmeos – os representantes apontaram que todas as demonstrações foram alimentadas pelo mesmo modelo Gemini 1.5 – reagiu tanto aos objetos quanto às perguntas e comentários dos apresentadores de uma forma convincentemente natural. Além de alguns pequenos contratempos que abordarei mais tarde, foi tudo bastante impressionante.

Piccionário

A primeira e mais interessante demonstração do Astra do Google foi um jogo simples no estilo Pictionary. Em uma grande tela sensível ao toque, um representante do Google desenhou um boneco palito, que Gemini identificou rapidamente – até complementou as habilidades de desenho do apresentador. Um dos representantes arrastou e soltou um emoji de caveira de um menu na tela no braço estendido do boneco e, com a dica de que o representante estava “pensando em uma peça”, Gemini percebeu imediatamente que era Hamlet.

O apresentador removeu a caveira e desenhou um segundo boneco palito, junto com um balão de pensamento compartilhado acima do par. Ela adicionou um emoji alienígena dentro da bolha e disse a Gemini que a imagem era um programa de TV, e Gemini concluiu que era para ser Arquivo X tão rapidamente quanto eu.

Aliteração

Em uma segunda demonstração do Astra destacando as habilidades linguísticas de Gemini, os representantes do Google colocaram uma série de alimentos de brinquedo à vista da câmera: uma maçã, uma casquinha de sorvete e um cachorro-quente. Gêmeos falou sobre cada um dos objetos em frases aliterativas, com sequências de palavras que começavam todas com a mesma letra. Gemini conseguiu falar de forma bastante coerente sobre itens individuais desta forma, mas quando lhe foram feitas perguntas mais complexas (como se os três itens juntos constituíam um almoço saudável), teve dificuldade em responder, dando prioridade à directiva para falar em aliterações.

google-io-2024-shoreline-sundar-gemini-2

Relacionado

5 novos recursos do Gemini AI que podem mudar sua vida

Agora tudo o que o Google precisa fazer é entregar

Forma livre

Em uma demonstração que o Google chamou de “formato livre”, um representante colocou vários bichinhos de pelúcia sobre a mesa, um de cada vez, dizendo a Gêmeos o nome de cada um enquanto o fazia. Gemini foi capaz de lembrar detalhes sobre os objetos que lhe foram contados, como seus nomes, e também informações visuais que entendeu da imagem da câmera, como o tipo de animal de cada brinquedo.

Gemini pôde responder a perguntas sobre o que viu durante a demonstração (como “qual foi a primeira coisa que mostrei a você?”), mas também teve alucinações em determinado momento, lembrando-se erroneamente de um dos nomes de batismo do brinquedo. Ainda assim, ele acertou a maioria dos detalhes e pôde responder em tempo real ao que estava vendo pela câmera e às perguntas e comentários falados pelos representantes do Google.

Contador de histórias

Para a demonstração final, pediram-me para escolher um dentre vários objetos dispostos em uma prateleira próxima. Peguei um caranguejo de brinquedo e coloquei na frente da câmera. Gêmeos começou a me contar uma história bastante complexa sobre o caranguejo indo até um castelo de areia que avistou na praia, incluindo detalhes como a sensação da areia.

Os representantes do Google colocaram um fidget spinner na mesa ao lado do caranguejo e interromperam Gemini no meio da frase para pedir que incluísse o novo brinquedo na história sobre o caranguejo. Gêmeos continuou com sua história e, com certeza, algumas frases depois, o caranguejo tropeçou em um girador de agitação em sua viagem ao castelo de areia.

O Projeto Astra pode ser um grande negócio

Por mais razões do que uma

Uma cena do Google I/O 2024 com uma tela grande onde se lê "Projeto Astra"

Fonte: Google

O Projeto Astra parece o tipo de funcionalidade que dispositivos como o Rabbit R1 e o AI Pin da Humane estão tentando oferecer: interação simples baseada em voz com um LLM que pode interpretar o mundo físico de maneiras convincentemente humanas. A vantagem aqui para o Google é que o Gemini está disponível em hardware pronto para uso – em uma demonstração em vídeo mostrada durante a palestra I/O, o Projeto Astra está instalado e funcionando no que parece ser um Pixel 8 Pro.

Nenhuma das demonstrações do Projeto Astra apresentou casos de uso específicos e úteis para a crescente compreensão multimodal do mundo físico do Gemini, mas não é difícil imaginar como as capacidades que vi poderia seja útil. Em poucos minutos, o Google me mostrou que, com o Astra, o Gemini pode absorver vários tipos de informações ao mesmo tempo e responder a perguntas sobre o que vê e ouve. Também pode dar sentido a símbolos abstratos (como bonequinhos e emojis) e expressar ideias de maneiras que, vindas de uma pessoa, eu descreveria como criativas.

O Google diz que “alguns desses recursos” chegarão ao Gemini “ainda este ano”.

De acordo com o Google, desenvolvimentos como esse são trampolins no caminho para a criação de uma inteligência artificial genuinamente geral – mais o JARVIS do Homem de Ferro do que o Google Assistant. Isso é fascinante por si só, mas mais imediatamente, esse tipo de funcionalidade pode ser enorme para pessoas que têm dificuldade em interpretar o que está ao seu redor por conta própria. A compreensão multimodal do Astra incorporada numa câmara vestível (em óculos inteligentes, por exemplo) poderia ser uma enorme ajuda para pessoas com deficiência visual.

O Google descreve o Astra como “nossa visão para o futuro dos assistentes de IA”, mas teremos que esperar e ver quanto disso realmente se materializa em um produto de consumo. O Google diz que “alguns desses recursos” chegarão ao Gemini “ainda este ano”.