O Projeto Astra é o mais recente protótipo de IA da DeepMind, a divisão de IA do Google focada em inteligência artificial geral (AGI). Apresentada no Google I/O 2024, a demonstração do Projeto Astra mostrou tecnologia inovadora para o futuro dos assistentes de IA. Embora o vídeo mostrando as habilidades dos protótipos tenha sido curto, foi impressionante e obteve uma resposta positiva dos desenvolvedores.
A demonstração mostra duas tomadas contínuas, mostrando que as respostas do Projeto Astra não são escolhidas a dedo e que o protótipo pode lidar com uma série de tarefas e perguntas. Uma tomada é em um telefone Google Pixel e a outra em um protótipo de dispositivo de óculos. O Projeto Astra recebe um fluxo constante de entrada de áudio e vídeo, interpreta coisas sobre seu ambiente em tempo real e interage com o usuário de maneira conversacional.
O que o Projeto Astra faz?
O Projeto Astra é um assistente universal alimentado por IA que aprimora as interações dos usuários com seus telefones ou outros dispositivos. O Projeto Astra vai além das capacidades dos modelos atuais de assistentes de IA. Sua entrada fortemente multimodal envolve fala e vídeo. Ele codifica continuamente os quadros de vídeo, combina-os com a fala e ordena-os em uma linha do tempo de eventos. O armazenamento em cache desses dados proporciona uma recuperação eficiente e maior contexto em um fluxo de conversação semelhante ao humano.
O objetivo é que o Astra compreenda o contexto dos ambientes do mundo real enquanto responde aos comandos do usuário, em vez de focar em uma questão individual. Lembrar o que mais está ao seu redor e o que mais você perguntou cria uma sensação natural de interação. Para que pareça natural, a latência deve ser baixa. Embora tenha havido um atraso notável na demonstração, ela forneceu respostas com inteligência e rapidez.
Isso pode ser impressionante ao segurar a câmera do seu telefone para mostrar algo ao Astra. Imagine o que isso poderia fazer em um dispositivo AR como o Google Glass. Ao lembrar o que você viu, o Astra pode encontrar suas chaves perdidas quando você estiver lutando para sair pela porta. A coleta e o armazenamento de dados visuais, combinados com o poder da análise multimodal em tempo real, parecem ser o próximo estágio da IA.
Relacionado
Projeto Astra é o Google Glass que merecemos
Ver os óculos em ação nos deixou nostálgicos e esperançosos
Processamento em múltiplas dimensões com IA multimodal
Um avanço impressionante do Projeto Astra é a sua capacidade de lidar perfeitamente com entradas multimodais. O estado atual da IA normalmente depende de um tipo de entrada de cada vez. O Astra integra dados de fontes visuais e auditivas simultaneamente, contextualizando-os com o ambiente circundante. Isso poderia eliminar a necessidade de fornecer uma descrição mais detalhada do que faria com um ser humano, porque o Astra sabe o que você está olhando e vê o que você vê.
Os recursos de reconhecimento visual do Astra se destacam no vídeo de demonstração, mas áudio e vídeo não são as únicas entradas. O vídeo começa com o usuário perguntando ao Astra: “Diga-me algo que faça barulho”, enquanto ele usa a câmera do telefone para escanear um ambiente de trabalho de escritório. Quando um monitor com alto-falante aparece, o Astra o reconhece. Aproximando a câmera do telefone do alto-falante, o usuário desenha uma seta apontando para um dos dois círculos do alto-falante e pergunta como se chama. O Astra identifica corretamente a parte do alto-falante como o tweeter que produz sons de alta frequência.
As capacidades de memória do Astra vão além da memorização de entradas
Ao passarem pela mesa do escritório, você pode ver um par de óculos sobre a mesa. Eles apontam a câmera para fora da janela e perguntam em que bairro estão. A partir desses dados limitados, o Astra reconhece onde estão. Em seguida, vemos os recursos de recuperação visual do Astra quando questionados sobre onde o usuário deixou seus óculos. Lembrando-se do que viram antes, mas não foi mencionado, Astra diz que os óculos estão na mesa do escritório e acrescenta que estão perto de uma maçã vermelha para serem mais fáceis de encontrar.
Embora o Astra ainda esteja em fase de protótipo e a memória do telefone seja limitada, o recall do Astra é de curto prazo e provavelmente baseado em sessões. Quando a memória persistente se tornar possível e mais integrada aos assistentes de IA, essas funções de memória poderão relembrar sessões anteriores. Esse provável recurso baseado em nuvem pode levar a experiências de IA altamente personalizadas, onde o Astra aprende sobre seus projetos em andamento, preferências pessoais e personalidade.
Relacionado
O verdadeiro problema que temos com a RAM somente AI do Pixel 9 Pro
Está tudo bem por enquanto, mas nada é para sempre
Mais do Projeto Astra em ação
A versatilidade do Astra foi demonstrada através da apresentação de uma multiplicidade de tarefas de assistência no mundo real. Os exemplos foram criativos e bem pensados. Apontar a câmera para um copo de lápis de cor e pedir a Astra uma aliteração sobre eles mostrou suas habilidades linguísticas. Ao contrário de muitas respostas de IA, a aliteração não foi tão ruim ao tentar obter resultados criativos usando instruções em linguagem natural.
Perguntar à Astra qual parte do código do desenvolvedor exibida em um monitor de computador no escritório obteve uma resposta correta. O usuário então mudou para o protótipo do dispositivo de óculos e olhou para um diagrama em um quadro branco que parecia ser de um sistema Network Load Balancing (NLD). Eles desenharam uma seta entre o desenho dos servidores e o banco de dados, perguntando o que poderia ser adicionado para tornar o sistema mais rápido. A resposta de que adicionar um cache poderia melhorar a velocidade foi impressionante, baseada apenas na entrada visual de um diagrama desenhado à mão.
Injetando um pouco de humor, o próximo foi um desenho simples de rostos de dois gatos, um com X vermelhos no lugar dos olhos. Segurando uma pequena caixa de papelão com um ponto de interrogação, perguntaram a Astra: “O que isso te lembra?” A resposta foi o Gato de Schrödinger, um experimento mental idealizado pelo físico austríaco Erwin Schrödinger. Esta experiência ilustra um paradoxo quântico em que um gato pode ser considerado vivo e morto simultaneamente porque o seu destino é deixado a um evento futuro que pode não ocorrer.
A demonstração terminou com um tigre de pelúcia ao lado de um verdadeiro cachorro golden retriever. Astra foi questionado sobre um nome de banda que combinasse com os dois. A resposta foi Golden Stripes, que, como a aliteração anterior, foi uma boa resposta. A natureza multimodal do Projeto Astra aumenta a sua produção.
O processamento baseado em nuvem está atualmente alimentando a inteligência da Astra
A palestra mostra que as unidades de processamento de tensor (TPUs) altamente otimizadas do Google executam o Projeto Astra. O Astra não funciona no dispositivo. O Google é líder em tecnologia de hardware quando se trata de processamento de modelos de linguagem grande (LLMs). Modelos de IA totalmente treinados são normalmente menores. Parece que o Google está insinuando que eventualmente será executado em dispositivos móveis.
Isso não seria surpreendente, já que as TPUs SoC móveis do Google são poderosas e cada geração tem sido mais do que uma melhoria incremental. No entanto, não sabemos o suficiente sobre a direção deste protótipo inicial. O Astra pode apresentar problemas de latência após um lançamento público se depender da nuvem e da conectividade constante com a Internet.
Relacionado
A Apple usou o hardware Google Tensor para treinar seu concorrente Gemini
Muito irônico, Apple Intelligence
O futuro dos assistentes de IA
Embora o Projeto Astra ainda esteja em seus estágios iniciais e o desenvolvimento da inteligência artificial esteja avançando em velocidades vertiginosas, parece que o Google é o primeiro a conseguir um assistente de IA útil. Com a sua capacidade de processar muitas fontes de informação em tempo real, poderá tornar-se uma ferramenta diária para utilizadores móveis. A tecnologia poderia ser estendida a casas inteligentes, ambientes educacionais e projetos criativos.
Olhando para o futuro, o Google planeja incorporar elementos do Astra em seu aplicativo Gemini, potencialmente nos dando uma oportunidade prática. Esta mudança no sentido de uma interação natural e responsiva com a inteligência artificial, juntamente com a consciência do contexto do mundo real, é uma mudança bem-vinda. O Google Gemini cresceu muito desde seus primeiros dias como Bard. Com uma tecnologia tão inovadora como Project Astra, em breve veremos algumas de suas funcionalidades em nossos dispositivos Android.