Google Gemini 1.5: O que esperar

Resumo

O Gemini 1.5 tem uma janela de contexto de um milhão de tokens, 30 vezes mais que o modelo gratuito do Gemini, mostrando um progresso significativo na tecnologia de IA.
A compreensão de contexto longo é o destaque do Gemini 1.5, com recursos para raciocinar entre vários tipos de arquivos dentro de sua janela de contexto.
A integração do Gemini pelo Google em aplicativos para desenvolvedores significa a rápida progressão da tecnologia de IA, com foco no mercado profissional.

Quando o público teve acesso ao modelo de linguagem Gemini 1.0 Pro do Google em fevereiro, a empresa já estava trabalhando para preparar o Gemini 1.5 para lançamento. O novo modelo está sendo implementado atualmente para desenvolvedores e parceiros do Google, que podem solicitar acesso ingressando em uma lista de espera selecionada. Felizmente, o Google forneceu algumas informações públicas sobre o que esperar do 1.5.

Resumindo: o Gemini 1.5 se destaca no mercado profissional com a introdução de alguns recursos impressionantes que destacam a rapidez com que a IA está progredindo. A data de lançamento público ainda não foi anunciada.

Quando entramos em contato com o Google para obter uma declaração, um representante nos indicou a postagem do blog do Google, onde o CEO da Alphabet, Sundar Pichai, observa que o Gemini 1.5 “mostra melhorias dramáticas em uma série de dimensões e … atinge qualidade comparável ao 1.0 Ultra, usando menos calcular.” Isso parece muito bom, mas a compreensão do longo contexto do 1.5 é realmente a atração principal.

Página da lista de espera do Gemini 1.5 Pro do Google

Fonte: Google

A compreensão de contexto longo aumentará a continuidade do processamento

É tudo uma questão de contexto

Um grande avanço na compreensão do contexto é o avanço mais notável que o Gemini 1.5 Pro traz. A quantidade de informação com a qual um grande modelo de linguagem como o Gemini pode trabalhar em uma única interação é expressa em fichas. Enquanto o modelo Gemini 1.0 Pro, que alimenta a atual versão gratuita do Gemini, tem um limite de cerca de 32.000 tokens de entrada por interação, o Gemini 1.5 Pro pode gerenciar cerca de um milhão.

Com uma janela de contexto de um milhão de tokens, o Gemini 1.5 supera dramaticamente muitos outros modelos de IA de consumo. Ele derrota o atual líder, Claude, por um fator de 5x, e supera o atual modelo gratuito Gemini em cerca de 30x. Como mencionei acima, o Google diz que o Gemini 1.5 Pro terá desempenho semelhante ao modelo Gemini 1.0 Ultra que alimenta o Gemini Advanced premium do Google, mas funcionará com mais eficiência.

Um gráfico comparando janelas de contexto em modelos de IA

Fonte: Google

Para maior clareza, a compreensão do contexto refere-se à quantidade de informações que um modelo de linguagem pode processar com continuidade. A compreensão do contexto é medida em janelas de contexto, que são compostas por tokens. Por sua vez, os tokens são compostos por palavras, imagens, vídeo, áudio ou código. O Gemini 1.5 pode raciocinar entre diferentes tipos de arquivos em sua janela de contexto, permitindo aos usuários fazer upload de vídeos, textos e até mesmo repositórios de código para análise.

O Gemini 1.5 pode processar mais de 700.000 palavras de texto ou uma hora inteira de vídeo, por exemplo. Embora isso ainda possa ser insuficiente para os aplicativos de vídeo mais pesados, você pode ver o quão rápido as coisas irão progredir com um limite de 10 milhões de tokens já no horizonte.

Parte inferior de um telefone mostrando o prompt Gemini do Google no Android

Redes neurais especializadas têm um grande papel a desempenhar

O Google trabalha na arquitetura Mixture-of-Experts (MoE) há vários anos, mas o 1.5 é o primeiro modelo Gemini a fazer uso da tecnologia. MoE significa que o Gemini encaminha solicitações para redes neurais especializadas e menores para melhorar a velocidade e a qualidade da resposta. Isto não é coincidência, uma vez que a arquitetura do MoE será especialmente útil para ajudar a processar eficientemente janelas de contexto longo.

A impressionante velocidade da IA

A tecnologia está se movendo muito rápido aqui

É seguro apostar que o Google se concentrará em impulsionar a integração do Gemini em aplicativos de desenvolvedores de terceiros. Este segmento está claramente sendo cortejado com o pré-lançamento do Gemini 1.5 no novo Google AI Studio da empresa, que inclui um conjunto de ferramentas para desenvolvedores de IA.

Gemini 1.5 é um marcador da rapidez com que a tecnologia de IA está progredindo. Seu foco na compreensão de longo contexto e no raciocínio entre modalidades é uma aposta forte para o mercado profissional. À medida que o Google integra ainda mais o Gemini nos ecossistemas de desenvolvedores, parece que podemos esperar que uma nova geração de aplicativos baseados em informações comece a surgir em breve.