Cinco grandes mudanças que você precisa saber

O Gemini 2.0 do Google possui novos recursos e capacidades. Isso inclui melhor compreensão multimodal, IA de agência, maior velocidade, melhor duração da bateria (mesmo para telefones com baterias excelentes) e integração mais ampla com outras soluções do Google. O Gemini 2.0 processa informações de maneira diferente do seu antecessor e realiza tarefas mais complexas.

As integrações com produtos do Google, como Pesquisa, Mapas e Workspace, são áreas de foco principais, embora alguns recursos ainda estejam sendo implementados. O Gemini 2.0 é acompanhado por uma grande atualização da interface do usuário do NotebookLM, o armazém de informações de IA do Google com tecnologia Gemini que aproveita seus materiais de pesquisa, links e conjuntos de dados.

dois telefones executando o aplicativo Google Gemini e Gemini ao vivo em um teclado de laptop

Relacionado

Google Gemini: tudo o que você precisa saber sobre a IA multimodal de última geração do Google

O Google Gemini está aqui, com uma abordagem totalmente nova para IA multimodal

5 Processamento nativo de imagem e áudio

Eliminar a tradução promete melhores respostas

Um smartphone com a tela desligada e mostrando um ícone de som ao lado do telefone

Fonte: Grabster/Unsplash.com/Android Police

Ao contrário dos modelos anteriores, que exigiam a conversão de imagens e áudio em texto antes da análise, o Gemini 2.0 os processa. O objetivo é eliminar a perda de informação associada à tradução. O processamento direto permite uma compreensão mais rica e diferenciada da entrada, capturando sutilezas e pistas contextuais que de outra forma seriam perdidas. Gemini 2.0 promete uma interpretação mais precisa e eficiente do conteúdo multimídia, ignorando a etapa intermediária de conversão de texto.

Gemini 2.0 identifica objetos em uma imagem e entende suas relações e o contexto da cena. Testei suas habilidades e a resposta foi detalhada e precisa. Ele até reconheceu os materiais com os quais os objetos da minha mesa de centro foram construídos. Também executei a imagem na versão 1.5 Pro. Embora fornecesse algumas das mesmas informações, sua resposta foi menos detalhada. O modelo Gemini 2.0 Flash ainda se recusava a processar uma imagem com pessoas.

Se o Gemini 1.0 tratava de organizar e compreender informações, o Gemini 2.0 tratava de torná-las muito mais úteis. – Sundar Pichai, CEO do Google

4 IA Agente

Gemini 2.0 pode fazer mais com menos

Um robô humanóide com olhos grandes e brilhantes e uma tela de tablet, contra um fundo rosa vibrante com uma rede de linhas de conexão digital.

Fonte: Alex Knight/Pexels

Agentic AI descreve modelos de IA que interagem ativamente com o mundo para atingir objetivos específicos. O Gemini 2.0 capacita os agentes de IA, permitindo-lhes executar tarefas complexas em várias etapas que exigem planejamento, tomada de decisões e interação com sistemas externos. A IA Agentic pode marcar um ponto de viragem onde a IA se torna uma solucionadora de problemas mais proativa.

Os recursos de agência do Gemini 2.0 estão programados para integração com ferramentas externas como Google Search, Maps e Lens. Por exemplo, um agente de IA Gemini 2.0 poderia aproveitar o Google Maps para planejar um itinerário complexo envolvendo vários destinos e meios de transporte. No entanto, essa funcionalidade não estava disponível para mim na área de trabalho Flash 2.0 ou no Maps. O Google lançou recentemente o 2.0 em uma versão de pré-lançamento de seu aplicativo móvel, onde esperamos ver alguns desses recursos brilharem.

Em sua postagem no blog, o Google discute como o novo modelo se relaciona com duas grandes iniciativas do Google: Projeto Astra e Projeto Mariner. O Projeto Astra concentra-se em recursos de IA de agência integrados a serviços como Pesquisa e Mapas. O Project Mariner aborda recursos automatizados da web, como preenchimento de formulários, reservas e coleta de informações de vários sites.

3 Integrações mais profundas em todo o ecossistema do Google

A IA vai a todo lugar com o Gemini 2.0

Fonte: Google

O Gemini 2.0 integra-se profundamente ao ecossistema de produtos e serviços do Google. A promessa é uma experiência de usuário mais unificada e integrada. As integrações estendidas do Gemini 2.0 apontam para a estratégia do Google de usar o Gemini como um fio condutor em todo o Workspace.

A Pesquisa Google está obtendo uma integração mais profunda com o Gemini 2.0, facilitando experiências de pesquisa mais conversacionais e aproveitando as visões gerais de IA para respostas abrangentes a consultas complexas, como previmos no início de novembro. No Google Workspace, os recursos de IA impulsionados pelo Gemini 2.0 estão sendo incorporados a aplicativos como Documentos, Apresentações e Meet para aumentar a produtividade e a colaboração. O Android Assistant está configurado para receber novos recursos com tecnologia Gemini 2.0. Sua milhagem pode variar durante o processo de implementação.

2 Respostas mais rápidas e melhor duração da bateria

Gemini 2.0 Flash dobra a velocidade de 1,5

Foto de um Pixel 9 Pro em um carregador sem fio Pixel Stand.

O nome completo da versão mais recente é Gemini 2.0 Flash Experimental. Ele foi simplificado para velocidade e capacidade de resposta. Gemini 2.0 Flash oferece desempenho aprimorado enquanto reduz a latência. Isso posiciona o Gemini 2.0 Flash para potencializar melhor as interações multimodais em tempo real.

Gemini 2.0 Flash apresenta melhorias notáveis de desempenho. O Google diz que é o dobro da velocidade de seu antecessor. Na minha experimentação, as respostas foram quase instantâneas. Eles foram notavelmente mais rápidos do que quando eu alimentei as mesmas consultas na versão 1.5 Pro. Os tempos de resposta mais rápidos fazem com que as interações pareçam naturais e fluidas. Para conversas de áudio, a latência reduzida pode reduzir atrasos e criar uma experiência mais envolvente e realista.

O Gemini 2.0 Flash pode prolongar a vida útil da bateria para processos de IA em dispositivos móveis, como o Google Pixel 9 ou outro smartphone. Isso pode significar cobranças menos frequentes, algo que todos podem apreciar.

1 UI reinventada do NotebookLM

Gemini 2.0 é acompanhado por uma reformulação da interface do NotebookLM e novos recursos

Não está no Gemini 2.0, mas os dois são lados diferentes da mesma moeda. A chegada do Gemini 2.0 marca uma iteração paralela no NotebookLM. A iteração vai além dos recursos subjacentes de IA e chega à interface do usuário. A reformulação busca tornar mais intuitiva e eficiente a interação dos usuários com suas notas e documentos. Ele se concentra em agilizar fluxos de trabalho, melhorar a navegação e fornecer um ambiente visual mais refinado.

Um tablet com o site NotebookLM aberto sobre uma mesa com um notebook físico embaixo dele

Relacionado

Testei o NotebookLM e vi a promessa de algo ótimo

NotebookLM tem muitos problemas, mas a ideia por trás dele tem potencial

Gêmeos se move rápido e não desacelera

Gemini 2.0 tem truques interessantes para produtividade máxima. Além de reconhecer texto, também compreende imagens e sons. Esta versão promete fazer coisas por você, como usar a Pesquisa Google ou o Maps para encontrar informações ou realizar tarefas complexas. Além disso, possui uma janela de contexto maior que seu antecessor. O Google avalia o Gemini 2.0 Flash em 2 milhões de tokens, o que significa que ele retém e processa o dobro de informações que o Gemini 1.5 Pro.

Ao focar na compreensão multimodal, nos recursos de agência, nas integrações mais profundas com os aplicativos do Google e nas melhorias de desempenho, o Google está fazendo do Gemini a base de seu ecossistema. À medida que a IA convencional continua a amadurecer, 2025 será um ano interessante.