O Gemini 2.0 do Google possui novos recursos e capacidades. Isso inclui melhor compreensão multimodal, IA de agência, maior velocidade, melhor duração da bateria (mesmo para telefones com baterias excelentes) e integração mais ampla com outras soluções do Google. O Gemini 2.0 processa informações de maneira diferente do seu antecessor e realiza tarefas mais complexas.
As integrações com produtos do Google, como Pesquisa, Mapas e Workspace, são áreas de foco principais, embora alguns recursos ainda estejam sendo implementados. O Gemini 2.0 é acompanhado por uma grande atualização da interface do usuário do NotebookLM, o armazém de informações de IA do Google com tecnologia Gemini que aproveita seus materiais de pesquisa, links e conjuntos de dados.
Relacionado
Google Gemini: tudo o que você precisa saber sobre a IA multimodal de última geração do Google
O Google Gemini está aqui, com uma abordagem totalmente nova para IA multimodal
5 Processamento nativo de imagem e áudio
Eliminar a tradução promete melhores respostas
Fonte: Grabster/Unsplash.com/Android Police
Ao contrário dos modelos anteriores, que exigiam a conversão de imagens e áudio em texto antes da análise, o Gemini 2.0 os processa. O objetivo é eliminar a perda de informação associada à tradução. O processamento direto permite uma compreensão mais rica e diferenciada da entrada, capturando sutilezas e pistas contextuais que de outra forma seriam perdidas. Gemini 2.0 promete uma interpretação mais precisa e eficiente do conteúdo multimídia, ignorando a etapa intermediária de conversão de texto.
Gemini 2.0 identifica objetos em uma imagem e entende suas relações e o contexto da cena. Testei suas habilidades e a resposta foi detalhada e precisa. Ele até reconheceu os materiais com os quais os objetos da minha mesa de centro foram construídos. Também executei a imagem na versão 1.5 Pro. Embora fornecesse algumas das mesmas informações, sua resposta foi menos detalhada. O modelo Gemini 2.0 Flash ainda se recusava a processar uma imagem com pessoas.
Se o Gemini 1.0 tratava de organizar e compreender informações, o Gemini 2.0 tratava de torná-las muito mais úteis. – Sundar Pichai, CEO do Google
4 IA Agente
Gemini 2.0 pode fazer mais com menos
Fonte: Alex Knight/Pexels
Agentic AI descreve modelos de IA que interagem ativamente com o mundo para atingir objetivos específicos. O Gemini 2.0 capacita os agentes de IA, permitindo-lhes executar tarefas complexas em várias etapas que exigem planejamento, tomada de decisões e interação com sistemas externos. A IA Agentic pode marcar um ponto de viragem onde a IA se torna uma solucionadora de problemas mais proativa.
Os recursos de agência do Gemini 2.0 estão programados para integração com ferramentas externas como Google Search, Maps e Lens. Por exemplo, um agente de IA Gemini 2.0 poderia aproveitar o Google Maps para planejar um itinerário complexo envolvendo vários destinos e meios de transporte. No entanto, essa funcionalidade não estava disponível para mim na área de trabalho Flash 2.0 ou no Maps. O Google lançou recentemente o 2.0 em uma versão de pré-lançamento de seu aplicativo móvel, onde esperamos ver alguns desses recursos brilharem.
Em sua postagem no blog, o Google discute como o novo modelo se relaciona com duas grandes iniciativas do Google: Projeto Astra e Projeto Mariner. O Projeto Astra concentra-se em recursos de IA de agência integrados a serviços como Pesquisa e Mapas. O Project Mariner aborda recursos automatizados da web, como preenchimento de formulários, reservas e coleta de informações de vários sites.
3 Integrações mais profundas em todo o ecossistema do Google
A IA vai a todo lugar com o Gemini 2.0
Fonte: Google
O Gemini 2.0 integra-se profundamente ao ecossistema de produtos e serviços do Google. A promessa é uma experiência de usuário mais unificada e integrada. As integrações estendidas do Gemini 2.0 apontam para a estratégia do Google de usar o Gemini como um fio condutor em todo o Workspace.
A Pesquisa Google está obtendo uma integração mais profunda com o Gemini 2.0, facilitando experiências de pesquisa mais conversacionais e aproveitando as visões gerais de IA para respostas abrangentes a consultas complexas, como previmos no início de novembro. No Google Workspace, os recursos de IA impulsionados pelo Gemini 2.0 estão sendo incorporados a aplicativos como Documentos, Apresentações e Meet para aumentar a produtividade e a colaboração. O Android Assistant está configurado para receber novos recursos com tecnologia Gemini 2.0. Sua milhagem pode variar durante o processo de implementação.
2 Respostas mais rápidas e melhor duração da bateria
Gemini 2.0 Flash dobra a velocidade de 1,5
O nome completo da versão mais recente é Gemini 2.0 Flash Experimental. Ele foi simplificado para velocidade e capacidade de resposta. Gemini 2.0 Flash oferece desempenho aprimorado enquanto reduz a latência. Isso posiciona o Gemini 2.0 Flash para potencializar melhor as interações multimodais em tempo real.
Gemini 2.0 Flash apresenta melhorias notáveis de desempenho. O Google diz que é o dobro da velocidade de seu antecessor. Na minha experimentação, as respostas foram quase instantâneas. Eles foram notavelmente mais rápidos do que quando eu alimentei as mesmas consultas na versão 1.5 Pro. Os tempos de resposta mais rápidos fazem com que as interações pareçam naturais e fluidas. Para conversas de áudio, a latência reduzida pode reduzir atrasos e criar uma experiência mais envolvente e realista.
O Gemini 2.0 Flash pode prolongar a vida útil da bateria para processos de IA em dispositivos móveis, como o Google Pixel 9 ou outro smartphone. Isso pode significar cobranças menos frequentes, algo que todos podem apreciar.
1 UI reinventada do NotebookLM
Gemini 2.0 é acompanhado por uma reformulação da interface do NotebookLM e novos recursos
Não está no Gemini 2.0, mas os dois são lados diferentes da mesma moeda. A chegada do Gemini 2.0 marca uma iteração paralela no NotebookLM. A iteração vai além dos recursos subjacentes de IA e chega à interface do usuário. A reformulação busca tornar mais intuitiva e eficiente a interação dos usuários com suas notas e documentos. Ele se concentra em agilizar fluxos de trabalho, melhorar a navegação e fornecer um ambiente visual mais refinado.
Relacionado
Testei o NotebookLM e vi a promessa de algo ótimo
NotebookLM tem muitos problemas, mas a ideia por trás dele tem potencial
Gêmeos se move rápido e não desacelera
Gemini 2.0 tem truques interessantes para produtividade máxima. Além de reconhecer texto, também compreende imagens e sons. Esta versão promete fazer coisas por você, como usar a Pesquisa Google ou o Maps para encontrar informações ou realizar tarefas complexas. Além disso, possui uma janela de contexto maior que seu antecessor. O Google avalia o Gemini 2.0 Flash em 2 milhões de tokens, o que significa que ele retém e processa o dobro de informações que o Gemini 1.5 Pro.
Ao focar na compreensão multimodal, nos recursos de agência, nas integrações mais profundas com os aplicativos do Google e nas melhorias de desempenho, o Google está fazendo do Gemini a base de seu ecossistema. À medida que a IA convencional continua a amadurecer, 2025 será um ano interessante.