O que é o Google Gêmeos?

Você deve ter notado que a OpenAI, criadora da tecnologia ChaptGPT, está passando por alguma turbulência com demissões e reatribuições massivas, principalmente com seu CEO Sam Altman saindo para um emprego potencial na Microsoft e retornando com um conselho totalmente novo. É uma loucura lá. Você pode ter também notei que o Google tem feito grandes avanços na IA voltada para empresas e consumidores no ano passado, com a atualização massiva do LLM (modelo de linguagem grande) PaLM 2, lançando o Google Bard e solidificando geralmente seus serviços de IA em plataformas coesas.

Junte tudo isso e não é nenhuma surpresa que o Google tenha aproveitado esta oportunidade para lançar uma IA generativa de marca (também conhecida como, faz coisas), esta chamada Google Gemini. É novo, é divertido, é meio estranho: aqui está o que você deve saber sobre a IA do Google Gemini.

O que é o Google Gêmeos?

Apresentação do Google com ilustração azul mostrando as três versões do Gemini e sua complexidade.

Google Gemini é um novo conjunto de serviços generativos de IA que o Google está lançando, especificamente para empresas interessadas em expandir seus serviços de IA. É uma família de modelos de IA multimodais (falaremos mais sobre isso a seguir) criada pelo projeto Google DeepMind.

O Google Gemini é atualmente muito novo. O Google adicionou uma versão ajustada em inglês do Gemini Pro ao Google Bard em dezembro de 2023. Apesar do nome, o Google descreve o Gemini Pro como a versão “leve” do modelo de IA, embora nos pareça mais com a versão padrão. A família também inclui Gemini Ultra, a IA premium que o Google deseja que seja o carro-chefe do pacote.

Gemini Nano completa o trio. Nano é a versão compatível com dispositivos móveis do modelo de linguagem grande que será lançado no Google Pixel 8 Pro com o lançamento de recursos de dezembro. Ele permite o processamento no dispositivo e eventualmente chegará a outros telefones Android.

O Google Gemini é um chatbot? Ele pode criar conteúdo?

A apresentação do Google deve apresentar as especialidades Gemini AI contra um fundo escuro.

O Gemini certamente pode criar conteúdo, mas o Gemini é muito mais ambicioso do que um chatbot, e isso requer alguma explicação.

Gemini é tecnicamente um LLM ou modelo de linguagem grande, o que significa que é uma estrutura de aprendizado de máquina que é ensinada despejando um monte de coisas humanas (conteúdo online, geralmente) e ajudando-o a criar regras para entender esse conteúdo. Faça isso o suficiente e os LLMs poderão processar dados de linguagem o suficiente para montar suas próprias frases e imitar certos estilos, como vemos ChatGPT e Bard fazendo – como solucionadores de quebra-cabeças especializados criando maneiras matemáticas de “resolver” a fala humana. Quanto mais eles aprendem, melhor podem chegar nisso.

A maioria dos LLMs se especializa em apenas algumas coisas, como fala ou imagens. Isso ajuda a mantê-los concentrados e reduz os enormes recursos que tendem a exigir. O Google é particularmente hábil na criação de modelos de IA eficientes que são profundamente treinados em uma gama mais limitada de conteúdo, o que contrasta com o sistema da OpenAI de lançar quase tudo o que pode na IA.

No entanto, o Gemini parece ser diferente do LLM habitual, porque foi treinado como multimodal desde o início. Multimodal significa apenas que a IA pode aprender e criar todos os tipos de conteúdo, não apenas uma “linguagem”. Gemini pode lidar com fala, correspondência, problemas de raciocínio, código, imagens (incluindo emojis), vídeo, áudio e muito mais. É como o polímata ou Homem da Renascença do mundo LLM.

Como você pode ver em nossos exemplos de imagens, isso parece tornar o Gemini muito bom em entender o contexto e interpretar essas informações corretamente para os usuários, independentemente do assunto.

Gêmeos reconhecendo um vídeo de gato e comentando o que está acontecendo com um trocadilho de gato.

Com base nos dados que temos, Gemini parece ser muito bom no que faz…dentro do escopo. Ele obteve 90% no teste Massive Multitask Language Understanding (MMLU), que é melhor do que a maioria dos especialistas em linguagem humana e está em linha com o desempenho anterior do Google. O Google também afirma que o Gemini supera os modelos de IA existentes em 30 dos 32 testes acadêmicos usados para pontuar LLMs. No entanto, outros relatórios também dizem que, embora o Gemini Pro possa vencer o GPT-3.5 (que alimentou grande parte do conteúdo do ChatGPT que vimos este ano), mas é derrotado pelo GPT-4 mais recente, enquanto o Gemini Ultra vence o GPT-4 por pouco. É, uhh, um campo muito competitivo agora.

No entanto, nenhuma IA atualmente no mercado é tão multimodal como a Gemini, o que significa que as empresas que utilizam esta IA treinada podem adaptá-la a quase tudo. Isto tem um valor especial para as empresas, que podem querer personalizar os serviços de IA para fazer qualquer coisa, desde reconhecer bolsas falsificadas até imitar um tio sueco prestativo numa conversa de atendimento ao cliente. O Google também menciona algumas outras possibilidades, como:

Explicando problemas de física aos alunos
Processando áudio bruto para procurar determinados sinais
Analisando a intenção do usuário de criar kits e pacotes personalizáveis para uma pessoa
Ajudar os cientistas a identificar links em pesquisas publicadas que eles teriam perdido
Ganhar todos os concursos competitivos de programação permitidos no

O Google Gemini é diferente do Google Bard?

Google Gemini mostrado reconhecendo que um pequeno desenho é um pássaro na água.

Na verdade. Bardo era uma tentativa muito anterior de IA voltada para o consumidor (lembre-se, no contexto desses LLMs de IA do início de 2020, mesmo vários meses podem ser muito tempo). Mas com o lançamento do Gemini, o Google está atualizando o Google Bard com a tecnologia Gemini Pro, então todos esses benefícios agora fazem parte do Bard. É claro que as ferramentas de Bard são muito mais limitadas do que Gêmeos é capaz, mas Bard é melhor visto como parte de Gêmeos agora.

Como tudo isso se relaciona com o PaLM 2?

É complicado e não temos uma boa visão dos bastidores. O PaLM 2 foi uma grande atualização do modelo LLM focado no idioma do Google, feito no início de 2023. O PaLM 2 é excelente em tarefas linguísticas, como tradução, e embora o Google tenha feito módulos PaLM 2 que lidam com outras coisas, como leitura de exames médicos, não é tão nativamente multimodal como Gêmeos. No entanto, fornece serviços leves de IA para empresas que desejam construir suas próprias IAs, aproveitando o trabalho que o Google já fez, usando a plataforma Google Vertex, na qual Gemini também está presente.

Gemini e PaLM 2 não parecem ser concorrentes em nenhum sentido, pelo menos não agora. O Google DeepMind, formado a partir da fusão dos dois projetos anteriores Brain Team e DeepMind, é responsável por ambos. Parece provável que os dois estejam se alimentando em algum nível. Mas, por enquanto, o Google ainda se refere a eles como dois modelos de IA separados com focos diferentes.

Onde posso encontrar o Google Gemini?

Gêmeos reconhece desenhos de planetas e corrige sua ordem.

Visite a página da DeepMind para Gemini e procure uma opção de inscrição para saber mais ou uma opção de login para sua conta de desenvolvedor para que você possa começar a usar o kit Gemini Pro API. Depois, você pode começar a incorporar os serviços Gemini em seus aplicativos e adaptar modelos Gemini específicos às suas necessidades. Apenas Gemini Pro estará disponível em 13 de dezembro de 2023, com as demais versões posteriormente.

Lembre-se de que o Gemini foi projetado apenas para uso organizacional e de desenvolvedores, principalmente por meio da plataforma Vertex. É para empresas que desejam soluções de IA personalizadas, que ofereceriam aos clientes por meio de seus próprios aplicativos e sites. Se você, como consumidor, deseja experimentar o Gemini, sua melhor aposta é o Google Bard ou serviços relacionados do Google.

Quanto custa usar o Google Gemini?

Os preços específicos do Gemini são difíceis de analisar no momento. Sugerimos dar uma olhada no Google Vertex e seus preços para todos os serviços generativos de IA, que variam de acordo com o tipo de conteúdo e o serviço específico no qual uma empresa está interessada.

O Google Gemini é seguro?

DeepMind afirma que o Gemini foi treinado com a segurança em mente e será implantado de forma responsável. O Google é muito vago sobre o que isso implica, mas provavelmente significa que Gemini não será capaz de fazer nada muito perverso, invasivo ou ilegal.

Deixada praticamente intocada é a questão de como a Gemini está consumindo nosso conteúdo, trabalho proprietário e conversas… bem como como isso poderia ser usado para obter empregos, ganhar dinheiro de maneiras antiéticas ou explorar grupos vulneráveis. Essas são questões levantadas sobre todos os LLMs e, atualmente, temos muito mais perguntas do que respostas.

Gêmeos agora está no quadro: continue acompanhando o Google

O Google continua a refinar seus modelos de IA e a apresentá-los como uma forma de se posicionar como a fonte de referência para o desenvolvimento profissional de IA, algo que a empresa está trabalhando diante da forte concorrência de fontes como OpenAI. Gemini é uma entrada ambiciosa que foi treinada para fazer um pouco de tudo, o que o torna um dos modelos mais capazes até agora. Espere que o Gemini seja incorporado a todos os tipos de serviços do Google no próximo ano, o que continuará sendo um momento fascinante para toda a IA. Para saber um pouco mais, dê uma olhada em nosso artigo sobre LLMs.