O vídeo de demonstração do Google Gemini não é tão impressionante quanto parece

Resumo

  • O impressionante vídeo de demonstração do Google para seu modelo Gemini AI pode não ser tão verdadeiro quanto parece, pois não representa com precisão os prompts usados.
  • As instruções da IA ​​​​não eram na verdade vídeo ao vivo e narração, mas uma combinação de capturas de tela do referido vídeo e instruções textuais.
  • Esta discrepância no vídeo de demonstração levanta questões sobre as capacidades reais do modelo Gemini AI, e os usuários podem ter que experimentá-lo para fazer uma comparação justa com a tecnologia rival da OpenAI.


Material de marketing, comunicados à imprensa e outros vídeos de marcas que demonstram seus produtos em ação geralmente são melhor vistos com uma pitada de sal. Isso também vale para criações de grandes empresas de tecnologia como Google, Microsoft e Amazon. A empresa fez grandes avanços em IA este ano, sendo o modelo de IA multimodal Gemini a mais recente adição ao portfólio da empresa. No entanto, o vídeo prático que o Google compartilhou sobre esta tecnologia pode não ser tão verdadeiro quanto o Google quer que você acredite.

No início desta semana, o Google lançou o Gemini depois de nos manter em suspense desde o anúncio inicial em janeiro deste ano. Este modelo generativo de IA é a resposta do Google ao mais recente modelo GPT-4 da OpenAI. A solução do Google está disponível em vários “tamanhos” – Ultra, Pro e Nano. O Google diz que este último é pequeno o suficiente para ser executado localmente no novo Pixel 8 Pro. A principal diferença entre o Gemini e o modelo de IA usado, digamos, pelo Google Bard, é que o primeiro pode aceitar solicitações multimodais. Portanto, você pode esperar respostas a prompts que combinam imagens, texto, áudio e vídeo.

O Google postou este vídeo de demonstração impressionante no YouTube quando anunciou o lançamento do Gemini do nada. O vídeo demonstra vários exemplos em que a IA aceita avisos multimodais que vemos na visualização de cima para baixo no lado esquerdo, auxiliados pela narração. A IA também parece rápida e responsiva, ao contrário do Bard e de outros modelos que fazem você esperar alguns segundos pelas respostas mais simples. Para crédito do Google, um aviso na descrição do vídeo afirma que “a latência foi reduzida e as saídas do Gemini foram encurtadas”.

No entanto, a Bloomberg descobriu uma postagem no blog do Google para desenvolvedores explicando discretamente como o Gemini não foi estimulado pelo vídeo ao vivo e pela narração que vimos, mas por uma combinação de capturas de tela do vídeo e instruções textuais (via TechCrunch). Por exemplo, um dos exemplos do vídeo pedia a Gêmeos que determinasse se os post-its representando o Sol, Saturno e a Terra foram mencionados na ordem correta. A narração no vídeo perguntava apenas “Esta é a ordem certa”, mas a mensagem de texto dos bastidores era muito mais detalhada:

Esta é a ordem certa? Considere a distância do sol e explique seu raciocínio.

O contexto adicional fornecido nos bastidores ajudou a IA, mas é uma deturpação direta da correlação onipresente entre a complexidade imediata e o nível de detalhe da resposta. O Google também está substituindo descaradamente a entrada de texto por voz nesta demonstração, e isso não ajuda em nada. A demonstração de pedra, papel e tesoura em vídeo é outro exemplo em que o vídeo prático sugere que um videoclipe silencioso e intuitivo é rápido o suficiente para Gêmeos. No entanto, a mensagem real consiste em três imagens diferentes de uma mão e uma dica óbvia: “É um jogo”.

Tecnicamente, as instruções ainda são multimodais, mas esta revelação torna imediatamente aparente como o vídeo prático do Gemini não foi realmente prático e pode estabelecer uma grande expectativa sobre como a IA funcionará. O Google nem mesmo esconde a discrepância, com seu vice-presidente de pesquisa e líder de aprendizado profundo da DeepMind, Oriol Vinyals, compartilhando a informação exata fluxo de trabalho e vídeo no X (anteriormente Twitter). Além disso, a empresa não informou qual versão do Gemini foi utilizada na demonstração.

O Google não é nenhum santo em manter padrões rigorosos para demonstração e testes de seus produtos. Podemos ser obrigados a testar as capacidades do Gemini em primeira mão antes de decidir como ele se compara à tecnologia rival da OpenAI.