Google explica o que deu errado com os recursos de geração de imagens do Gemini

Resumo

  • O Google Gemini pausou recentemente alguns aspectos da geração de imagens devido a resultados imprecisos causados ​​pelo comportamento instável do modelo.
  • A empresa agora admite que as capacidades de geração de imagens do Gemini “erraram o alvo” nas primeiras semanas, prometendo fazer melhor no futuro.
  • Os usuários do Google Gemini ainda podem gerar imagens de animais e objetos inanimados com um simples comando.



O Google Gemini tem sido o assunto da cidade desde o início deste mês, quando se livrou da marca Bard e também substituiu o Assistant em dispositivos Android. Mas apesar do início de mês promissor, as coisas parecem ter despencado para o Google, principalmente no que diz respeito à geração de imagens. Depois de comentários crescentes de usuários sobre a tendência do Gemini de gerar imagens imprecisas de pessoas na última semana, o Google decidiu pausar esse recurso até novo aviso esta semana. A empresa agora está explicando o que deu errado e o que planeja fazer no futuro.


O vice-presidente sênior da divisão de Conhecimento e Informação do Google, Prabhakar Raghavan, escreveu uma postagem no blog detalhando o problema em questão, ao mesmo tempo que reconheceu que os recursos de geração de imagens do Gemini “erraram o alvo”. Aqui está o que Raghavan tinha a dizer sobre as razões por trás do problema:

Primeiro, nosso ajuste para garantir que Gêmeos mostrasse uma gama de pessoas não levou em conta os casos que claramente não deveriam mostrar uma gama. E em segundo lugar, com o tempo, o modelo tornou-se muito mais cauteloso do que pretendíamos e recusou-se a responder inteiramente a certas solicitações – interpretando erroneamente algumas solicitações muito anódinas como sensíveis.

Uma combinação dessas duas questões críticas, diz Raghavan, fez com que Gêmeos compensasse demais em algumas áreas e fosse excessivamente conservador em outras solicitações, resultando em imagens “embaraçosas e erradas”. Embora a empresa explique detalhadamente as inadequações do Gemini – mais especificamente, Imagen 2, que é usado pelo chatbot para geração de imagens – não há menção explícita de quando esse recurso estaria de volta ao chatbot.


Por enquanto, a postagem do blog diz que o Google trabalhará para melhorar a geração de imagens com as pessoas “significativamente” antes de trazê-la de volta ao Gemini. Portanto, ninguém sabe quanto tempo isso levará, mas é seguro dizer que o Google Gemini não será capaz de gerar imagens de pessoas tão cedo. Para crédito da empresa, ela sempre afirmou que os LLMs (grandes modelos de linguagem) podem errar em algumas coisas, referindo-se ao que é amplamente conhecido na indústria como alucinações. Para encerrar, Raghavan diz que o Google fará o possível para fornecer IA “com segurança e responsabilidade” aos seus usuários.

Gêmeos ainda pode gerar imagens de animais, mas não quando há pessoas envolvidas


Porém, nem todos os tipos de recursos de geração de imagens saíram do Gemini, e os usuários ainda podem gerar fotos de animais e objetos inanimados. Mas você não pode obter imagens de pessoas mesmo com uma consulta genérica como “gerar a imagem de uma pessoa passeando com um cachorro.“Mas se a sua solicitação não contém pessoas, como no exemplo acima, a Gemini fica mais do que feliz em gerar algumas imagens decentes.