A nova política do Google instrui os verificadores de fatos da Gemini a agir fora de sua experiência

Resumo

  • O Google emprega agências de pesquisa contratadas para avaliar a precisão das respostas do Gemini.
  • Os contratados da GlobalLogic que avaliam os prompts do Gemini não podem mais pular interações individuais com base na falta de experiência.
  • Existem preocupações sobre a dependência do Google de verificadores de fatos sem conhecimento relevante, potencialmente impactando os objetivos de desenvolvimento de IA.




O Google Deepmind, equipe responsável pelo desenvolvimento e manutenção dos modelos de IA do conglomerado, emprega diversas técnicas para avaliar e melhorar a produção do Gemini. Um desses métodos, o recentemente anunciado benchmark FACTS Grounding do Gemini 2.0, aproveita as respostas de outros LLMs avançados para determinar se as respostas do Gemini realmente se relacionam a uma pergunta, respondem à pergunta e respondem à pergunta corretamente.

Outro método exige que prestadores de serviços humanos da GlobalLogic, de propriedade da Hitachi, avaliem as respostas imediatas do Gemini e as classifiquem quanto à correção. Até recentemente, os empreiteiros podiam ignorar avisos individuais que estivessem significativamente fora das suas áreas de especialização. Agora, o Google determinou que os empreiteiros não podem mais ignorar as solicitações, forçando-os a determinar a precisão em assuntos sobre os quais talvez nada saibam (relatório do TechCrunch).


Relacionado

Gemini AI no Gmail precisa ser incrivelmente preciso para que eu possa confiar nele

A empresa que está piorando os resultados da pesquisa quer que você confie seus e-mails


A verificação prática de erros do LLM deu errado

Os verificadores de fatos estão confusos?

uma imagem de IA de graffiti em uma parede de tijolos pretos dizendo que esta imagem foi gerada por IA com erros

Fonte: Google Gêmeos

Anteriormente, os contratantes da GlobalData podiam ignorar solicitações individuais que não se sentiam confortáveis ​​em responder devido à falta de conhecimento prévio, com diretrizes afirmando: “Se você não tiver conhecimentos críticos (por exemplo, codificação, matemática) para avaliar esta solicitação, ignore esta tarefa”. De acordo com fontes que permanecem anônimas devido a acordos de sigilo, a nova diretriz transmitida pelo Google afirma: “Você não deve pular solicitações que exijam conhecimento especializado de domínio”.


Acompanhando a nova política está uma instrução para “avaliar as partes da solicitação que você entende” e anotar que ela está fora da base de conhecimento do revisor. A opção de ignorar determinados avisos devido à falta de conhecimentos relevantes foi eliminada, e os contratantes agora só podem ignorar interações individuais devido a avisos ou respostas inexistentes ou à presença de conteúdo prejudicial que o contratante não está autorizado a avaliar.

Relacionado

Como usar o Explorador de verificação de fatos do Google

A desinformação prevalece, mas há uma solução

O que sabemos sobre a avaliação da GlobalLogic AI

Existe um número considerável e flutuante de vagas abertas relacionadas à verificação de fatos de IA em plataformas de emprego como Upworthy e Even, oferecendo algo a partir de US$ 14 por hora para avaliar o desempenho da IA. Vários recrutadores contactaram os candidatos a emprego, aparentemente em nome da GlobalLogic, em busca de trabalhadores para preencher potenciais cargos de contrato de contratação.


Muitos usuários de mídia social relatam o processo de entrevista ofuscado da empresa e o processo de integração demorado e “estressante”, ao mesmo tempo em que confirmam o Google como cliente da GlobalData. Alguns usuários de mídia social que afirmam trabalhar atualmente no projeto verificaram as alegações de dificuldades, bem como um salário inicial em torno de US$ 21 por hora e o potencial incomum, mas real, de contratação direta.

Relacionado

O que o Reforço está aprendendo com o feedback humano?

A aprendizagem por reforço tem sido um divisor de águas na inteligência artificial, permitindo que as máquinas melhorem continuamente seu desempenho

O que a verificação de fatos com baixo nível de experiência significa para Gêmeos

Talvez nada, e possivelmente nada de bom

uma mulher com falha na imagem de IA vestindo roupas brancas em uma praia ensolarada em uma pose não natural

Fonte: Adobe Firefly


Previsivelmente, os detalhes do contrato, do fluxo de trabalho e da aplicação de dados permanecem rigorosamente bloqueados. Empregar pessoas reais para avaliar respostas imediatas individuais parece uma escolha lógica. Processos complexos de recrutamento e contratação, necessidades e diretrizes pouco claras dos clientes durante a integração e técnicas de gerenciamento inconsistentes sempre cercaram trabalhos de contratação terceirizada em grande escala. Nada ali levanta sinais de alerta inesperados, e os atuais (reivindicados) contratantes da GlobalData observam que muitos de seus trabalhadores possuem diplomas técnicos e de alto nível.

A preocupação decorre da aparente mudança do Google em permitir que avaliadores reconhecidamente desinformados contornem perguntas que não conseguem responder. Se uma nota indicando falta de experiência acompanhar a avaliação de um contratante, o Google poderia, teoricamente, desconsiderar a avaliação e devolver a interação ao pool para nova inspeção. Não temos como saber no momento como o Google trata esses dados.


Relacionado

O que são alucinações de IA?

As alucinações de IA oferecem informações falsas como fatos: é assim que esse problema acontece

Como a verificação de erros não especializada promove os objetivos de IA do Google?

A preocupação óbvia continua a ser a de que a nova directiva implica uma dependência cada vez menor por parte da Google de especialistas qualificados, ou mesmo de autodidatas confiantes e autoconscientes. O TechCrunch, que originalmente recebeu as reivindicações vazadas, observou que um empreiteiro explicou: “Achei que o objetivo de pular era aumentar a precisão, entregando-o a alguém melhor”.

Talvez a Google esteja simplesmente a simplificar o seu processo de recolha de dados e pretenda descartar, ignorar ou esclarecer avaliações potencialmente imprecisas. Ou, talvez, tenha sido decidido que a verificação de fatos do Gemini e o desenvolvimento adicional para precisão e anti-alucinações não exigem, necessariamente, experiência relevante ao avaliar se as respostas de um LLM fazem algum sentido.


Relacionado

Gemini AI no Gmail precisa ser incrivelmente preciso para que eu possa confiar nele

A empresa que está piorando os resultados da pesquisa quer que você confie seus e-mails