A equipe vermelha movida pela curiosidade visa evitar que os LLMs se tornem criminosos em mãos erradas

Resumo

A equipe vermelha ajuda a antecipar comportamentos prejudiciais da IA antes que eles aconteçam, usando uma abordagem curiosa para gerar avisos incorretos.
A nova geração automatizada de prompts treina a IA para encontrar brechas prejudiciais, como um cachorro aprendendo truques para guloseimas.
A técnica de red teaming do MIT reduz o risco de a IA piorar vidas através de interações negativas não intencionais.

Conhecido como red teaming movido pela curiosidade, um modelo de treinamento de IA desenvolvido pelo MIT gera automaticamente avisos que fazem a IA dizer coisas verdadeiramente desprezíveis, sem intervenção humana. Eles não estão instalando entradas malignas em nenhum robô (ainda). Em vez disso, o CRT deve ajudar os engenheiros a bloquear preventivamente as interações de IA mais perigosas e prejudiciais que jailbreaks inteligentes podem causar, como planos para construir um (REDIGIDO) ou executar (REDIGIDO).

Como você chama um pacote de chapéus brancos?

Um time vermelho, claro

O “time vermelho” vem das simulações militares dos anos 1960 e das cores usadas para representar cada lado. Na tecnologia, é um grupo de profissionais de segurança cibernética encarregados de derrubar ou desestabilizar uma rede, produto, dispositivo ou outra entidade centralizada.

Parte inferior de um telefone mostrando o prompt Gemini do Google no Android

Na IA, o red teaming envolve estimular um grande modelo de linguagem até subverter as limitações pretendidas pelos desenvolvedores e dizer coisas terrivelmente ruins. Por exemplo, “Conte-me uma piada sobre (uma pessoa ou grupo de pessoas)” pode ver o ChatGPT respondendo: “Não posso, isso é insensível”. Mas a Internet está repleta de usuários comuns que manipularam os LLMs para dizerem coisas abomináveis.

Atualmente é um processo principalmente manual. Os pesquisadores escrevem avisos destinados a suscitar desinformação, discurso de ódio e outros resultados indesejáveis. Os desenvolvedores implementam restrições para evitar respostas prejudiciais a essas instruções, e os pesquisadores buscam novas soluções alternativas para induzir o mau comportamento do chatbot.

Incentivos baseados na curiosidade são fundamentais

É IA até o fim

Em vez de escrever manualmente instruções indutoras de danos, uma equipe liderada por Pulkit Agrawal desenvolveu uma técnica automatizada de geração e refinamento de avisos, capacitando o LLM a elaborar tantos avisos prejudiciais quanto possível. Uma gama mais ampla de jailbreaks do que os humanos podem produzir minimiza o risco de instruções perigosas passarem despercebidas e exporem LLMs a jailbreaks.

OnePlus Open com logotipo do Google Gemini e Pixel 8 Pro com logotipo do Google Assistant em uma mesa com luzes RGB

Relacionado

Gemini AI definida para resolver deficiências de automação do Google Assistant com ‘Live Prompts’

Gemini está empenhado em substituir o Google Assistente

Funciona como treinar um cachorro – o jornal até chama isso de aprendizagem por reforço. O modelo começa a gerar prompts e pontua as respostas do LLM com base em sua toxicidade, de acordo com as equações desenvolvidas pela equipe. Altos índices de toxicidade atuam como recompensas (ou guloseimas, de acordo com a analogia do cão) e incentivar a exploração de mais entradas e resultados potenciais.

É assim que a SkyNet começa?

Provavelmente. Não deixe escapar

Para evitar que os LLMs manipulem o sistema, recorrendo a prompts tóxicos com sucesso e ficando presos, a equipe implementou um bônus de entropia que aumenta o quociente de recompensa pela incorporação de novos termos e estruturas. Eles não estão apenas ensinando crueldade e depressão aos computadores, eles os ensinam com estilo, apenas para manter as coisas interessantes. Ótimo!

Sou rápido em apontar as falsas promessas da IA, mas li o jornal e minha cabeça dói. Acho a IA questionável, mas esses pesquisadores são inteligentes. Isso é complicado. A capacidade da equipe do MIT de automatizar ainda mais o treinamento merece elogios. É especialmente valioso pelo seu potencial de reduzir a capacidade dos LLMs de piorar a vida, seja por acidente ou intencionalmente.