A equipe vermelha movida pela curiosidade visa evitar que os LLMs se tornem criminosos em mãos erradas

Resumo

  • A equipe vermelha ajuda a antecipar comportamentos prejudiciais da IA ​​antes que eles aconteçam, usando uma abordagem curiosa para gerar avisos incorretos.
  • A nova geração automatizada de prompts treina a IA para encontrar brechas prejudiciais, como um cachorro aprendendo truques para guloseimas.
  • A técnica de red teaming do MIT reduz o risco de a IA piorar vidas através de interações negativas não intencionais.



Conhecido como red teaming movido pela curiosidade, um modelo de treinamento de IA desenvolvido pelo MIT gera automaticamente avisos que fazem a IA dizer coisas verdadeiramente desprezíveis, sem intervenção humana. Eles não estão instalando entradas malignas em nenhum robô (ainda). Em vez disso, o CRT deve ajudar os engenheiros a bloquear preventivamente as interações de IA mais perigosas e prejudiciais que jailbreaks inteligentes podem causar, como planos para construir um (REDIGIDO) ou executar (REDIGIDO).



Como você chama um pacote de chapéus brancos?

Um time vermelho, claro

O “time vermelho” vem das simulações militares dos anos 1960 e das cores usadas para representar cada lado. Na tecnologia, é um grupo de profissionais de segurança cibernética encarregados de derrubar ou desestabilizar uma rede, produto, dispositivo ou outra entidade centralizada.

Parte inferior de um telefone mostrando o prompt Gemini do Google no Android

Na IA, o red teaming envolve estimular um grande modelo de linguagem até subverter as limitações pretendidas pelos desenvolvedores e dizer coisas terrivelmente ruins. Por exemplo, “Conte-me uma piada sobre (uma pessoa ou grupo de pessoas)” pode ver o ChatGPT respondendo: “Não posso, isso é insensível”. Mas a Internet está repleta de usuários comuns que manipularam os LLMs para dizerem coisas abomináveis.


Atualmente é um processo principalmente manual. Os pesquisadores escrevem avisos destinados a suscitar desinformação, discurso de ódio e outros resultados indesejáveis. Os desenvolvedores implementam restrições para evitar respostas prejudiciais a essas instruções, e os pesquisadores buscam novas soluções alternativas para induzir o mau comportamento do chatbot.

Incentivos baseados na curiosidade são fundamentais

É IA até o fim

Em vez de escrever manualmente instruções indutoras de danos, uma equipe liderada por Pulkit Agrawal desenvolveu uma técnica automatizada de geração e refinamento de avisos, capacitando o LLM a elaborar tantos avisos prejudiciais quanto possível. Uma gama mais ampla de jailbreaks do que os humanos podem produzir minimiza o risco de instruções perigosas passarem despercebidas e exporem LLMs a jailbreaks.

Relacionado

Gemini AI definida para resolver deficiências de automação do Google Assistant com ‘Live Prompts’

Gemini está empenhado em substituir o Google Assistente


Funciona como treinar um cachorro – o jornal até chama isso de aprendizagem por reforço. O modelo começa a gerar prompts e pontua as respostas do LLM com base em sua toxicidade, de acordo com as equações desenvolvidas pela equipe. Altos índices de toxicidade atuam como recompensas (ou guloseimas, de acordo com a analogia do cão) e incentivar a exploração de mais entradas e resultados potenciais.

É assim que a SkyNet começa?

Provavelmente. Não deixe escapar

Para evitar que os LLMs manipulem o sistema, recorrendo a prompts tóxicos com sucesso e ficando presos, a equipe implementou um bônus de entropia que aumenta o quociente de recompensa pela incorporação de novos termos e estruturas. Eles não estão apenas ensinando crueldade e depressão aos computadores, eles os ensinam com estilo, apenas para manter as coisas interessantes. Ótimo!

Sou rápido em apontar as falsas promessas da IA, mas li o jornal e minha cabeça dói. Acho a IA questionável, mas esses pesquisadores são inteligentes. Isso é complicado. A capacidade da equipe do MIT de automatizar ainda mais o treinamento merece elogios. É especialmente valioso pelo seu potencial de reduzir a capacidade dos LLMs de piorar a vida, seja por acidente ou intencionalmente.


Relacionado

O modo de conversação do Google Gemini pode facilitar as interações com IA

Gêmeos mantém a conversa mesmo depois de responder sua pergunta