Estou cansado de ver meus dados sendo usados ​​para treinar IA que está ganhando dinheiro com meu conhecimento

Reddit, Slack, Google, Facebook, Instagram — essas empresas usam nossos dados — direta ou indiretamente — para treinar a próxima geração de modelos de linguagem de IA. No entanto, não me lembro de ninguém ter pedido a nossa permissão e, ao fazê-lo, estas empresas provaram o ditado de que os dados dos clientes são o seu principal produto.




Durante grande parte da geração da Internet, as empresas ofereceram produtos gratuitamente ou a baixo custo para atrair clientes para os seus ecossistemas. Produtos como Gmail, YouTube, Facebook, Reddit e outros parecem ser gratuitos, mas coletam dados do usuário que podem ser usados ​​para veicular anúncios ou até mesmo vendidos em pacotes agregados.

Embora estes modelos de negócio já tenham sido aceitáveis, o rápido avanço da IA ​​trouxe à tona uma questão muito maior e mais premente que traz implicações significativas para o futuro da nossa privacidade.


Compreendendo IA e LLMs

imagem AI


A geração atual de IAs é baseada em LLMs (grandes modelos de linguagem), que reconhecem, compreendem e geram a linguagem humana. Construídos com aprendizado de máquina, eles são treinados em enormes conjuntos de dados e podem gerar texto semelhante ao humano, reconhecer imagens, responder perguntas ou processar áudio e vídeo em tempo real.

Os LLMs compreendem três partes principais: parâmetros, pesos e tokens. Os parâmetros formam as variáveis ​​que o modelo aprende durante o processo de treinamento. Os pesos determinam a força das conexões entre as variáveis. Os tokens formam a entrada e a saída básicas, ou seja, o texto, áudio e vídeo em linguagem natural que alimentamos em um LLM e recebemos em resposta.

Vejamos um chef: um cliente pede um prato específico (o token de entrada) e o chef coloca uma série de ingredientes em uma panela para criar o prato. O prato no final é o token de saída, mas a mistura específica de ingredientes usada para prepará-lo são os parâmetros, e a receita específica representa o peso. Cada chef pode criar aquele prato (assumindo que seja muito básico), mas em graus diferentes, com base no seu conhecimento, formação e experiência.


Relacionado

O que é IA generativa?

Um agente da vontade humana, um amplificador da cognição humana. Descubra o poder da IA ​​generativa

Vamos considerar isso de alguém pedindo uma receita ao Gemini ou ao ChatGPT-4o. Um LLM só pode aprender isso com base em seu conjunto de dados. Quanto mais receitas ele ingeriu – o que equivale a mais vezes que um chef preparou o prato – mais ele pode prever como fazer um prato saboroso. O resultado é que os melhores LLMs terão as melhores recomendações, principalmente quando você dá vários ingredientes e pede uma receita.

Temos um problema iminente de IA

dados pessoais do usuário


O maior problema acima é o grande volume de dados necessários para treinar LLMs. Aqui estão alguns exemplos: OpenAI usou 1 milhão de horas de dados de vídeo do YouTube para treinar o GPT-4 (que não é o modelo mais recente; é o GPT-4o). O Google DeepMind usou aproximadamente 10 trilhões de palavras extraídas da web para treinar seu modelo Gemini. A Meta usou as imagens, vídeos e textos que você carrega em suas plataformas para treinar seus modelos generativos de IA.

No entanto, não termina aí: o Google pagou ao Reddit US$ 60 milhões para roubar todo o Reddit por sua IA. Isso rapidamente se transformou no Reddit, sendo uma das principais fontes para o recurso AI Overviews. No entanto, em detrimento do Google, a IA perdeu estrondosamente na batalha da IA ​​contra os usuários humanos da Internet. Basta perguntar a qualquer pessoa que esteja pesquisando pizza de cola no Google ou como comer pedras.

Esse dinheiro foi para o Reddit e provavelmente surgiu porque muitos dos termos de pesquisa mais populares são frequentemente seguidos pela palavra Reddit enquanto os usuários procuram a resposta humana. No entanto, nenhum dos milhões de usuários do Reddit verá esse dinheiro, o que é especialmente estranho, visto que são aqueles usuários que trabalharam de graça para construir uma plataforma que o Reddit possa monetizar e capitalizar.


Relacionado

Os cinco maiores anúncios de I/O do Google: Círculo para pesquisa, mudanças na pesquisa e muita IA

Este não é o Google do seu pai

Reddit é apenas um exemplo de empresas que exploram os dados de seus usuários. Meta possui as maiores plataformas do mundo: Facebook, Instagram e WhatsApp. Elon Musk está treinando GrokAI da X AI no Twitter, uma das maiores fontes de informação em tempo real. Nenhuma dessas empresas está pagando aos usuários por isso, e muitas também incentivam os usuários a se inscreverem em assinaturas, o que significa que os usuários estão pagando para fornecer seus dados a essas empresas, mas nenhuma dessas assinaturas permite que você opte por não usar seus dados.

Você poderia argumentar que todas essas plataformas são gratuitas e seus dados são válidos. Concordo até certo ponto quando você não está pagando pela plataforma, mas e quando você está pagando e ainda é o produto?


É aqui que devemos traçar o limite. A inspiração por trás deste post? O Slack – um serviço focado nos negócios que requer uma assinatura paga para muitos de seus principais recursos – está treinando sua IA usando dados da empresa, muitos dos quais provavelmente são bastante confidenciais.

Quando é suficiente?

Meta e logotipo do Google dispostos em uma composição

Isto leva a uma outra questão: quando devemos dizer “Basta”? Já vimos o Google Gemini criar um companheiro de equipe de IA; embora criado sob o pretexto de reduzir o atrito e a comunicação entre diferentes equipes, é fácil imaginá-lo evoluindo para substituir empregos de tempo integral. As visões gerais de IA do Google também estão destruindo o papel dos jornalistas e verificadores de fatos, embora, como sugere uma ação judicial movida por muitos editores, isso tenha começado há muito tempo com outras práticas comerciais do Google.


Empresas que usam nossos dados em benefício próprio, sem compensar os usuários, não são novidade. Lou Montulli criou o cookie digital em 1994 e, em um ano, anúncios direcionados a dados demográficos específicos do consumidor tornaram-se a norma. Durante mais de duas décadas, a privacidade digital do cliente não foi uma prioridade e, sem o GDPR (uma decisão da UE em 2018), provavelmente ainda não teríamos noção de privacidade. Em vez disso, agora temos empresas que monetizam os dados dos usuários, ingerindo tudo o que você já postou na web para treinar sua IA.

A IA transformará inevitavelmente as nossas vidas digitais, não necessariamente no bom sentido. Embora empresas como a OpenAI tenham fechado acordos com grandes editoras (com grandes orçamentos) como a Vox Media, a maioria das pessoas não se beneficiará. Em vez disso, os usuários comuns ainda serão o produto. A solução parece simples: encontrar uma forma de compensar os usuários. Dado que Google, Meta e outros ameaçaram parar de servir conteúdo em estados e países específicos para evitar pagar aos editores, há pouca ou nenhuma hipótese de as empresas pagarem aos utilizadores pelos seus dados. Portanto, se não vamos ser reembolsados ​​pelo nosso conhecimento que está a ser usado por estas corporações multinacionais para lucrar tanto, então, como afirma o título deste artigo, as empresas precisam de parar de usar os nossos dados pessoais para treinar IA. Porque se continuarmos no caminho atual, os únicos que restarão para produzir o conteúdo/dados gratuitos que consumimos serão as próprias corporações que roubaram os nossos.