A nova política do Reddit proíbe empresas de minerar seus valiosos dados de usuários

Resumo

  • O Reddit proíbe empresas de IA de extrair seus dados gratuitamente e exige acordos de licenciamento para acesso.
  • O Google foi a primeira grande empresa de tecnologia a assinar um contrato de licença de dados de US$ 60 milhões com o Reddit.
  • A nova política de dados do Reddit visa proteger a privacidade do usuário e restringir o acesso aos dados para fins comerciais.



Os dados disponíveis publicamente na Internet são a principal fonte para as empresas de IA treinarem seus grandes modelos de linguagem e chatbots como ChatGPT e Google Gemini. Depois de digitar uma consulta em um chatbot de IA, as respostas são formatadas com base nos dados já disponíveis na internet. Como os usuários regulares, esses dados estão acessíveis às empresas de IA. Acontece que esse não é mais o caso do Reddit, e a plataforma está proibindo as empresas de IA de descartar seus dados gratuitamente.


Relacionado

O que o Reforço está aprendendo com o feedback humano?

A aprendizagem por reforço tem sido um divisor de águas na inteligência artificial, permitindo que as máquinas melhorem continuamente seu desempenho

A recente mudança do Reddit segue o anúncio da empresa no ano passado sobre o licenciamento de seus dados para empresas de IA. Em fevereiro, o Google foi a primeira grande empresa de tecnologia a assinar um acordo de licença de dados com o Reddit, pagando à empresa de mídia social cerca de US$ 60 milhões por ano.

O Reddit anunciou sua nova “Política de Conteúdo Público” na quinta-feira como uma diretriz sobre como a plataforma compartilha seus dados de usuários com outras empresas (via TechCrunch). O Reddit também iniciou um subreddit dedicado a pesquisadores que trabalham com seus dados.



Reddit exige que empresas de IA assinem acordos de licença para acessar seus dados

A maior parte da receita do Reddit vem da venda de anúncios e do uso de API pelos desenvolvedores. Enquanto isso, o Reddit, agora uma empresa de capital aberto, precisa de mais fontes de receita para atrair investidores. Como a plataforma funciona como um centro de agregação de dados, ela pode ganhar dinheiro vendendo esses dados aos clientes, principalmente às empresas por trás de chatbots de IA, como Google e OpenAI. O relatório do prospecto de IPO do Reddit indicou que a plataforma faturou US$ 203 milhões com o licenciamento de seus dados até agora, e espera-se que o número cresça.

A nova Política de Conteúdo Público do Reddit

Fonte: Reddit

É importante observar que a nova política do Reddit sobre coleta de dados se destina principalmente a empresas que utilizam os dados para fins comerciais, como treinamento de chatbots de IA e grandes modelos de linguagem. Contudo, a plataforma está empenhada em manter um espaço para investigadores e entidades não comerciais. Os dados do Reddit ainda estarão disponíveis gratuitamente para esses usuários, e a empresa até criou um subreddit dedicado, r/RedditForResearchers, para atender às suas necessidades.


Embora continuemos a bloquear atores mal-intencionados conhecidos, precisamos fazer mais para restringir o acesso ao conteúdo público do Reddit em grande escala a atores confiáveis ​​que concordaram em cumprir nossas políticas. Também precisamos continuar a garantir que usuários, mods, pesquisadores e outros atores não comerciais e de boa-fé tenham acesso.

A nova política de dados do Reddit não trata apenas de restringir o acesso aos seus dados. Trata-se também de proteger a privacidade do usuário. A plataforma enfatiza que os usuários têm o direito de optar por não compartilhar seus dados com empresas de IA. Além disso, os parceiros do Reddit estão estritamente proibidos de usar indevidamente conteúdo para spam, assédio ou realizar atividades como “verificações de antecedentes, reconhecimento facial, vigilância governamental ou (para) ajudar as autoridades a realizar qualquer uma das ações acima”. Esta política foi desenvolvida para garantir que os dados do usuário sejam tratados de forma responsável e com respeito às questões de privacidade.