IA

Novo Protocolo de Licenciamento de Dados AI do Co-Criador do RSS

Image Credits:fatido / Getty Images

O Novo Sistema de Licenciamento de Dados para IA: Uma Nova Esperança?

Recentemente, o mundo da inteligência artificial (IA) passou por uma reviravolta importante graças a um evento significativo: a resolução de um litígio que envolveu a empresa Anthropic, que culminou em um acordo de US$ 1,5 bilhão relacionado a direitos autorais. Esse desfecho trouxe à tona um problema de longa data na indústria de IA que raramente ganha atenção: a questão dos dados utilizados para treinar esses algoritmos.

O Que Está Acontecendo com os Dados de Treinamento da IA?

Em termos simples, o que acontece é que muitas empresas de IA têm usado dados coletados de várias fontes da web para treinar seus modelos. Isso pode incluir textos, imagens e outros tipos de conteúdo que pertencem a criadores e publicadores. Sem um sistema de licenciamento claro, fica difícil para as empresas de IA e os criadores de conteúdo encontrarem um meio-termo. Isso pode levar a um cenário onde os criadores não são compensados pelo uso do seu trabalho, e, pior ainda, surgem processos judiciais em massa.

Atualmente, existem pelo menos 40 casos de litígios relacionados a dados não licenciados. Um deles involve a empresa Midjourney, que está sendo processada por criar imagens do Superman sem permissão. Sem um sistema eficaz de licenciamento, há preocupações de que a indústria de IA possa sofrer um retrocesso significativo.

Um Passo em Direção à Solução: O Real Simple Licensing (RSL)

Em resposta a essa crise, um grupo de tecnólogos e publicadores da web lançou um novo sistema chamado Real Simple Licensing (RSL). O objetivo do RSL é criar um sistema de licenciamento de dados que possa funcionar em larga escala. A ideia é que, se as empresas de IA aceitarem participar desse sistema, todos sairiam ganhando.

O co-fundador do RSL, Eckart Walther, que também ajudou a criar o padrão RSS, afirmou que "precisamos ter acordos de licenciamento legíveis por máquinas para a internet, e isso é exatamente o que o RSL resolve". Essa frase resume bem a ambição por trás desse projeto: um sistema que é fácil de usar e pode ser implementado em toda a rede.

Como O RSL Funciona?

O RSL oferece uma estrutura técnica e legal que potencialmente transforma o modo como os dados são licenciados na internet. Na parte técnica, o protocolo do RSL define termos específicos que um publicador pode estabelecer para seu conteúdo. Por exemplo, as empresas de IA podem ter que obter uma licença personalizada ou optar por usar as provisões do Creative Commons.

Participantes da rede, como Reddit, Quora e Yahoo, já estão a bordo e incluem as condições de licenciamento em um arquivo chamado "robots.txt". Isso permite que as empresas de IA identifiquem facilmente quais dados estão sujeitos a quais termos.

No lado legal, foi criada uma organização de licenciamento coletivo, conhecida como RSL Collective, que ajudará a negociar termos e coletar royalties. Isso é similar ao que organizações como a ASCAP fazem para músicos, oferecendo um ponto único de contato para que os criadores sejam pagos.

Os Benefícios do RSL para Criação de Conteúdo

Várias editoras na web já aderiram ao RSL Collective, incluindo empresas poderosas como Yahoo, Reddit, Medium, Ziff Davis e outras. Isso significa que agora há uma possibilidade real de que os criadores de conteúdo possam ser compensados de forma justa por seu trabalho, o que é algo que muitos têm aguardado durante muito tempo.

Um dos casos mais notáveis é o Reddit, que atualmente recebe anualmente cerca de US$ 60 milhões do Google pelo uso de seus dados de treinamento. Com o RSL, as empresas menores que não têm a mesma influência ou poder de negociação também terão uma chance de receber compensação justa, até mesmo através de termos coletivos.

Os Desafios do Novo Sistema

Apesar da proposta inovadora, a implementação do RSL não será uma tarefa fácil. Uma das maiores dificuldades está em entender quando um dado foi efetivamente usado para treinar um modelo de IA. Por exemplo, para um produto como o Google Search, que usa dados em tempo real, é mais fácil identificar e atribuir o crédito. Contudo, em modelos de linguagem de aprendizado profundo, não é tão simples.

Se o treinamento de um modelo não é documentado, pode ser quase impossível determinar se um determinado documento foi realmente utilizado. Isso se torna ainda mais complicado se os criadores pedirem para ser pagos a cada uso, ao invés de receberem uma taxa única.

No entanto, os criadores do RSL estão confiantes de que as empresas de IA podem superar esses obstáculos. O co-fundador Doug Leeds, ex-CEO da IAC Publishing, comenta que "alguns dos acordos de licenciamento que já foram feitos exigiram que as empresas pudessem reportar isso, então é possível". A esperança é que, mesmo que o sistema não seja perfeito, ele seja "bom o suficiente" para garantir que os criadores sejam pagos.

O Futuro da Indústria de IA e o Papel dos Criadores

A pergunta mais complexa que resta é se as empresas de IA aceitarão e adotarão este novo sistema. Enquanto algumas startups de IA, como ScaleAI e Mercor, estão dispostas a pagar por dados, a web tem sido tradicionalmente vista como uma fonte de dados baratos. Dada a disponibilidade de conjuntos de dados como o Common Crawl, pode ser um desafio fazer com que as empresas comecem a pagar por coisas que antes obtinham gratuitamente.

Recentemente, líderes da indústria de IA expressaram a necessidade de um sistema como o RSL, o que traz esperanças de que talvez haja uma mudança de mentalidade. "Eles disseram publicamente que algo assim precisa existir", revelou Leeds. "Precisamos de um protocolo. Precisamos de um sistema."

Essa é uma chamada clara para ação. O mundo da inteligência artificial está em um ponto de inflexão, e o RSL pode ser a solução que todos esperavam. Se a indústria conseguir se unir e abraçar o licenciamento de dados, poderemos ver um futuro em que tanto as empresas de IA quanto os criadores de conteúdo possam prosperar juntos, em vez de lutarem em um campo de batalha legal.

Conclusão

O Real Simple Licensing representa uma esperança renovada para o setor de IA e os criadores de conteúdo. Ao abordar a complexa questão dos direitos autorais e do licenciamento de dados, o RSL tem o potencial de mudar a dinâmica da exploração de dados na era digital.

Com grandes players como Reddit e Yahoo já envolvidos, este novo sistema pode muito bem ser o primeiro passo para que os direitos dos criadores sejam respeitados e compensados de forma justa. Agora resta saber se as empresas de IA, que historicamente têm usado dados de maneira gratuita, estarão dispostas a adaptar-se a essa nova realidade. O futuro é promissor, e a expectativa é que a colaboração entre criadores de conteúdo e empresas de tecnologia possa criar um ambiente mais equilibrado e justo para todos.

Postagens relacionadas

Cuidado com os Colegas que Produzem ‘Workslop’ Gerado por IA!

Como a Friend, a Startup de AI, Investiu Mais de $1M em Publicidade no Metrô

Coreia do Sul: A Ambição de Superar OpenAI e Google com IA Local

Este site usa cookies para melhorar sua experiência. Suponhamos que você esteja de acordo com isso, mas você pode optar por não aceitar, se desejar. Leia Mais