EleutherAI lança um enorme conjunto de dados para treinamento de inteligência artificial com textos licenciados e de domínio aberto.

Marcos Evaristojunho 6, 20250149 visualizações

Image Credits:Getty Images

Sumário do Conteúdo

EleutherAI Lança Conjunto de Dados Revolucionário para Treinamento de Modelos de Inteligência Artificial

EleutherAI, uma inovadora organização de pesquisa em IA, anunciou o lançamento de um dos maiores conjuntos de textos licenciados e de domínio aberto para o treinamento de modelos de inteligência artificial.

Dentre as recentes inovações da EleutherAI, destaca-se o conjunto de dados denominado The Common Pile v0.1. Após aproximadamente dois anos de trabalho colaborativo com startups de IA como Poolside, Hugging Face e diversas instituições acadêmicas, a EleutherAI conseguiu compilar um volume impressionante de 8 terabytes de dados. Este vasto conjunto foi utilizado para treinar dois novos modelos de IA: Comma v0.1-1T e Comma v0.1-2T, que, segundo a EleutherAI, alcançam desempenho equivalente ao de modelos treinados com dados de copyright não licenciados.

As empresas de inteligência artificial, incluindo a renomada OpenAI, estão enfrentando processos judiciais relacionados às suas práticas de treinamento, que frequentemente envolvem a coleta de dados pela internet — incluindo materiais protegidos por copyright, como livros e periódicos acadêmicos. Embora algumas empresas tenham acordos de licenciamento com certos fornecedores de conteúdo, a maioria defende que a doutrina do uso justo nos EUA as blinda contra responsabilidades em casos onde utilizaram obras protegidas sem autorização.

EleutherAI critica a situação atual ao afirmar que esses processos judiciais têm causado uma “diminuição drástica” na transparência das empresas de IA, prejudicando a pesquisa nesse campo ao dificultar a compreensão do funcionamento e das limitações dos modelos. “Os processos de [copyright] não mudaram significativamente as práticas de coleta de dados no treinamento de modelos, mas reduziram drasticamente a transparência na qual as empresas estão dispostas a se engajar”, revelou Stella Biderman, diretora-executiva da EleutherAI, em um post em seu blog na Hugging Face.

O The Common Pile v0.1 está disponível para download na plataforma de desenvolvimento em IA da Hugging Face e no GitHub. Sua criação foi orientada por consultores legais e inclui fonte de 300.000 livros de domínio público digitalizados pela Biblioteca do Congresso e o Internet Archive. A EleutherAI também utilizou o Whisper, modelo de transcrição de áudio em código aberto da OpenAI, para converter conteúdos de áudio.

A EleutherAI afirma que os modelos Comma v0.1-1T e Comma v0.1-2T são provas de que o The Common Pile v0.1 foi curado minuciosamente, permitindo que desenvolvedores criem modelos competitivos com alternativas proprietárias. De acordo com a organização, ambos os modelos contêm 7 bilhões de parâmetros e foram treinados apenas com uma fração do The Common Pile v0.1, apresentando desempenho em benchmarks de codificação, compreensão de imagens e matemática que rivaliza com o primeiro modelo Llama da Meta.

Os parâmetros, frequentemente chamados de pesos, são componentes internos de um modelo de IA que orientam seu comportamento e respostas.

Biderman destacou em sua postagem que “a ideia comum de que textos não licenciados são fundamentais para o desempenho é injustificada”. À medida que cresce a quantidade de dados disponíveis com licenciamento aberto e domínio público, a expectativa é que a qualidade dos modelos treinados com esses conteúdos também melhore.

O The Common Pile v0.1 é, em parte, um esforço para corrigir erros históricos da EleutherAI. Anteriormente, a empresa lançou The Pile, uma coleção aberta de textos de treinamento que incluía material protegido por copyright, o que resultou em críticas e pressão legal sobre as práticas de uso.

Comprometendo-se a uma abordagem mais transparente e responsável, a EleutherAI anunciou que continuará a liberar conjuntos de dados abertos com maior frequência, em colaboração com seus parceiros de pesquisa e infraestrutura.

Atualizado às 9:48 a.m. Horário do Pacífico: Biderman esclareceu em uma postagem na plataforma X que a EleutherAI contribuiu para o lançamento dos conjuntos de dados e modelos, mas que seu desenvolvimento envolveu vários parceiros, incluindo a Universidade de Toronto, que teve um papel importante na pesquisa.

A Relevância do The Common Pile v0.1 no Cenário Atual de IA

A criação de conjuntos de dados éticos e abertos é crucial em um momento em que muitos debates estão surgindo sobre a legalidade e a moralidade do uso de dados na inteligência artificial. A EleutherAI busca se posicionar como um líder nesse sentido, demonstrando que é possível desenvolver modelos de IA altamente funcional sem infringir direitos autorais ou desrespeitar as diretrizes de uso justo.

Como a pesquisa e o desenvolvimento continuam a avançar, a iniciativa da EleutherAI pode servir de exemplo para outras empresas de tecnologia, incentivando uma maior transparência e responsabilidade no uso de dados. A comunidade científica e os desenvolvedores terão agora um repositório mais robusto para trabalhar, potencializando inovações e aprendizados na área de inteligência artificial.

O The Common Pile v0.1 pode ser visto como uma tentativa de democratizar o acesso a recursos de alta qualidade para treinamento de modelos de IA. Ao centrar-se em conteúdos de domínio público e com licença aberta, a EleutherAI visa estabelecer um novo padrão na indústria, onde princípios éticos e inovação andam de mãos dadas.

Assim, a EleutherAI não apenas contribui para o desenvolvimento de modelos competitivos, mas também abre portas para uma nova era de pesquisa em IA, onde a colaboração entre diferentes partes interessadas se torna essencial para o avanço da tecnologia.

Com a evolução contínua da era digital, a importância de uma abordagem responsável na coleta e aplicação de dados se torna cada vez mais evidente. O conjunto de dados The Common Pile v0.1 é um passo significativo nesse sentido, promovendo uma cultura de integridade e transparência na inteligência artificial.

EleutherAI Lança Conjunto de Dados Revolucionário para Treinamento de Modelos de Inteligência Artificial

A Relevância do The Common Pile v0.1 no Cenário Atual de IA

Moça de 22 anos pode ser a primeira brasileira a ir ao espaço.

Compreenda a previsão meteorológica para o final de semana.

Postagens relacionadas

AI Tokens: Bônus de Assinatura ou Apenas um Custo Necessário?

Editor Retira ‘Shy Girl’: O Impacto da IA no Horror Literário

Delve em Foco: O Perigo da ‘Fake Compliance’ nas Relações com Clientes