EleutherAI lança um enorme conjunto de dados para treinamento de inteligência artificial com textos licenciados e de domínio aberto.

por Marcos Evaristo
data

EleutherAI Lança Conjunto de Dados Revolucionário para Treinamento de Modelos de Inteligência Artificial

EleutherAI, uma inovadora organização de pesquisa em IA, anunciou o lançamento de um dos maiores conjuntos de textos licenciados e de domínio aberto para o treinamento de modelos de inteligência artificial.

Dentre as recentes inovações da EleutherAI, destaca-se o conjunto de dados denominado The Common Pile v0.1. Após aproximadamente dois anos de trabalho colaborativo com startups de IA como Poolside, Hugging Face e diversas instituições acadêmicas, a EleutherAI conseguiu compilar um volume impressionante de 8 terabytes de dados. Este vasto conjunto foi utilizado para treinar dois novos modelos de IA: Comma v0.1-1T e Comma v0.1-2T, que, segundo a EleutherAI, alcançam desempenho equivalente ao de modelos treinados com dados de copyright não licenciados.

As empresas de inteligência artificial, incluindo a renomada OpenAI, estão enfrentando processos judiciais relacionados às suas práticas de treinamento, que frequentemente envolvem a coleta de dados pela internet — incluindo materiais protegidos por copyright, como livros e periódicos acadêmicos. Embora algumas empresas tenham acordos de licenciamento com certos fornecedores de conteúdo, a maioria defende que a doutrina do uso justo nos EUA as blinda contra responsabilidades em casos onde utilizaram obras protegidas sem autorização.

EleutherAI critica a situação atual ao afirmar que esses processos judiciais têm causado uma “diminuição drástica” na transparência das empresas de IA, prejudicando a pesquisa nesse campo ao dificultar a compreensão do funcionamento e das limitações dos modelos. “Os processos de [copyright] não mudaram significativamente as práticas de coleta de dados no treinamento de modelos, mas reduziram drasticamente a transparência na qual as empresas estão dispostas a se engajar”, revelou Stella Biderman, diretora-executiva da EleutherAI, em um post em seu blog na Hugging Face.

O The Common Pile v0.1 está disponível para download na plataforma de desenvolvimento em IA da Hugging Face e no GitHub. Sua criação foi orientada por consultores legais e inclui fonte de 300.000 livros de domínio público digitalizados pela Biblioteca do Congresso e o Internet Archive. A EleutherAI também utilizou o Whisper, modelo de transcrição de áudio em código aberto da OpenAI, para converter conteúdos de áudio.

A EleutherAI afirma que os modelos Comma v0.1-1T e Comma v0.1-2T são provas de que o The Common Pile v0.1 foi curado minuciosamente, permitindo que desenvolvedores criem modelos competitivos com alternativas proprietárias. De acordo com a organização, ambos os modelos contêm 7 bilhões de parâmetros e foram treinados apenas com uma fração do The Common Pile v0.1, apresentando desempenho em benchmarks de codificação, compreensão de imagens e matemática que rivaliza com o primeiro modelo Llama da Meta.

Os parâmetros, frequentemente chamados de pesos, são componentes internos de um modelo de IA que orientam seu comportamento e respostas.

Biderman destacou em sua postagem que “a ideia comum de que textos não licenciados são fundamentais para o desempenho é injustificada”. À medida que cresce a quantidade de dados disponíveis com licenciamento aberto e domínio público, a expectativa é que a qualidade dos modelos treinados com esses conteúdos também melhore.

O The Common Pile v0.1 é, em parte, um esforço para corrigir erros históricos da EleutherAI. Anteriormente, a empresa lançou The Pile, uma coleção aberta de textos de treinamento que incluía material protegido por copyright, o que resultou em críticas e pressão legal sobre as práticas de uso.

Comprometendo-se a uma abordagem mais transparente e responsável, a EleutherAI anunciou que continuará a liberar conjuntos de dados abertos com maior frequência, em colaboração com seus parceiros de pesquisa e infraestrutura.

Atualizado às 9:48 a.m. Horário do Pacífico: Biderman esclareceu em uma postagem na plataforma X que a EleutherAI contribuiu para o lançamento dos conjuntos de dados e modelos, mas que seu desenvolvimento envolveu vários parceiros, incluindo a Universidade de Toronto, que teve um papel importante na pesquisa.

A Relevância do The Common Pile v0.1 no Cenário Atual de IA

A criação de conjuntos de dados éticos e abertos é crucial em um momento em que muitos debates estão surgindo sobre a legalidade e a moralidade do uso de dados na inteligência artificial. A EleutherAI busca se posicionar como um líder nesse sentido, demonstrando que é possível desenvolver modelos de IA altamente funcional sem infringir direitos autorais ou desrespeitar as diretrizes de uso justo.

Como a pesquisa e o desenvolvimento continuam a avançar, a iniciativa da EleutherAI pode servir de exemplo para outras empresas de tecnologia, incentivando uma maior transparência e responsabilidade no uso de dados. A comunidade científica e os desenvolvedores terão agora um repositório mais robusto para trabalhar, potencializando inovações e aprendizados na área de inteligência artificial.

O The Common Pile v0.1 pode ser visto como uma tentativa de democratizar o acesso a recursos de alta qualidade para treinamento de modelos de IA. Ao centrar-se em conteúdos de domínio público e com licença aberta, a EleutherAI visa estabelecer um novo padrão na indústria, onde princípios éticos e inovação andam de mãos dadas.

Assim, a EleutherAI não apenas contribui para o desenvolvimento de modelos competitivos, mas também abre portas para uma nova era de pesquisa em IA, onde a colaboração entre diferentes partes interessadas se torna essencial para o avanço da tecnologia.

Com a evolução contínua da era digital, a importância de uma abordagem responsável na coleta e aplicação de dados se torna cada vez mais evidente. O conjunto de dados The Common Pile v0.1 é um passo significativo nesse sentido, promovendo uma cultura de integridade e transparência na inteligência artificial.

Posts Relacionados

Deixe Seu Comentário

plugins premium WordPress

Este site usa cookies para melhorar sua experiência. Suponhamos que você esteja de acordo com isso, mas você pode optar por não aceitar, se desejar. Aceitar Leia Mais

Política de Privacidade e Cookies