A carregar agora

Pesquisadores sugerem modelos de IA treinados em aberto em livros de O’Reilly de paredes pagas

O OpenAI foi acusado por muitas partes de treinamento de sua IA em conteúdo protegido por direitos autorais sem permissão. Agora, um novo artigo de uma organização de vigilância da IA ​​faz a acusação séria de que a empresa confiou cada vez mais em livros não públicos que não licenciou para treinar modelos de IA mais sofisticados.

Os modelos de IA são motores de previsão essencialmente complexos. Treinados em muitos dados – livros, filmes, programas de TV e assim por diante – eles aprendem padrões e novas maneiras de extrapolar de um aviso simples. Quando um modelo “escreve” um ensaio sobre uma tragédia grega ou “desenha” imagens no estilo Ghibli, ele está simplesmente puxando de seu vasto conhecimento para se aproximar. Não está chegando a nada de novo.

Enquanto vários laboratórios de IA, incluindo o OpenAI, começaram a adotar dados gerados pela IA para treinar a IA enquanto esgotam fontes do mundo real (principalmente a Web pública), poucos evitam dados do mundo real. Isso provavelmente porque o treinamento em dados puramente sintéticos vem com riscos, como piorar o desempenho de um modelo.

O novo artigo, fora do projeto de divulgação de IA, uma organização sem fins lucrativos co-fundada em 2024 pelo magnata da mídia Tim O’Reilly e o economista Ilan Strauss, tira a conclusão de que o OpenAI provavelmente treinou seu modelo GPT-4O em livros de paywalled da O’Reilly Media. (O’Reilly é o CEO da O’Reilly Media.)

No ChatGPT, o GPT-4O é o modelo padrão. O’Reilly não possui um contrato de licenciamento com o Openai, diz o jornal.

“O GPT-4O, o modelo mais recente e capaz do OpenAI, demonstra um forte reconhecimento do conteúdo do livro de O’Reilly de paywall … em comparação com o modelo anterior do OpenAI GPT-3.5 Turbo”, escreveu os co-autores do artigo. “Por outro lado, o GPT-3.5 Turbo mostra maior reconhecimento relativo de amostras de livros de O’Reilly acessíveis ao público.”

O artigo usou um método chamado De-Cop, introduzido pela primeira vez em um artigo acadêmico em 2024, projetado para detectar conteúdo protegido por direitos autorais nos dados de treinamento dos modelos de idiomas. Também conhecido como “ataque de inferência de associação”, o método testa se um modelo pode distinguir com segurança os textos de autoria de humanos de versões geradas pela AI parafraseadas do mesmo texto. Se puder, sugere que o modelo possa ter conhecimento prévio do texto a partir de seus dados de treinamento.

Os co-autores do artigo-O’Reilly, Strauss e a pesquisadora da AI Sruly Rosenblat-dizem que eles investigaram o conhecimento GPT-4O, GPT-3.5 Turbo e outros modelos de Openai dos livros de mídia de O’Reilly publicados antes e depois de suas datas de corte de treinamento. Eles usaram 13.962 trechos de parágrafos de 34 livros de O’Reilly para estimar a probabilidade de um trecho específico ter sido incluído no conjunto de dados de treinamento de um modelo.

De acordo com os resultados do artigo, o GPT-4O “reconheceu” muito mais conteúdo de livros O’Reilly do que os modelos mais antigos do OpenAI, incluindo o GPT-3.5 Turbo. Isso mesmo após a contabilização de possíveis fatores de confusão, disseram os autores, como melhorias na capacidade dos modelos mais recentes de descobrir se o texto era autorizado.

“O GPT-4O (provavelmente) reconhece, e assim tem conhecimento prévio de muitos livros não públicos de O’Reilly publicados antes de sua data de corte de treinamento”, escreveu os co-autores.

Não é uma arma de fumar, os co-autores têm cuidado para observar. Eles reconhecem que seu método experimental não é infalível e que o OpenAI pode ter coletado os trechos de livros de paredes pagas dos usuários que copiam e colando -o no chatgpt.

Mudando ainda mais as águas, os co-autores não avaliaram a coleção mais recente de modelos do OpenAI, que inclui modelos GPT-4.5 e “raciocínio”, como O3-mini e O1. É possível que esses modelos não tenham sido treinados em dados de livros O’Reilly de paredes pagos ou terem sido treinados em uma quantia menor que o GPT-4O.

Dito isto, não é segredo que o OpenAI, que defendeu restrições mais frouxas no desenvolvimento de modelos usando dados protegidos por direitos autorais, busca dados de treinamento de alta qualidade há algum tempo. A empresa chegou ao ponto de contratar jornalistas para ajudar a ajustar os resultados de seus modelos. Essa é uma tendência em toda a indústria mais ampla: as empresas de IA que recrutam especialistas em domínios como ciência e física para efetivamente fazer com que esses especialistas alimentem seus conhecimentos em sistemas de IA.

Deve -se notar que o OpenAI paga pelo menos alguns de seus dados de treinamento. A empresa possui acordos de licenciamento com editores de notícias, redes sociais, bibliotecas de mídia e outros. O OpenAI também oferece mecanismos de exclusão-embora imperfeitos-que permitam que os proprietários de direitos autorais sinalizem o conteúdo que preferem que a empresa não use para fins de treinamento.

Ainda assim, quando o Openai luta com vários processos sobre suas práticas de dados de treinamento e tratamento da lei de direitos autorais nos tribunais dos EUA, o artigo O’Reilly não é a aparência mais lisonjeira.

O Openai não respondeu a um pedido de comentário.

Olá Meu nome é João Pereira, e sou apaixonado por tecnologia, mobilidade urbana e sustentabilidade. No meu blog, dedico-me a explorar o universo dos patinetes, um meio de transporte que está transformando a forma como nos movemos nas cidades. Quando você efetua suas compras por meio dos links disponíveis em nosso site, podemos receber uma comissão de afiliado, sem que isso acarrete nenhum custo adicional para você.

Publicar comentário