Desvelan un proxecto de dixitalización destrutiva de libros para alimentar á IA

venres, 6 de febreiro do 2026 Redacción

Imaxe dun almacén de libros que figura nos documentos xudiciais feitos públicos

Nos últimos días The Washington Post deu conta dun controvertido proxecto impulsado por Anthropic, iniciado a primeiros de 2024 baixo o nome interno de Project Panama, que consistía en adquirir, escanear e posteriormente reciclar millóns de libros físicos co obxectivo de alimentar os seus modelos de linguaxe, empregados en produtos como o chatbot Claude.
Segundo recollen os autos dun proceso xudicial por dereitos de autor, Anthropic investiu decenas de millóns de dólares en mercar grandes lotes de libros, aos que se lles retiraba o lombo para poder escanear as páxinas con maquinaria industrial de alta velocidade. Unha vez dixitalizados, os exemplares eran enviados a plantas de reciclaxe. Un documento interno sinalaba explicitamente a vontade de manter o proxecto en segredo e describía a iniciativa como un esforzo por «escanear de xeito destrutivo todos os libros do mundo».
Os detalles de Project Panama apareceron en máis de 4.000 páxinas incorporadas a unha demanda presentada por autores contra Anthropic. O litixio rematou cun acordo extraxudicial polo que a compañía aceptou pagar 1.500 millóns de dólares, sen recoñecer irregularidades, despois de que un xuíz federal ordenase facer públicos numerosos documentos do caso.
A información revelada confirma a magnitude da carreira emprendida polas grandes tecnolóxicas para acceder a volumes masivos de datos cos que adestrar os seus sistemas de IA. Ademais de Anthropic, outras compañías como Meta, Google ou OpenAI tamén se enfrontan a demandas semellantes por parte de escritores, artistas e medios de comunicación, que cuestionan o uso das súas obras sen autorización.
Os libros ocupan un lugar central nesta estratexia. Rexistros xudiciais indican que, para as empresas, os textos literarios resultan especialmente valiosos para mellorar a calidade expresiva dos modelos, fronte ao que consideran linguaxe de baixa calidade procedente da Internet. Con todo, os documentos tamén mostran que moitas compañías descartaron negociar permisos directos con autores e editoriais, optando por outras vías máis rápidas e opacas.
No caso de Anthropic, as actuacións iniciais incluíron a descarga masiva de libros desde bibliotecas dixitais non autorizadas. O xuíz que levou o caso considerou que o uso de obras protexidas para adestrar modelos de IA pode encaixar no principio de uso xusto, ao tratarse dun proceso transformador que non busca substituír os libros orixinais. Porén, tamén determinou que a forma de adquisición dalgúns contidos, mediante descargas de material pirateado, podería vulnerar a lexislación vixente.
Como parte do acordo, os autores cuxas obras foron incluídas nesas bibliotecas poden solicitar unha compensación estimada nuns 3.000 dólares por título. Desde a empresa subliñan que a sentenza recoñeceu a legalidade do adestramento de modelos e que o conflito se centrou unicamente nos métodos empregados para obter certos materiais.
Os documentos tamén detallan como Anthropic buscou alternativas legais ao uso de contidos pirateados, recorrendo á compra masiva de libros usados a través de grandes distribuidores internacionais. Para liderar esta fase, a compañía contratou a un veterano da industria tecnolóxica que participara no proxecto Google Books, outra iniciativa que xerou forte debate legal no seu momento.
A decisión de adquirir e escanear libros físicos aparece como un paso cara a unha maior seguridade xurídica, xa que evita a descarga de contidos de redes de intercambio de ficheiros (técnica realizada en numerosas ocasións para adestrar modelos de linguaxe), pero segue a ser unha práctica moi discutible (cando menos, eticamente), xa que fai uso de obras protexidas sen autorización de autores nin editores.