Desvelan un proxecto de dixitalización destrutiva de libros para alimentar á IA
venres, 6 de febreiro do 2026

- Imaxe dun almacén de libros que figura nos documentos xudiciais feitos públicos
Nos últimos dÃas The Washington Post deu conta dun controvertido proxecto impulsado por Anthropic, iniciado a primeiros de 2024 baixo o nome interno de Project Panama, que consistÃa en adquirir, escanear e posteriormente reciclar millóns de libros fÃsicos co obxectivo de alimentar os seus modelos de linguaxe, empregados en produtos como o chatbot Claude.
Segundo recollen os autos dun proceso xudicial por dereitos de autor, Anthropic investiu decenas de millóns de dólares en mercar grandes lotes de libros, aos que se lles retiraba o lombo para poder escanear as páxinas con maquinaria industrial de alta velocidade. Unha vez dixitalizados, os exemplares eran enviados a plantas de reciclaxe. Un documento interno sinalaba explicitamente a vontade de manter o proxecto en segredo e describÃa a iniciativa como un esforzo por «escanear de xeito destrutivo todos os libros do mundo».
Os detalles de Project Panama apareceron en máis de 4.000 páxinas incorporadas a unha demanda presentada por autores contra Anthropic. O litixio rematou cun acordo extraxudicial polo que a compañÃa aceptou pagar 1.500 millóns de dólares, sen recoñecer irregularidades, despois de que un xuÃz federal ordenase facer públicos numerosos documentos do caso.
A información revelada confirma a magnitude da carreira emprendida polas grandes tecnolóxicas para acceder a volumes masivos de datos cos que adestrar os seus sistemas de IA. Ademais de Anthropic, outras compañÃas como Meta, Google ou OpenAI tamén se enfrontan a demandas semellantes por parte de escritores, artistas e medios de comunicación, que cuestionan o uso das súas obras sen autorización.
Os libros ocupan un lugar central nesta estratexia. Rexistros xudiciais indican que, para as empresas, os textos literarios resultan especialmente valiosos para mellorar a calidade expresiva dos modelos, fronte ao que consideran linguaxe de baixa calidade procedente da Internet. Con todo, os documentos tamén mostran que moitas compañÃas descartaron negociar permisos directos con autores e editoriais, optando por outras vÃas máis rápidas e opacas.
No caso de Anthropic, as actuacións iniciais incluÃron a descarga masiva de libros desde bibliotecas dixitais non autorizadas. O xuÃz que levou o caso considerou que o uso de obras protexidas para adestrar modelos de IA pode encaixar no principio de uso xusto, ao tratarse dun proceso transformador que non busca substituÃr os libros orixinais. Porén, tamén determinou que a forma de adquisición dalgúns contidos, mediante descargas de material pirateado, poderÃa vulnerar a lexislación vixente.
Como parte do acordo, os autores cuxas obras foron incluÃdas nesas bibliotecas poden solicitar unha compensación estimada nuns 3.000 dólares por tÃtulo. Desde a empresa subliñan que a sentenza recoñeceu a legalidade do adestramento de modelos e que o conflito se centrou unicamente nos métodos empregados para obter certos materiais.
Os documentos tamén detallan como Anthropic buscou alternativas legais ao uso de contidos pirateados, recorrendo á compra masiva de libros usados a través de grandes distribuidores internacionais. Para liderar esta fase, a compañÃa contratou a un veterano da industria tecnolóxica que participara no proxecto Google Books, outra iniciativa que xerou forte debate legal no seu momento.
A decisión de adquirir e escanear libros fÃsicos aparece como un paso cara a unha maior seguridade xurÃdica, xa que evita a descarga de contidos de redes de intercambio de ficheiros (técnica realizada en numerosas ocasións para adestrar modelos de linguaxe), pero segue a ser unha práctica moi discutible (cando menos, eticamente), xa que fai uso de obras protexidas sen autorización de autores nin editores.
