Bibliocidio

Naief Yehya
Naief Yehya

Por Naief Yehya

Ingeniero, narrador, crítico cultural y pornografógrafo mexicano.

El Moloch de la inteligencia artificial

Libros desechados, en proceso de reciclaje.
Libros desechados, en proceso de reciclaje.

Para quienes escribimos libros que no se vuelven best sellers (con ventas excepcionalmente grandes) ni long sellers (con ventas consistentes y continuas durante largos períodos) ni tan siquiera sellers a secas (que vendan un mínimo aceptable), es una realidad común recibir un correo de la editorial de cuando en cuando que nos avisa de que los ejemplares de nuestros libros en almacén pasarán a la trituradora. Una vez tomada esa decisión, poco o nada puede hacerse. Picar libros es lamentablemente un muy común reflejo de la triste condición del mercado editorial (especialmente de los grandes consorcios que han devorado a docenas de pequeñas editoriales), de las presiones económicas y fiscales, del espacio limitado en los almacenes y de la impaciencia corporativa.

Sin embargo, las grandes editoriales no son las únicas empresas que recurren a la destrucción masiva de libros. El diario The Washington Post publicó en enero de 2026 que a principios de 2024 la empresa de alta tecnología Anthropic lanzó una iniciativa de manera prácticamente secreta llamada Proyecto Panamá. Los detalles se hicieron públicos con la publicación de más de cuatro mil páginas de documentos que se presentaron como pruebas en la demanda por derechos de autor interpuesta por un grupo de escritores contra Anthropic. Esta demanda fue parte de una serie de acciones legales por parte de artistas, autores, músicos, fotógrafos, diseñadores, ilustradores y otros creadores que sienten que su trabajo ha sido usado sin su conocimiento ni autorización para entrenar modelos de IA. Un documento de planificación interno desclasificado en la segunda semana de enero de 2026 describía así sus intenciones: “El Proyecto Panamá es nuestro esfuerzo por escanear de manera destructiva todos los libros del mundo… No queremos que se sepa que estamos trabajando en esto”.

Este y otros documentos legales empleados en demandas en contra de varias empresas que desarrollan modelos de Inteligencia Artificial generativa expusieron que Anthropic y otras empresas de IA están comprando en librerías de segunda mano millones de libros impresos para entrenar sus sistemas. Los Modelos Grandes de Lenguaje (LLM por sus siglas en inglés) requieren de textos de “alta calidad” para entrenar sus redes neuronales. Esto consiste en hacer que los modelos procesen textos para construir relaciones estadísticas entre palabras y conceptos. Los programadores consideran que se deben utilizar bases de datos de buena “calidad” (libros y artículos coherentes, bien escritos y editados) para que las capacidades de los modelos se incrementen. Utilizar buena literatura da respuestas mejor articuladas, así como resultados más elocuentes, precisos y convincentes. Los coordinadores de este proyecto concluyeron que era mucho mejor usar libros que emplear comentarios, opiniones y conversaciones sacados de foros en línea, redes sociales o YouTube. Los libros, por montones, no individualmente, se convirtieron en objeto de la ambición de estas empresas que anhelan “enseñar a los modelos a escribir correctamente y no replicar el hablar común de internet”.

Hay algo de fábula sórdida y ciencia ficción oscura en este proceso maquinal de ingestión y digestión literaria que nos hace pensar en los clásicos Fahrenheit 451, de Ray Bradbury, y 1984, de George Orwell, pero que también evoca a los villanos de historieta de Marvel que dominaron las pantallas de cine en los últimos veinte años y que nutrieron la imaginación perversa de los multimillonarios de la industria de la tecnología digital. Claude es una especie de Thanos, el monstruo destructor de mundos, capaz de eliminar a la mitad de la cultura libresca del universo para dar lugar a una IA infalible.

Un documento legal hecho público describe que la empresa Anthropic (que el 28 de mayo de 2026 fue valorada en 900.000 millones de dólares) usaría una cortadora hidráulica de precisión para desencuadernar libros y recortar las páginas a un tamaño apropiado para ser escaneadas en equipos de alta velocidad. Más tarde una compañía de reciclaje recogería el papel procesado. Casi parece conmovedor que, a pesar de la inmoralidad de sus acciones (ellos mismos asumen que es una estrategia perturbadora o cuestionable que trataron de mantener en secreto), les parezca importante reciclar el papel de desecho y no simplemente tirarlo a la basura; es de suponer que eso sí lo considerarían una inconsciencia imperdonable. Al mismo tiempo, los centros de datos que requieren estas empresas son brutales consumidores de agua y recursos con un inmenso impacto ambiental.

En un año, esta empresa gastó decenas de millones de dólares para adquirir libros, destruirlos y alimentar con sus palabras, frases y conocimiento a los modelos de IA, como el chatbot Claude. Súbitamente podemos imaginar a esos programas aduladores y obsequiosos hasta la náusea como voraces Molochs, trituradores de las obras de la inteligencia y el espíritu, como aquel que mantiene a la urbe en movimiento en la película Metrópolis, de Fritz Lang. El pensamiento y trabajo de miles de personas a lo largo de los siglos, reducido mediante la tecnología digital y el reconocimiento óptico de caracteres a materia prima, a estructuras gramaticales y predictores de palabras.

Meta, Google, OpenAI, Anthropic y otras empresas están compitiendo en una salvaje carrera por apropiarse de la mayor cantidad de “contenido”, conocimiento, ideas y textos, que consideraban “esenciales para ser competitivos con sus rivales”. No satisfechos con su extractivismo desaforado, se inclinaron por un recurso aún más barato. El cofundador de Anthropic, Ben Mann, se encargó de bajar libros de sitios piratas online a través de torrents (un método descentralizado para compartir archivos entre usuarios). Obtuvieron así alrededor de cinco millones de libros de la página LibGen y unos dos millones más de Pirate Library Mirror. Al mismo tiempo, la empresa Meta, con la aprobación de Mark Zuckerberg (sus iniciales aparecen en un documento interno), también comenzó a saquear sitios de libros clandestinos. Un ingeniero de Meta escribió en 2023: “Usar torrents desde un portátil corporativo no parece correcto”, y añadió un emoji sonriente.

Para llevar a cabo este proyecto, Anthropic contrató a Tom Turvey, quien fue determinante en la creación del proyecto Google Books, que comenzó alrededor de 2002 con la intención de digitalizar una gran cantidad de libros. El proyecto de Google fue muy controvertido en su momento, pero sobrevivió a una serie de demandas y ataques. Google Books (en el tiempo en que el lema de la compañía aún era “Don’t be evil” o “No seas malo”) empleó un sistema fotográfico no destructivo con libros tomados en préstamo de bibliotecas que después eran regresados. Ese método había sido usado antes por el Internet Archive. Anthropic, en cambio, se inclinó por un proceso más barato y rápido, sin importar el material original ni la preservación de los libros.

El escaneo destructivo es una práctica común en las operaciones de digitalización, lo insólito aquí era el volumen en que lo hicieron y la noción de que muchos libros usados podrían ser ejemplares únicos, raros o difícilmente accesibles que se encontraban en caóticos lotes inmensos y no en colecciones organizadas. Quizá nunca sabremos qué fue triturado. Un grupo de autores escribieron una carta abierta de protesta en contra del uso de su trabajo: “En lugar de pagar a los escritores un pequeño porcentaje del dinero que nuestro trabajo les genera, se le pagará a otra persona por una tecnología construida sobre nuestra labor no remunerada”.

Algunos jueces y expertos legales han encontrado que el uso de estas obras corresponde a un ámbito legal aún no definido, mientras que otros piensan que las empresas de IA no han violado la ley. En lo que respecta a los libros comprados legítimamente, las empresas de IA están protegidas por el recurso de “uso legítimo” (fair use). Las empresas de IA se apegaron a la “Doctrina de primera venta” (first sale doctrine), que autoriza al comprador de un libro a hacer lo que quiera con él. Esto permite que exista un mercado de libros de segunda mano. El juez William Alsup, del distrito norte de California (el que corresponde a Silicon Valley), le dio la razón a Anthropic con respecto a usar libros para entrenar modelos porque “procesan el material de una forma transformativa” (al destruir los ejemplares comprados legalmente y conservar la versión digital, sin distribuirla, tan solo estaban “conservando espacio mediante una conversión de formato y eso equivalía a una transformación”). El juez Vince Chhabria, del mismo distrito, encontró que los autores que demandaban a Meta no habían probado que los modelos de IA de esa empresa podían perjudicar las ventas de sus libros.

No obstante, Anthropic fue encontrada culpable de violar la ley por los libros piratas que “acumuló para uso futuro” y para evitar ir a juicio aceptó pagar 1.500 millones de dólares (3.000 a cada uno de los 500.000 libros) en agosto pasado, sin aceptar haber cometido crimen alguno. Dario Amodei, el director ejecutivo de Anthropic, trató de evitar lo que él mismo llamó “el tedio legal, práctico y empresarial”, es decir, las complejas negociaciones de licencias con las editoriales. Al comprar libros físicos evadía por completo las licencias y negociaciones. La postura de Anthropic es que sus modelos no intentan replicar ni suplantar las obras en las que son entrenados, sino crear algo diferente. Finalmente serán penalizados (si es que realmente sucede) por la forma en que obtuvieron algunas de las obras y no por el uso que les dieron.

En junio de 2025 OpenAI y Microsoft anunciaron que trabajarían con las bibliotecas de Harvard para escanear, de forma no destructiva, millones de libros de dominio público que datan del siglo XV. Esto, posiblemente, pretende hacer que quede en el olvido su intento de apropiarse de libros y borrar las huellas de su existencia. La única manera de conocer ciertas obras (buenas, malas, mediocres o como sean) será consultando esos modelos generativos de IA que las tragaron.

No hay duda de que los libros son un problema, pesan mucho, ocupan demasiado lugar, son frágiles y sin embargo representan quizá mejor que ningún otro medio nuestra forma más accesible de adquirir conocimiento, placer y acercarnos a la belleza. Cuando los transformamos en una especie de forraje o combustible para las máquinas evaporamos universos completos. Estamos en un momento en que los bros megamillonarios de la tecnología nos prometen construir ideas y argumentos a partir de los escombros de la cultura. No es una coincidencia que esto tenga lugar en una era de renovadas censuras y prohibiciones de libros y en un tiempo de genocidio, domicidio y urbicidio. El impulso de la industria tecnológica nos empuja a la normalización del bibliocidio.

Fuente: Ctxt

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *