Medios locales llevan a juicio a OpenAI y Microsoft por entrenar IA

X (Twitter) Facebook LinkedIn Email WhatsApp Telegram

Un nuevo frente judicial vuelve a situar a la inteligencia artificial generativa ante una pregunta que los tribunales estadounidenses todavía no han cerrado: hasta dónde puede llegar el uso de obras protegidas para entrenar modelos de lenguaje. Un grupo de editoras de prensa local y regional ha presentado una demanda contra Microsoft y varias entidades de OpenAI ante el Tribunal Federal del Distrito Sur de Nueva York por presunta infracción de derechos de autor y vulneración de la Digital Millennium Copyright Act (DMCA).

La demanda, fechada el 24 de junio de 2026, agrupa a compañías que, según el escrito, operan casi 400 periódicos y medios locales en 33 estados de Estados Unidos. Los demandantes sostienen que OpenAI y Microsoft habrían rastreado, copiado e incorporado a sus sistemas cientos de miles de artículos periodísticos sin autorización, incluidos contenidos publicados tras muros de pago y restricciones de acceso. El uso denunciado se vincula a productos como ChatGPT, ChatGPT Enterprise, Copilot, Azure OpenAI Service y Microsoft 365 Copilot.

El procedimiento está en fase inicial y recoge la versión de los demandantes. No hay, por tanto, una declaración judicial sobre la veracidad de las acusaciones. Pero el caso es relevante porque combina tres planos jurídicos de gran impacto para el sector tecnológico y editorial: la posible infracción directa de copyright en el entrenamiento de modelos, la responsabilidad de Microsoft como socio e integrador de OpenAI y la retirada de información de gestión de derechos de autor, una cuestión que puede tener recorrido propio bajo la DMCA.

Una demanda construida sobre copyright, DMCA y responsabilidad vicaria

El escrito de demanda formula tres grandes bloques de reclamación. El primero es una acción por infracción de copyright al amparo del Copyright Act estadounidense. No se plantea por todos los demandantes, sino por aquellos que identifican obras registradas, entre ellos Arkansas Democrat-Gazette, Concord Publishing House, H.S. Gere & Sons, The New Mexican y Newspapers of New Hampshire. Esta distinción es relevante porque, en el sistema estadounidense, el registro de la obra ante la Copyright Office condiciona la posibilidad de reclamar determinados remedios por infracción.

El segundo bloque es una reclamación por responsabilidad vicaria frente a Microsoft y varias entidades de OpenAI. La tesis de los demandantes es que Microsoft no habría actuado como mero inversor pasivo, sino como socio tecnológico y comercial decisivo en la infraestructura, entrenamiento, despliegue e integración de los modelos GPT. Según la demanda, Microsoft habría aportado infraestructura cloud, habría obtenido acceso preferente a modelos y habría incorporado esas capacidades en productos propios como Copilot.

El tercer bloque se apoya en la DMCA, en concreto en la retirada o alteración de copyright management information (CMI). Los editores sostienen que OpenAI habría eliminado de los contenidos elementos como titulares, nombres de autores, nombres de publicación, avisos de copyright y condiciones de uso durante el proceso de extracción y preparación de datasets.

Reclamación	Demandantes afectados	Base jurídica	Qué se discute
Infracción directa de copyright	Editores con obras registradas	Copyright Act, 17 U.S.C. § 501	Copia, entrenamiento, almacenamiento y outputs
Responsabilidad vicaria	Frente a Microsoft y entidades de OpenAI	Doctrina de responsabilidad por control y beneficio	Papel de Microsoft y estructura de OpenAI
Retirada de CMI	Todos los demandantes	DMCA, 17 U.S.C. § 1202	Eliminación de autoría, copyright y condiciones de uso
Medidas cautelares e injunction	Todos o parte de los demandantes	Copyright Act y remedios equitativos	Cese de conductas y retirada de copias

Esta arquitectura procesal no es casual. El debate sobre el entrenamiento de modelos con contenido protegido suele centrarse en el fair use, pero las reclamaciones bajo la DMCA pueden abrir una vía distinta. Si un tribunal considera que se retiró conscientemente información de gestión de derechos con conocimiento de que ello podía facilitar o encubrir infracciones, el análisis no se agota en si el entrenamiento es o no transformativo.

El punto delicado: no solo entrenar, también extraer y despojar de atribución

La demanda no se limita a afirmar que los modelos fueron entrenados con artículos de prensa. Alega un proceso más concreto: rastreo automatizado de webs, copia de artículos en servidores propios, extracción del cuerpo principal de los textos y eliminación de información asociada a la titularidad de derechos.

Los demandantes citan herramientas y metodologías de extracción de contenido, como Dragnet y Newspaper, para sostener que esos sistemas separan el cuerpo del artículo de otros elementos de la página. En términos técnicos, esa operación puede explicarse como limpieza de HTML, eliminación de menús, publicidad, navegación o pie de página. En términos jurídicos, los demandantes sostienen que esa limpieza habría eliminado también información protegida por la DMCA.

Ahí está una de las claves del caso. Para una empresa de IA, eliminar ruido de una página web puede parecer una fase necesaria para entrenar modelos con texto limpio. Para un titular de derechos, si en ese proceso desaparecen autoría, aviso de copyright, nombre del medio y términos de uso, la extracción puede convertirse en una conducta jurídicamente sensible.

Elemento eliminado, según la demanda	Relevancia jurídica alegada
Nombre del autor	Identifica autoría y procedencia
Nombre de la publicación	Vincula el texto con su editor
Aviso de copyright	Informa de protección jurídica
Términos de uso	Define condiciones de acceso y reutilización
Título y metadatos	Ayudan a rastrear la obra
Enlaces a condiciones	Refuerzan la reserva de derechos

La reclamación bajo la DMCA puede ser especialmente importante para medios que no tengan todas sus obras registradas. En Estados Unidos, una acción por retirada de CMI no exige el mismo presupuesto registral que una reclamación clásica de copyright. Por eso el pleito puede interesar no solo a grandes grupos, sino también a cabeceras pequeñas con recursos limitados.

Paywalls, Common Crawl y datasets: el problema probatorio

Otro punto que previsiblemente marcará el procedimiento será la prueba. OpenAI no publica de forma detallada los datasets usados para entrenar sus modelos más recientes. Los demandantes intentan suplir esa falta de transparencia con análisis de datasets relacionados o aproximaciones abiertas, como OpenWebText y C4, un subconjunto filtrado de Common Crawl.

Según la demanda, análisis realizados para los demandantes habrían localizado millones de tokens procedentes de sus webs en esos conjuntos. En el caso de C4, el escrito afirma que las webs de los editores suman más de 115 millones de tokens. El documento también sostiene que cientos de miles de artículos protegidos podrían haber estado presentes en materiales de entrenamiento usados para modelos GPT.

Esta línea probatoria tiene una dificultad evidente. Que un contenido aparezca en Common Crawl, C4 u OpenWebText no demuestra por sí solo que se usara en un modelo concreto ni que el uso sea ilícito. Pero sí puede servir para construir una inferencia: si esos datasets forman parte del ecosistema de entrenamiento, y si contienen obras de los demandantes, la cuestión pasa a discovery. En esa fase, los editores intentarán obtener información interna sobre datasets, filtros, extracción, almacenamiento, entrenamiento, fine-tuning, RAG y generación de outputs.

Cuestión probatoria	Por qué importa
Presencia en datasets públicos	Indicio de disponibilidad para entrenamiento
Uso real en modelos GPT	Elemento central para acreditar copia o explotación
Contenido bajo paywall	Puede debilitar la defensa de acceso público
Eliminación de CMI	Refuerza la vía DMCA
Memorization	Puede evidenciar reproducción sustancial
RAG y búsqueda en tiempo real	Desplaza el debate del entrenamiento al output
Documentación interna	Será clave en discovery

La demanda también insiste en la “memorización” de modelos. Según los editores, modelos GPT anteriores habrían reproducido textos de noticias de forma literal o casi literal ante determinados prompts en otros procedimientos. La acusación sostiene que, si los contenidos de los demandantes formaban parte de los datasets, también podrían haberse reproducido de forma similar. Esta parte será previsiblemente discutida por las defensas, tanto desde el punto de vista técnico como jurídico.

Microsoft no queda al margen del litigio

Una de las decisiones estratégicas del escrito es incluir a Microsoft como demandada principal y no como actor accesorio. La demanda recuerda la inversión de Microsoft en OpenAI y describe su relación como una colaboración técnica y comercial profunda. También apunta a la infraestructura de Azure utilizada para entrenar modelos y a la integración de GPT en productos de Microsoft.

Para los abogados de propiedad intelectual y tecnología, esta parte del caso merece atención porque puede afectar a la cadena de responsabilidad en IA. Si una empresa entrena un modelo, otra lo aloja, otra lo integra y otra lo comercializa, ¿quién responde por el uso de obras protegidas? La demanda busca extender la responsabilidad a quien controla, facilita o se beneficia de la explotación del sistema, aunque no sea necesariamente quien seleccionó artículo por artículo.

Actor	Papel descrito en la demanda
OpenAI	Desarrollo, entrenamiento y comercialización de modelos GPT
Microsoft	Infraestructura, inversión, integración y explotación comercial
Editores	Titulares de contenidos periodísticos protegidos
Usuarios finales	Posibles receptores de outputs generados
Tribunal	Deberá valorar copyright, DMCA, fair use y remedios

Si esta tesis prospera, proveedores cloud, integradores de IA y distribuidores de soluciones basadas en modelos ajenos podrían revisar con más cuidado sus cláusulas de indemnidad, auditoría de datasets, trazabilidad de fuentes y garantías contractuales sobre entrenamiento.

Fair use frente a mercado de licencias

OpenAI ha defendido en otros asuntos que el entrenamiento de modelos con información disponible públicamente queda amparado por el fair use. Esa será, previsiblemente, una de las defensas centrales. La compañía puede argumentar que el entrenamiento es transformativo, que los modelos no sustituyen a las obras concretas y que el uso de grandes cantidades de texto permite desarrollar sistemas con utilidad social y económica.

Los editores, por su parte, plantean una lectura opuesta. Sostienen que sus artículos fueron copiados, almacenados, procesados y usados para construir productos comerciales de enorme valor. Además, alegan que esos productos pueden sustituir visitas a las webs originales, reducir ingresos por publicidad y suscripción, y erosionar el mercado de licencias de contenido.

El cuarto factor del fair use, relativo al efecto sobre el mercado potencial de la obra, puede ser especialmente disputado. Si los tribunales consideran que existe un mercado razonable de licencias para entrenamiento de IA y que las empresas tecnológicas lo han eludido, la defensa se complica. Si, por el contrario, aceptan que el entrenamiento con contenido accesible públicamente es un uso transformativo que no sustituye la explotación normal de la obra, las tecnológicas ganarían margen.

Factor de fair use	Posible debate en el caso
Propósito y carácter del uso	Entrenamiento transformativo frente a explotación comercial
Naturaleza de la obra	Periodismo factual, pero con expresión protegida
Cantidad usada	Copia masiva frente a uso necesario para el modelo
Efecto en el mercado	Sustitución de tráfico, suscripciones y licencias
Paywalls	Puede afectar a la idea de disponibilidad pública
CMI	Debate paralelo bajo DMCA, no idéntico al fair use

La existencia de acuerdos de licencia entre empresas de IA y algunos medios añade una capa más. Si el mercado ya está negociando licencias, los demandantes pueden sostener que hay una vía comercial viable. Las empresas de IA, en cambio, pueden responder que esos acuerdos son decisiones comerciales, no reconocimiento jurídico de obligación general.

Qué piden los editores al tribunal

La demanda solicita daños legales, daños compensatorios, restitución, disgorgement de beneficios, costas y honorarios. También pide medidas de cesación frente a las conductas consideradas ilícitas y, de forma destacada, una orden bajo 17 U.S.C. § 503(b) para que los demandados retiren todas las copias de las obras registradas de modelos GPT u otros LLM y de los conjuntos de entrenamiento.

Esta petición plantea una dificultad técnica y jurídica considerable. Retirar una obra concreta de un dataset puede ser posible si se identifica el archivo de entrenamiento. Retirarla de un modelo ya entrenado es mucho más complejo. La cuestión de la “desinfección” o eliminación de obras de modelos entrenados puede convertirse en uno de los debates prácticos más importantes de estos litigios.

Remedio solicitado	Dificultad práctica
Daños estatutarios	Depende de obras registradas y voluntad infractora
Daños reales	Requiere acreditar perjuicio económico
Disgorgement	Exige vincular beneficios con la infracción
Injunction	Debe ajustarse a conducta y proporcionalidad
Retirada de copias de datasets	Puede depender de trazabilidad documental
Retirada de obras de modelos	Problema técnico complejo
Honorarios y costas	Posibles si prosperan las reclamaciones

Para el sector legal, la petición de retirada es tan importante como la de indemnización. Una sentencia que obligase a limpiar datasets o modelos cambiaría la gestión de riesgo de toda la industria. Incluso sin llegar a una sentencia, una fase de discovery amplia podría forzar a las compañías de IA a revelar más sobre sus procesos internos de recopilación y entrenamiento.

Una demanda que puede acelerar la contratación de datos

El caso se suma a una oleada de litigios de autores, medios y titulares de derechos contra empresas de IA. Su rasgo diferencial es el protagonismo de la prensa local y regional. Estos editores no solo reclaman una compensación por el pasado. También buscan proteger una cadena económica que depende de tráfico, suscripciones, publicidad y licencias.

Para despachos, asesores internos y empresas tecnológicas, el mensaje es claro: la procedencia de los datos ya no puede tratarse como un asunto secundario de ingeniería. El entrenamiento de modelos, el fine-tuning, el RAG, los agentes que navegan por webs y la generación de respuestas con contenido recuperado en tiempo real tienen implicaciones contractuales, regulatorias y de propiedad intelectual.

La diligencia debida en IA empieza a parecerse cada vez más a una due diligence de contenidos. Qué datos se usan, con qué título jurídico, bajo qué términos de uso, si hay reservas de derechos, si se han respetado paywalls, si se conserva CMI, si existen logs de origen, si hay mecanismos de exclusión y si los contratos con proveedores cubren reclamaciones de terceros.

La demanda contra OpenAI y Microsoft no resolverá por sí sola el encaje legal de la IA generativa. Pero sí muestra hacia dónde se mueve el conflicto: del debate abstracto sobre si la IA “aprende como una persona” a una discusión documental, probatoria y contractual sobre copias, datasets, metadatos, términos de uso y dinero.

Para la industria legal, esa es la señal más importante. La inteligencia artificial ya no se litiga solo como tecnología emergente. Se litiga como cadena de suministro de contenidos.

Preguntas frecuentes

¿Qué tribunal tramita la demanda?
La demanda se presentó ante el United States District Court for the Southern District of New York, con número de asunto 26-cv-5320.

¿Qué normas invocan los demandantes?
El escrito invoca el Copyright Act estadounidense, la Digital Millennium Copyright Act y teorías de responsabilidad directa y vicaria por infracción de derechos de autor.

¿Por qué es importante la información CMI?
Porque identifica autoría, titularidad, avisos de copyright y condiciones de uso. Su retirada consciente puede dar lugar a responsabilidad específica bajo la DMCA.

¿Qué puede cambiar si prospera la demanda?
Podría reforzarse el mercado de licencias para entrenamiento de IA, aumentar las obligaciones de trazabilidad de datasets y elevar el riesgo jurídico para desarrolladores, proveedores cloud e integradores de modelos.

Fuentes:
Demanda Richner Communications, Inc. et al. v. Microsoft Corporation et al., U.S. District Court, Southern District of New York, 24/06/2026.

X (Twitter) Facebook LinkedIn Email WhatsApp Telegram