Un nuevo frente judicial vuelve a situar a la inteligencia artificial generativa ante una pregunta que los tribunales estadounidenses todavía no han cerrado: hasta dónde puede llegar el uso de obras protegidas para entrenar modelos de lenguaje. Un grupo de editoras de prensa local y regional ha presentado una demanda contra Microsoft y varias entidades de OpenAI ante el Tribunal Federal del Distrito Sur de Nueva York por presunta infracción de derechos de autor y vulneración de la Digital Millennium Copyright Act (DMCA).
La demanda, fechada el 24 de junio de 2026, agrupa a compañías que, según el escrito, operan casi 400 periódicos y medios locales en 33 estados de Estados Unidos. Los demandantes sostienen que OpenAI y Microsoft habrían rastreado, copiado e incorporado a sus sistemas cientos de miles de artículos periodísticos sin autorización, incluidos contenidos publicados tras muros de pago y restricciones de acceso. El uso denunciado se vincula a productos como ChatGPT, ChatGPT Enterprise, Copilot, Azure OpenAI Service y Microsoft 365 Copilot.
El procedimiento está en fase inicial y recoge la versión de los demandantes. No hay, por tanto, una declaración judicial sobre la veracidad de las acusaciones. Pero el caso es relevante porque combina tres planos jurídicos de gran impacto para el sector tecnológico y editorial: la posible infracción directa de copyright en el entrenamiento de modelos, la responsabilidad de Microsoft como socio e integrador de OpenAI y la retirada de información de gestión de derechos de autor, una cuestión que puede tener recorrido propio bajo la DMCA.
Una demanda construida sobre copyright, DMCA y responsabilidad vicaria
El escrito de demanda formula tres grandes bloques de reclamación. El primero es una acción por infracción de copyright al amparo del Copyright Act estadounidense. No se plantea por todos los demandantes, sino por aquellos que identifican obras registradas, entre ellos Arkansas Democrat-Gazette, Concord Publishing House, H.S. Gere & Sons, The New Mexican y Newspapers of New Hampshire. Esta distinción es relevante porque, en el sistema estadounidense, el registro de la obra ante la Copyright Office condiciona la posibilidad de reclamar determinados remedios por infracción.
El segundo bloque es una reclamación por responsabilidad vicaria frente a Microsoft y varias entidades de OpenAI. La tesis de los demandantes es que Microsoft no habría actuado como mero inversor pasivo, sino como socio tecnológico y comercial decisivo en la infraestructura, entrenamiento, despliegue e integración de los modelos GPT. Según la demanda, Microsoft habría aportado infraestructura cloud, habría obtenido acceso preferente a modelos y habría incorporado esas capacidades en productos propios como Copilot.
El tercer bloque se apoya en la DMCA, en concreto en la retirada o alteración de copyright management information (CMI). Los editores sostienen que OpenAI habría eliminado de los contenidos elementos como titulares, nombres de autores, nombres de publicación, avisos de copyright y condiciones de uso durante el proceso de extracción y preparación de datasets.
| Reclamación | Demandantes afectados | Base jurídica | Qué se discute |
|---|---|---|---|
| Infracción directa de copyright | Editores con obras registradas | Copyright Act, 17 U.S.C. § 501 | Copia, entrenamiento, almacenamiento y outputs |
| Responsabilidad vicaria | Frente a Microsoft y entidades de OpenAI | Doctrina de responsabilidad por control y beneficio | Papel de Microsoft y estructura de OpenAI |
| Retirada de CMI | Todos los demandantes | DMCA, 17 U.S.C. § 1202 | Eliminación de autoría, copyright y condiciones de uso |
| Medidas cautelares e injunction | Todos o parte de los demandantes | Copyright Act y remedios equitativos | Cese de conductas y retirada de copias |
Esta arquitectura procesal no es casual. El debate sobre el entrenamiento de modelos con contenido protegido suele centrarse en el fair use, pero las reclamaciones bajo la DMCA pueden abrir una vía distinta. Si un tribunal considera que se retiró conscientemente información de gestión de derechos con conocimiento de que ello podía facilitar o encubrir infracciones, el análisis no se agota en si el entrenamiento es o no transformativo.
El punto delicado: no solo entrenar, también extraer y despojar de atribución
La demanda no se limita a afirmar que los modelos fueron entrenados con artículos de prensa. Alega un proceso más concreto: rastreo automatizado de webs, copia de artículos en servidores propios, extracción del cuerpo principal de los textos y eliminación de información asociada a la titularidad de derechos.
Los demandantes citan herramientas y metodologías de extracción de contenido, como Dragnet y Newspaper, para sostener que esos sistemas separan el cuerpo del artículo de otros elementos de la página. En términos técnicos, esa operación puede explicarse como limpieza de HTML, eliminación de menús, publicidad, navegación o pie de página. En términos jurídicos, los demandantes sostienen que esa limpieza habría eliminado también información protegida por la DMCA.
Ahí está una de las claves del caso. Para una empresa de IA, eliminar ruido de una página web puede parecer una fase necesaria para entrenar modelos con texto limpio. Para un titular de derechos, si en ese proceso desaparecen autoría, aviso de copyright, nombre del medio y términos de uso, la extracción puede convertirse en una conducta jurídicamente sensible.
| Elemento eliminado, según la demanda | Relevancia jurídica alegada |
| Nombre del autor | Identifica autoría y procedencia |
| Nombre de la publicación | Vincula el texto con su editor |
| Aviso de copyright | Informa de protección jurídica |
| Términos de uso | Define condiciones de acceso y reutilización |
| Título y metadatos | Ayudan a rastrear la obra |
| Enlaces a condiciones | Refuerzan la reserva de derechos |
La reclamación bajo la DMCA puede ser especialmente importante para medios que no tengan todas sus obras registradas. En Estados Unidos, una acción por retirada de CMI no exige el mismo presupuesto registral que una reclamación clásica de copyright. Por eso el pleito puede interesar no solo a grandes grupos, sino también a cabeceras pequeñas con recursos limitados.
Paywalls, Common Crawl y datasets: el problema probatorio
Otro punto que previsiblemente marcará el procedimiento será la prueba. OpenAI no publica de forma detallada los datasets usados para entrenar sus modelos más recientes. Los demandantes intentan suplir esa falta de transparencia con análisis de datasets relacionados o aproximaciones abiertas, como OpenWebText y C4, un subconjunto filtrado de Common Crawl.
Según la demanda, análisis realizados para los demandantes habrían localizado millones de tokens procedentes de sus webs en esos conjuntos. En el caso de C4, el escrito afirma que las webs de los editores suman más de 115 millones de tokens. El documento también sostiene que cientos de miles de artículos protegidos podrían haber estado presentes en materiales de entrenamiento usados para modelos GPT.
Esta línea probatoria tiene una dificultad evidente. Que un contenido aparezca en Common Crawl, C4 u OpenWebText no demuestra por sí solo que se usara en un modelo concreto ni que el uso sea ilícito. Pero sí puede servir para construir una inferencia: si esos datasets forman parte del ecosistema de entrenamiento, y si contienen obras de los demandantes, la cuestión pasa a discovery. En esa fase, los editores intentarán obtener información interna sobre datasets, filtros, extracción, almacenamiento, entrenamiento, fine-tuning, RAG y generación de outputs.
| Cuestión probatoria | Por qué importa |
| Presencia en datasets públicos | Indicio de disponibilidad para entrenamiento |
| Uso real en modelos GPT | Elemento central para acreditar copia o explotación |
| Contenido bajo paywall | Puede debilitar la defensa de acceso público |
| Eliminación de CMI | Refuerza la vía DMCA |
| Memorization | Puede evidenciar reproducción sustancial |
| RAG y búsqueda en tiempo real | Desplaza el debate del entrenamiento al output |
| Documentación interna | Será clave en discovery |
La demanda también insiste en la “memorización” de modelos. Según los editores, modelos GPT anteriores habrían reproducido textos de noticias de forma literal o casi literal ante determinados prompts en otros procedimientos. La acusación sostiene que, si los contenidos de los demandantes formaban parte de los datasets, también podrían haberse reproducido de forma similar. Esta parte será previsiblemente discutida por las defensas, tanto desde el punto de vista técnico como jurídico.
Microsoft no queda al margen del litigio
Una de las decisiones estratégicas del escrito es incluir a Microsoft como demandada principal y no como actor accesorio. La demanda recuerda la inversión de Microsoft en OpenAI y describe su relación como una colaboración técnica y comercial profunda. También apunta a la infraestructura de Azure utilizada para entrenar modelos y a la integración de GPT en productos de Microsoft.
Para los abogados de propiedad intelectual y tecnología, esta parte del caso merece atención porque puede afectar a la cadena de responsabilidad en IA. Si una empresa entrena un modelo, otra lo aloja, otra lo integra y otra lo comercializa, ¿quién responde por el uso de obras protegidas? La demanda busca extender la responsabilidad a quien controla, facilita o se beneficia de la explotación del sistema, aunque no sea necesariamente quien seleccionó artículo por artículo.
| Actor | Papel descrito en la demanda |
| OpenAI | Desarrollo, entrenamiento y comercialización de modelos GPT |
| Microsoft | Infraestructura, inversión, integración y explotación comercial |
| Editores | Titulares de contenidos periodísticos protegidos |
| Usuarios finales | Posibles receptores de outputs generados |
| Tribunal | Deberá valorar copyright, DMCA, fair use y remedios |
Si esta tesis prospera, proveedores cloud, integradores de IA y distribuidores de soluciones basadas en modelos ajenos podrían revisar con más cuidado sus cláusulas de indemnidad, auditoría de datasets, trazabilidad de fuentes y garantías contractuales sobre entrenamiento.
Fair use frente a mercado de licencias
OpenAI ha defendido en otros asuntos que el entrenamiento de modelos con información disponible públicamente queda amparado por el fair use. Esa será, previsiblemente, una de las defensas centrales. La compañía puede argumentar que el entrenamiento es transformativo, que los modelos no sustituyen a las obras concretas y que el uso de grandes cantidades de texto permite desarrollar sistemas con utilidad social y económica.
Los editores, por su parte, plantean una lectura opuesta. Sostienen que sus artículos fueron copiados, almacenados, procesados y usados para construir productos comerciales de enorme valor. Además, alegan que esos productos pueden sustituir visitas a las webs originales, reducir ingresos por publicidad y suscripción, y erosionar el mercado de licencias de contenido.
El cuarto factor del fair use, relativo al efecto sobre el mercado potencial de la obra, puede ser especialmente disputado. Si los tribunales consideran que existe un mercado razonable de licencias para entrenamiento de IA y que las empresas tecnológicas lo han eludido, la defensa se complica. Si, por el contrario, aceptan que el entrenamiento con contenido accesible públicamente es un uso transformativo que no sustituye la explotación normal de la obra, las tecnológicas ganarían margen.
| Factor de fair use | Posible debate en el caso |
| Propósito y carácter del uso | Entrenamiento transformativo frente a explotación comercial |
| Naturaleza de la obra | Periodismo factual, pero con expresión protegida |
| Cantidad usada | Copia masiva frente a uso necesario para el modelo |
| Efecto en el mercado | Sustitución de tráfico, suscripciones y licencias |
| Paywalls | Puede afectar a la idea de disponibilidad pública |
| CMI | Debate paralelo bajo DMCA, no idéntico al fair use |
La existencia de acuerdos de licencia entre empresas de IA y algunos medios añade una capa más. Si el mercado ya está negociando licencias, los demandantes pueden sostener que hay una vía comercial viable. Las empresas de IA, en cambio, pueden responder que esos acuerdos son decisiones comerciales, no reconocimiento jurídico de obligación general.
Qué piden los editores al tribunal
La demanda solicita daños legales, daños compensatorios, restitución, disgorgement de beneficios, costas y honorarios. También pide medidas de cesación frente a las conductas consideradas ilícitas y, de forma destacada, una orden bajo 17 U.S.C. § 503(b) para que los demandados retiren todas las copias de las obras registradas de modelos GPT u otros LLM y de los conjuntos de entrenamiento.
Esta petición plantea una dificultad técnica y jurídica considerable. Retirar una obra concreta de un dataset puede ser posible si se identifica el archivo de entrenamiento. Retirarla de un modelo ya entrenado es mucho más complejo. La cuestión de la “desinfección” o eliminación de obras de modelos entrenados puede convertirse en uno de los debates prácticos más importantes de estos litigios.
| Remedio solicitado | Dificultad práctica |
| Daños estatutarios | Depende de obras registradas y voluntad infractora |
| Daños reales | Requiere acreditar perjuicio económico |
| Disgorgement | Exige vincular beneficios con la infracción |
| Injunction | Debe ajustarse a conducta y proporcionalidad |
| Retirada de copias de datasets | Puede depender de trazabilidad documental |
| Retirada de obras de modelos | Problema técnico complejo |
| Honorarios y costas | Posibles si prosperan las reclamaciones |
Para el sector legal, la petición de retirada es tan importante como la de indemnización. Una sentencia que obligase a limpiar datasets o modelos cambiaría la gestión de riesgo de toda la industria. Incluso sin llegar a una sentencia, una fase de discovery amplia podría forzar a las compañías de IA a revelar más sobre sus procesos internos de recopilación y entrenamiento.
Una demanda que puede acelerar la contratación de datos
El caso se suma a una oleada de litigios de autores, medios y titulares de derechos contra empresas de IA. Su rasgo diferencial es el protagonismo de la prensa local y regional. Estos editores no solo reclaman una compensación por el pasado. También buscan proteger una cadena económica que depende de tráfico, suscripciones, publicidad y licencias.
Para despachos, asesores internos y empresas tecnológicas, el mensaje es claro: la procedencia de los datos ya no puede tratarse como un asunto secundario de ingeniería. El entrenamiento de modelos, el fine-tuning, el RAG, los agentes que navegan por webs y la generación de respuestas con contenido recuperado en tiempo real tienen implicaciones contractuales, regulatorias y de propiedad intelectual.
La diligencia debida en IA empieza a parecerse cada vez más a una due diligence de contenidos. Qué datos se usan, con qué título jurídico, bajo qué términos de uso, si hay reservas de derechos, si se han respetado paywalls, si se conserva CMI, si existen logs de origen, si hay mecanismos de exclusión y si los contratos con proveedores cubren reclamaciones de terceros.
La demanda contra OpenAI y Microsoft no resolverá por sí sola el encaje legal de la IA generativa. Pero sí muestra hacia dónde se mueve el conflicto: del debate abstracto sobre si la IA “aprende como una persona” a una discusión documental, probatoria y contractual sobre copias, datasets, metadatos, términos de uso y dinero.
Para la industria legal, esa es la señal más importante. La inteligencia artificial ya no se litiga solo como tecnología emergente. Se litiga como cadena de suministro de contenidos.
Preguntas frecuentes
¿Qué tribunal tramita la demanda?
La demanda se presentó ante el United States District Court for the Southern District of New York, con número de asunto 26-cv-5320.
¿Qué normas invocan los demandantes?
El escrito invoca el Copyright Act estadounidense, la Digital Millennium Copyright Act y teorías de responsabilidad directa y vicaria por infracción de derechos de autor.
¿Por qué es importante la información CMI?
Porque identifica autoría, titularidad, avisos de copyright y condiciones de uso. Su retirada consciente puede dar lugar a responsabilidad específica bajo la DMCA.
¿Qué puede cambiar si prospera la demanda?
Podría reforzarse el mercado de licencias para entrenamiento de IA, aumentar las obligaciones de trazabilidad de datasets y elevar el riesgo jurídico para desarrolladores, proveedores cloud e integradores de modelos.



