El gran scraping de la web de las IA generativas: ¿fair use o robo a los creadores?

Los grandes modelos de lenguaje como ChatGPT o Stable Diffusion han sido posibles gracias a la extracción masiva de datos de la web pública. Varias demandas de los creadores de contenido se basan en el derecho de autor, mientras las empresas de IA argumentan que hay fair use, uso legítimo.

El scraping es una parte de la minería de datos, avalada por las leyes europeas, pero con excepciones. Hay muchas cosas a definir para saber si el movimiento de las empresas de IA al entrenar sus modelos con media web puede ganar las demandas. Entre ellas, dirimir si una IA «copia» o «lee», si «aprende» o «reproduce».

“Si un redactor del Wall Street Journal leyera artículos del New York Times sobre un tema y luego escribiera su propio artículo, siempre que sólo copiara hechos e información pero no la expresión, no habría violación de los derechos de autor. Entonces, ¿por qué habría una infracción en el caso de la IA?”, le leí esto a Jeremy Paul y enseguida lo contacté para que me explicase por qué entonces el New York Times está evaluando demandar también a OpenAI y por qué estos cerraron un acuerdo con Associated Press.

David Maeztu me dijo que si existe reproducción (copia de la obra en un soporte que permita la obtención de copias) no se puede copiar sin autorización del autor, así que sólo quedaba hablar un desarrollador que me explicase si en el entrenamiento o en el scraping hay copia o no. El resultado es este reportaje sobre el dilema del fair use en relación con la IA que hemos publicado en Newtral, y este artículo sobre el scraping y cuándo es legal.

[Archive]

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.