Home Primera Plana OpenAI acusa a The New York Times de hackear ChatGPT

OpenAI acusa a The New York Times de hackear ChatGPT

by Redacción Generación Y
382 views

La empresa creadora de ChatGPT argumenta que el Times se aprovechó y explotó “errores” conocidos en el modelo de IA, como los delirios, para sentar las bases de su demanda.

OpenAI asegura osadamente que The New York Times “le pagó a alguien para que hackeara los productos de OpenAI”, como ChatGPT, con el fin de “preparar” una demanda contra la principal fabricante de inteligencia artificial (IA).

En un documento presentado el lunes ante el tribunal a cargo del caso, OpenAI argumentó que “los 100 ejemplos en los que alguna versión del modelo GPT-4 de OpenAI supuestamente generó varios párrafos de contenido del Times como resultados en respuesta a las solicitudes de los usuarios” no reflejan la forma en que la gente común usa ChatGPT.

En lugar de ello, supuestamente el Times necesitó “decenas de miles de intentos para generar” estos supuestos “resultados altamente atípicos” mediante “la selección y explotación de un error” que OpenAI asegura actualmente “está comprometida a solucionar”.

OpenAI contraataca la demanda de The New York Times

Ars Technica

Este artículo fue publicado originalmente en Ars Technica, una fuente confiable de noticias tecnológicas, análisis de políticas de tecnología, reseñas y más. Ars es propiedad de la empresa matriz de WIRED, Condé Nast.

Según OpenAI, esta actividad equivale a “ataques forzados” por un “asesino a sueldo”, que supuestamente hackeó los modelos de OpenAI hasta que deliraron con contenidos falsos del Times o reutilizaron sus datos de entrenamiento para replicar los artículos del medio de comunicación. Supuestamente, el Times pagó estos “ataques” para reunir pruebas que respaldaran sus acusaciones de que los productos de OpenAI ponen en peligro su periodismo al emplear aparentemente la información y robarle audiencia.

“Sin embargo, contrariamente a las acusaciones de la demanda, ChatGPT no es en modo alguno un sustituto de una suscripción a The New York Times”, sostiene OpenAI en una moción que pretende desestimar la mayoría de las demandas de la editorial. “En el mundo real, la gente no usa ChatGPT ni ningún otro producto de OpenAI con ese fin. Ni podrían hacerlo. En el día a día, no se puede emplear ChatGPT para presentar artículos del Times a voluntad”.

En su petición, OpenAI describía que el Times estuvo reportando con entusiasmo sobre sus desarrollos de chatbot durante años sin que esto le planteara ninguna inquietud por la infracción de los derechos de autor. OpenAI señaló que había revelado que los artículos del Times se empleaban para entrenar sus modelos de IA en 2020, pero que el medio de comunicación únicamente se preocupó después de que la popularidad de ChatGPT explotara tras su debut en 2022.

De acuerdo con OpenAI, “solo después de esta rápida adopción, junto con los informes sobre el valor liberado por estas nuevas tecnologías, el Times reclamó que OpenAI había ‘infringido sus derechos de autor’ y se puso en contacto para requerir ‘cláusulas comerciales’. Tras meses de discusiones, el Times presentó una demanda dos días después de Navidad, exigiendo ‘miles de millones de dólares’”.

Ian Crosby, socio de Susman Godfrey y abogado principal de The New York Times, compartió con a Ars Technica que “lo que OpenAI califica de ‘hackeo’ es simplemente utilizar los productos de OpenAI para buscar pruebas de que robaron y reprodujeron las obras protegidas por derechos de autor del Times. Y eso es exactamente lo que encontramos. De hecho, la cantidad de las copias de OpenAI es mucho mayor que los más de 100 ejemplos expuestos en la demanda”.

Crosby indicó a Ars que la petición de OpenAI, en particular, “no niega, ni puede hacerlo, que copiaron millones de obras del Times para construir y alimentar sus productos comerciales sin nuestro permiso”.

“Construir nuevos productos no es excusa para violar la ley de derechos de autor, y eso es exactamente lo que hizo OpenAI a una escala sin precedentes”, resaltó Crosby.

OpenAI sostiene que el tribunal debería desestimar las demandas por derechos de autor directos, infracción indirecta, violación de la Ley de Derechos de Autor de la Era Digital y apropiación indebida, todas las cuales califica como “jurídicamente infundadas”. Algunas no son admisibles porque quedan obsoletas, ya que pretenden obtener una indemnización por los datos de entrenamiento de los modelos más antiguos de OpenAI. Otras supuestamente no tiene validez porque no contemplan el uso legítimo o porque las leyes federales se oponen a ellas.

Si se acepta la moción de OpenAI, el caso se simplificaría considerablemente. Pero si no es así y el Times acaba ganando (y podría hacerlo), la empresa se vería obligada a borrar los datos de entrenamiento de ChatGPT y empezar de nuevo.

“OpenAI, que ha sido reservada y ha ocultado deliberadamente cómo funcionan sus productos, alega ahora que es demasiado tarde para presentar una demanda por infracción o exigirles que rindan cuentas. No estamos de acuerdo”, declaró Crosby a Ars Technica. “Cabe destacar que OpenAI no niega que copió obras del Times sin permiso dentro del periodo de vigencia para entrenar sus modelos más recientes y actuales”.

OpenAI no respondió inmediatamente a la solicitud de comentarios de Ars Technica.

¿Cómo “ hackeó” el Times a ChatGPT?

OpenAI aseguró que The New York Times se valió de prompts engañosos, como preguntarle repetidamente a ChatGPT “¿cuál es la siguiente frase?” para atacar “dos fenómenos poco frecuentes y no intencionados” tanto en sus herramientas de desarrollo como en ChatGPT: la reutilización de datos de entrenamiento y los delirios o alucinaciones del modelo.

Estos parecen ser el “error” que OpenAI acusa al Times de explotar para “hackear” los modelos de GPT.

Según OpenAI, la reutilización de los datos de entrenamiento se produce cuando las herramientas de IA generan “una muestra que se parece mucho a sus datos de entrenamiento”, lo que “ocurre con mayor frecuencia” cuando el “conjunto contiene una serie de observaciones muy similares, como duplicados” de un escrito concreto. OpenAI comparó esto con un estadounidense que oye la frase “juro lealtad” y “por reflejo” responde para completar el texto diciendo: “a la bandera de los Estados Unidos de América”.

El Times supuestamente aprovechó este error al solicitarle a las herramientas de OpenAI el “párrafo inicial” de un artículo específico y, posteriormente, la “frase siguiente”. Pero incluso esta táctica, según OpenAI, no se podría emplear para generar un artículo entero, sino “citas dispersas y fuera de orden”.

OpenAI acusó al Times de engañar deliberadamente al tribunal mediante el uso de “elipsis para ocultar” el orden en que ChatGPT soltaba partes del contenido del medio de comunicación. Esto, alegó OpenAI, creó “la falsa impresión de que ChatGPT reutilizaba fragmentos secuenciales e ininterrumpidos de los artículos”.

Las principales quejas de OpenAI ante la demanda de The New York Times

OpenAI se muestra frustrada por el hecho de que el Times supuestamente dedicara mucho tiempo a investigar sus productos en busca de estos errores sin alertar a la empresa ni intentar colaborar en la búsqueda de soluciones.

“Más bien, el Times se guardó estos resultados para sí mismo, aparentemente para preparar esta demanda”, se leía en la petición de OpenAI.

Según parece, OpenAI no había oído hablar de ninguno de estos temas hasta que se enfrentó a los ejemplos de reutilización y delirios citados en la demanda del Times. Y los ejemplos de la denuncia supuestamente no dan a OpenAI mucho con lo que trabajar actualmente, porque el Times sigue sin explicar claramente cómo generó los resultados presuntamente infractores.

“El Times no reveló qué parámetros utilizó ni si empleó un prompt de ‘Sistema’ para, por ejemplo, ordenar al modelo que ‘actuara como un reportero de The New York Times y reprodujera literalmente el texto de los artículos de noticias’”, argumentó OpenAI.

OpenAI pudo deducir que los ejemplos del medio de comunicación no parecían citar materiales actuales “que los suscriptores del Times tienen más probabilidades de leer en el sitio web”, sino “artículos mucho más antiguos publicados entre 2.5 y 12 años [atrás]”. Esto debilitaría las acusaciones del Times de que ChatGPT podría considerarse un sustituto, lo que provocaría posiblemente que los suscriptores de la publicación dejaran de pagar por el acceso, ya que ChatGPT no suele reutilizar artículos más recientes. Esto quizá se deba a que gran parte de los datos de entrenamiento de OpenAI proceden de sitios de redes sociales en los que el contenido más antiguo del Times ha circulado con más frecuencia.

Según OpenAI, al menos una de las reclamaciones por derechos de autor del Timesfracasará porque el medio de comunicación nunca notificó a OpenAI las preocupaciones que constituyen el núcleo de su demanda.

“Debe alegar que OpenAI ‘tenía conocimiento’ de la creación por parte del Times de esos productos”, sostuvo la compañía, asegurando que no tenía “motivos para sospechar que esto estaba ocurriendo”.

El Times denuncia que OpenAI diseñó a sabiendas sus productos para hacer referencia a sus artículos, desviando potencialmente la atención de los lectores, sin ofrecer a la publicación pagar por la licencia de su contenido.

La concesión de licencias de datos, en lugar de entrenar modelos con información pública, ha sido adoptada cada vez más por algunos fabricantes de IA en algunos casos, incluida OpenAI, aparentemente para evitar los conflictos aparentes derivados de la ley de derechos de autor. Algunos legisladores creen que las empresas de IA deberían pagar por todos sus datos de entrenamiento, una postura política a la que se oponen algunas compañías como OpenAI, que “argumentan que no es viable obtener la licencia de todos los datos de entrenamiento”, como informamos en WIRED en Español.

“Desarrollar tecnología de manera que cumpla las leyes de derechos de autor establecidas es una prioridad de toda la industria”, subrayó Crosby a Ars Technica. “La decisión de OpenAI y otros desarrolladores de IA generativa de llegar a acuerdos con editoriales de noticias solo confirma que saben que su uso no autorizado de obras protegidas por derechos de autor dista mucho de ser ‘legítimo’”.

Artículo publicado originalmente en Ars Technica. Adaptado por Andrei Osornio.

Publicaciones Relacionadas

Deja un comentario

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More

Privacy & Cookies Policy
Social media & sharing icons powered by UltimatelySocial