THE NEW YORK TIMES se blinda así contra ChatGPT y Google BARD para que no se entrenen con sus noticias

El diario neoyorquino se blinda contra el escrapeo de la inteligencia artificial generativa, afín de evitar que estas tecnologías se entrenen con su contenido. Así, THE NEW YORK TIMES bloquea el acceso y uso a sus noticias tanto para ChatGPT como para Google BARD.

THE NEW YORK TIMES bloquea ChatGPT para su inteligencia artificial no se entrene con sus noticias.

Ningún gran periódico estadounidense quiere que la inteligencia artificial les robe sus noticias.

Menos aún después de conocer una investigación de THE WASHINGTON POST, en la que se desveló el dataset C4 con que Google optimiza su inteligencia artificial (IA), vía contenido ajeno, sector económico por sector.

La industria de los medios es una de las más escrapeadas, y representan el 13% del total del contenido raspado de ese dataset para optimizarse con minería de textos.

Dentro de este segmento de mercado, estas tecnologías de IA accederían a las noticias de THE NEW YORK TIMESFORBESTHE GUARDIAN o el mencionado THE WASHINGTON POST, que son las más utilizadas para mejorar sus correspondientes IA.

Ésta es una base de datos, por otra parte, que estaría utilizando no solo Google, sino también OPEN IA para entrenar a ChatGPT a la hora de afinar sus conversaciones con los usuarios registrados o con aquéllos que pagan una tarifa recurrente por ChatGPT Plus.

«Common Crawl es un conjunto de datos abierto y de uso gratuito que contiene petabytes recopilados de la web desde 2008. La capacitación para GPT-3, el modelo base de ChatGPT, tomó un subconjunto de esos datos que cubren de 2016 a 2019. Esto fue 45 TB de texto sin formato comprimido antes del filtrado y solo 570 GB después. Esto equivale aproximadamente a 400 mil millones de tokens codificados», explica Denis Layton en un artículo.

El peso de este data set en el entrenamiento de ChatGPT, dice Layton, estaría estimado en el 60%, respecto al resto de base de datos que cita su análisis.

No en vano, las diferentes inteligencias artificiales no necesitan bucear en toda la internet para afinar su melodía.

Esta tecnología generativa necesita de datos y textos de alta calidad para no sufrir la denominadas alucinaciones (fallos en las respuestas).

Así, escalan sus interacciones hacia respuestas idóneas, con bases de datos mucho más pequeñas o bien subconjuntos de otras más grandes.

Sin embargo, en ambos casos, siempre las necesitan de mejor calidad para así poder crear, con muchas canciones, su propio hit (metáfora).

Ante todo esto, los movimientos de la prensa de Estados Unidos no se han hecho esperar, y ya existen voces que exigen que si la IA se optimiza con contenidos ajenos -los suyos- tienen que retribuir este doble uso -raspado y seudo clipping en las respuestas generativas-.

(En España, también se empieza a hablar del canon ChatGPT).

Por lo pronto, estas reclamaciones afectas al copyright no son las únicas medidas adoptadas al otro lado del Atlántico. Grandes periódicos, como THE NEW YORK TIMES ya han dado un paso más, pero dentro de las partituras de sus versiones online.

Así, El Times bloquea la utilización de sus noticias por parte de los chatbots que prospectan, escarban y compilan contenidos exclusivos para sus respuestas para sus conversaciones, en concreto el mencionado data set de Common Crawl.

THE NEW YORK TIMES ubica dicho bloqueo en las líneas del código fuente de su site, con un disallow, para evitar que sus noticias vitaminen el entrenamiento masivo de Google BARD o de ChatGPT, entre otros.

De esta manera, con un trozo de código en su archivo robot.txt impide el paso a los bots de IA –CCbot-, para así desactivar el raspado futuro del robot de Common Crawl ( no es un blindaje retroactivo).

En España, recordemos, los periódicos regionales del grupo VOCENTO ya adoptaron una medida similar contra ChatGPT en su código fuente, pero muy limitada.


Agradecimientos: Agradecemos a Fernando Maciá (Human Levels) la información compartida para la culminación de este artículo.


📩 Suscríbete a nuestra newsletter semanal que ya leen 1.200 directivos de los medios


▶︎ Conversa con discover GPT Pro, chatbot de IA entrenado para ganar audiencia en Google Discover

▶︎ Apúntate al canal de WhatsApp de #ReddePeriodistas

Consulta la GUÍA DISCOVER

No posts