GPTBot. Así se llama. OpenAI acaba de lanzar un nuevo rastreador (crawler) para entrenar a ChatGPT. Su bot escrapea el contenido de todas las webs para mejorar las respuestas generadas por su inteligencia artificial, salvo excepciones, como los muros de pago.

Así informa OpenAI de cómo acaba de lanzar un rastreador (crawler) que escrapea información de toda la web para así entrenar mejor las respuestas conversacionales de ChatGPT:
- «Las páginas web rastreadas con GPTBot pueden potencialmente usarse para mejorar modelos futuros y se filtran para eliminar fuentes que requieren acceso de pago, se sabe que recopilan información de identificación personal (PII) o tienen texto que viola nuestras políticas».
- «Permitir que GPTBot acceda a su sitio puede ayudar a que los modelos de IA sean más precisos y mejoren sus capacidades generales y su seguridad».
El raspado de contenido de GPTBot excluye muros de pago
Como vemos, la empresa de inteligencia artificial apuesta por una especie de comportamiento ético de raspado de contenido, proceso del que excluye a los muros de pago, además de información sensible que atenten contra la privacidad o que viole sus propias políticas.
El user agent de GPTBot es «GPTBot«.
Y se puede bloquear o permitir el acceso de GPTBot diferentes directorios un sitio usando el archivo robots.txt.
No en vano, OpenAI deja en mano de los propietarios de las webs la decisión o no de dejar que su bot se entrene con su contenido (ajeno a la tecnológica).
De esta manera, si las webs quieren impedir que GPTBot rastree su contenido o lo use éste para su entrenamiento, se puede bloqueara crawler de la siguiente manera
User-agent: GPTBot
Disallow: /
Muchos webmasters, no en vano, ya están detectando el escrapeo de este nuevo bot de raspado de contenido de OpenAI, con el consecuente consumo de tráfico inesperado en sus servidores, según detectó Seroundtable.
Hasta ahora, estas líneas de comando sólo blindaban contra los pluggins de ChatGPT, pero ahora OpenAI facilita bloquear también su raspado de información.
Recordemos que la llegada de la inteligencia artificial generativa -no solo ChatGPT, sino también Google BARD– está creando un aún silencioso debate entre la industria de medios de comunicación.
En Estados Unidos, en cambio, muchos editores ya han exigido a las compañías tecnológicas que remuneren el raspado de noticias para el mejorar sus IA. Incluso THE NEW YORK TIMES bloqueó todo intento de entrenamiento de estos bots.
En España, la patronal de periódicos impresos, la Asociación de Medios de Información (AMI), ya solicitó a Google y Microsoft que iniciaran las conversaciones de un futuro ‘canon ChatGPT‘, en lo que se presupone una nueva reedición del canon AEDE.
Dicha patronal, por otra parte, envió a sus asociados legacy media una serie de indicaciones para que incorporasen un mensaje en el código fuente de sus sites para que sirva de aviso legal, cuando un chatbot los escrapee.
Actualmente, pese a que la legislación permite a los medios negociar de manera individual con cada una de las grandes tecnológicas, la gestora de derechos CEDRO -bajo el posible cobro colectivo voluntario por intermediación- está posicionándose en esta nueva casuística.
La actual ley de Propiedad Intelectual española, reformada ad hoc para la resurrección de Google News en nuestro país por el decretazo Iceta, por otra parte, establece, junto con las correspondientes directivas comunitarias, el doble cobro a ChatGPT y BARD por entrenarse con noticias ajenas (se debe abonar royalties por el escrapeo y por la posterior compilación).
En esta coyuntura, la Unión Europea legislar en tiempo récord sobre estos nuevos avances en inteligencia artificial, además de que las agencias de protección de datos comunitarias investigan los posibles atentados a la privacidad de los usuarios, cuando éstos interactúan con estas IA generativas.
📩 Suscríbete a nuestra newsletter semanal que ya leen 1.200 directivos de los medios