• Saltar a la navegación principal
  • Saltar al contenido principal
  • Saltar a la barra lateral principal
  • Saltar al pie de página

#RedDePeriodistas

Noticias que mejoran audiencias

  • Inicia Sesión
  • Newsletter
  • ➜ Mejora tu Audiencia

OpenAI lanza GPTBot para entrenar a ChatGPT con el contenido en abierto de todas las webs

8 agosto, 2023 by David González

GPTBot. Así se llama. OpenAI acaba de lanzar un nuevo rastreador (crawler) para entrenar a ChatGPT. Su bot escrapea el contenido de todas las webs para mejorar las respuestas generadas por su inteligencia artificial, salvo excepciones, como los muros de pago.

GPTBot raspará todas las webs, menos excepciones, como los muros de pago.

Así informa OpenAI de cómo acaba de lanzar un rastreador (crawler) que escrapea información de toda la web para así entrenar mejor las respuestas conversacionales de ChatGPT:

  • «Las páginas web rastreadas con GPTBot pueden potencialmente usarse para mejorar modelos futuros y se filtran para eliminar fuentes que requieren acceso de pago, se sabe que recopilan información de identificación personal (PII) o tienen texto que viola nuestras políticas».
  • «Permitir que GPTBot acceda a su sitio puede ayudar a que los modelos de IA sean más precisos y mejoren sus capacidades generales y su seguridad».

El raspado de contenido de GPTBot excluye muros de pago

Como vemos, la empresa de inteligencia artificial apuesta por una especie de comportamiento ético de raspado de contenido, proceso del que excluye a los muros de pago, además de información sensible que atenten contra la privacidad o que viole sus propias políticas.

El user agent de GPTBot es «GPTBot«.

Y se puede bloquear o permitir el acceso de GPTBot diferentes directorios un sitio usando el archivo robots.txt.

No en vano, OpenAI deja en mano de los propietarios de las webs la decisión o no de dejar que su bot se entrene con su contenido (ajeno a la tecnológica).

De esta manera, si las webs quieren impedir que GPTBot rastree su contenido o lo use éste para su entrenamiento, se puede bloqueara crawler de la siguiente manera

User-agent: GPTBot
Disallow: /

Muchos webmasters, no en vano, ya están detectando el escrapeo de este nuevo bot de raspado de contenido de OpenAI, con el consecuente consumo de tráfico inesperado en sus servidores, según detectó Seroundtable.

Hasta ahora, estas líneas de comando sólo blindaban contra los pluggins de ChatGPT, pero ahora OpenAI facilita bloquear también su raspado de información.

Recordemos que la llegada de la inteligencia artificial generativa -no solo ChatGPT, sino también Google BARD– está creando un aún silencioso debate entre la industria de medios de comunicación.

En Estados Unidos, en cambio, muchos editores ya han exigido a las compañías tecnológicas que remuneren el raspado de noticias para el mejorar sus IA. Incluso THE NEW YORK TIMES bloqueó todo intento de entrenamiento de estos bots.

En España, la patronal de periódicos impresos, la Asociación de Medios de Información (AMI), ya solicitó a Google y Microsoft que iniciaran las conversaciones de un futuro ‘canon ChatGPT‘, en lo que se presupone una nueva reedición del canon AEDE.

Dicha patronal, por otra parte, envió a sus asociados legacy media una serie de indicaciones para que incorporasen un mensaje en el código fuente de sus sites para que sirva de aviso legal, cuando un chatbot los escrapee.

Actualmente, pese a que la legislación permite a los medios negociar de manera individual con cada una de las grandes tecnológicas, la gestora de derechos CEDRO -bajo el posible cobro colectivo voluntario por intermediación- está posicionándose en esta nueva casuística.

La actual ley de Propiedad Intelectual española, reformada ad hoc para la resurrección de Google News en nuestro país por el decretazo Iceta, por otra parte, establece, junto con las correspondientes directivas comunitarias, el doble cobro a ChatGPT y BARD por entrenarse con noticias ajenas (se debe abonar royalties por el escrapeo y por la posterior compilación).

En esta coyuntura, la Unión Europea legislar en tiempo récord sobre estos nuevos avances en inteligencia artificial, además de que las agencias de protección de datos comunitarias investigan los posibles atentados a la privacidad de los usuarios, cuando éstos interactúan con estas IA generativas.


📩 Suscríbete a nuestra newsletter semanal que ya leen 1.200 directivos de los medios

Publicado en: #ReddePeriodistas Premium, En Abierto, Noticias de Medios, Audiencias y Periodismo

Acerca de David González

Soy periodista y economista desde hace más de 20 años. Me especialicé en Cultura Digital, Tecnología y Negocios. Creé varios proyectos de contenidos digitales; trabajé y/o colaboré para medios nacionales e internacionales. Ahora, escribo sobre cómo fluctúan las audiencias de los medios y cómo impactan los cambios de algoritmo en su modelo de negocio, sobre todo, el de Google Discover. Actualmente, soy editor y fundador del diario digital ReddePeriodistas.com, Noticias que Mejoran Audiencias; y editor de su newsletter semanal, que ya leen más de 1.200 directivos de los medios en España y América Latina. Contáctame en LinkedIn. Sígueme en Twitter.

Google Discover

Cómo Ganar Audiencia con Google Discover

Google Discover envía al menos el 60% de tráfico a la mayora de los medios. Descubre cómo optimizar noticias para este nuevo algoritmo y sus últimos cambios.

Mejora tu Audiencia

Accede a Noticias que Mejoran Audiencias

Los medios podrán bloquedar el escrapeo de noticias de Google BARD

Google permitirá a los medios bloquear el escrapeo de noticias que entrenan a su inteligencia artificial

Google alerta de un nuevo cambio de algoritmo

Si Google te penalizó con la Helpful Content Update, tu tráfico nunca será el mismo

Google SGE se queda con las audiencias masivas.

¿Qué contenidos funcionarían mejor para hacer SEO en Google SGE?

Barra lateral principal

NEWSLETTER EXCLUSIVA

1.200 directivos de medios leen nuestra newsletter

Recibe, cada semana en tu mail, noticias que mejoran audiencias, entrevistas con directivos de los medios, modelos de negocio, más de 50 reportajes sobre Google Discover y los cambios de algoritmo de Facebook y Google.

Solicita Invitación

➜ Audiencias en Google Discover

Cinco causas que tumban el tráfico web de Google Discover

¿Adiós clickbait? Google Discover se verá sacudido por el segundo cambio de algoritmo de Google en un mes

Cómo usar Google Discover para recuperarse del desplome por un cambio de algoritmo de Google

#Tendencias Premium

Alerta del desplome de tráfico que traerá Google SGE cuando llegue a los resultados de búsqueda

Alertan de que Google SGE desploma el tráfico web el 64% de media cuando se activa sobre las búsquedas

Cómo poder detectar audiencias para aparecer en Google Discover

Cómo detectar audiencias para aparecer en Google Discover

Óscar Campillo, director de RELEVO: "RELEVO es un laboratorio para VOCENTO".

RELEVO ya sólo necesita multiplicar por cinco su audiencia para ser rentable como planea VOCENTO

Lo Último

EL ESPAÑOL supera los 40.000 suscriptores a su muro de pago y se acerca al objetivo planeado para 2024

Cómo utilizan las redacciones la inteligencia artificial

Cómo validar una newsletter como modelo de negocio

Google SGE | Noticias

Google SGE se queda con las audiencias masivas.

¿Qué contenidos funcionarían mejor para hacer SEO en Google SGE?

Estos serían los verticales y revistas con temáticas más afectadas por la llegada de Google SGE a las búsquedas.

¿Qué temáticas perderán más tráfico con Google SGE? Un estudio da la alerta roja a estos verticales y revistas

Google Discover se verá afectado por el segundo cambio de algoritmo de Google en el mismo mes: ¿Adiós clickbait?

¿Adiós clickbait? Google Discover se verá sacudido por el segundo cambio de algoritmo de Google en un mes

Footer

Privacidad

  • Condiciones de Uso y Contratación
  • Privacidad y Cookies
  • Pago Seguro – Stripe

Síguenos

  • LinkedIn
  • Telegram
  • Twitter

Miembros

  • Hazte Premium
  • Premium Plus
  • Inicia Sesión

Copyright © 2023 · ReddePeriodistas.com, diario digital de Noticias que Mejoran Audiencias · ISSN 2792-7679 · Todos los Derechos Reservados. Literactividadmedia SLU

  • Contacta
  • Nosotros
  • Solicitar Factura
  • Pago Seguro con Stripe