Google permitirá a los medios bloquear el escrapeo de noticias que entrenan a su inteligencia artificial

Google-Extended es una nueva píldora envenenada del buscador, en un contexto de reclamación de pago de derechos de autor. Con esta nueva función, Google permitirá a los medios bloquear el escrapeo de noticias, raspado que entrena a sus modelos de inteligencia artificial, como BARD.

Los medios podrán bloquedar el escrapeo de noticias de Google BARD.

Unas semanas después de que una gran alianza mundial de la prensa le lanzara un mensaje nítido a Google -queremos un canon ChatGPT mundial, que también abone ALPHABET, la gran G toma nota y contraataca.

Básicamente, con un nuevo comunicado oficial, el buscador les indica a los medios que, si no paga derechos de autor por indexar noticias, tampoco parece que esté dispuesto a hacerlo por el escrapeo necesario para entrenar sus modelos de inteligencia artificial (IA).

Por eso, les informa de que ha inventado Google Extended o el método manual que tendrán los editores de bloquear el rastreo y compliación de sus contenidos para entrenar tanto a BARD, como al resto de futuras generaciones de IA.

De esta manera, deja en manos de los medios la posibilidad y la decisión de blindar el feed de noticias al que accede el robot de Google para que éste no alimente la mejora de respuestas que da, por ejemplo, el mencionado BARD.

El comunicado de Google, no en vano, se produce en una coyuntura en la que muchos medios están protegiéndose justo contra GPT Bot, el robot homólogo de OPEN AI, que escarba en internet, raspa el contenido y lo reutiliza para sus resúmenes de respuestas generativas.

¿Qué es Google Extended?

Desde hoy, por tanto, los responsables de los medios leen la literalidad del comunicado en el que se explica lo qué es Google Extended: la fórmula por la que Google facilita a los medios bloquear el escrapeo de noticias para entrenar y mejorar todas sus inteligencias artificiales.

Y el comunicado reza así:

«Los editores de contenidos en internet (…) nos han dicho que quieren tener un mayor grado de control sobre el uso que se hace de sus contenidos por parte de aplicaciones emergentes de IA generativa».

(Reconoce, por tanto, que existe un posible litigio a futuro entre la prensa y sus intereses de negocio sobre la IA).

«Por eso, hoy anunciamos Google-Extended, un nuevo control a disposición de los editores de contenidos, que les permite gestionar si el contenido de sus sitios se emplea o no para mejorar Bard, las API de Vertex AI y las futuras generaciones de los modelos de lenguaje en los que se apoyan estos productos».

(Vertex, recordemos, es una API para entrenar modelos de inteligencia artificial por la cual Google cobra por uso o volumen de uso, gratis no es).

«Con Google-Extended, el administrador de un sitio web podrá controlar el acceso a los contenidos del sitio, y decidir si ayuda o no a que estos modelos de IA sean más precisos y capaces con el tiempo».

(Técnicamente, con este párrafo, la gran G elude toda posible reclamación de derechos de autor, porque de manera voluntaria sus reclamantes le dan carta blanca para usar noticias para entrenar bots generativos).

«A medida que se expandan las aplicaciones de IA, a los editores les resultará cada vez más complejo gestionar los diferentes casos de uso. Por ello, nos comprometemos a colaborar con las comunidades de la web y de la IA para explorar otros enfoques legibles por computadora que permitan a los editores tener capacidad de elección y control».

(Es, quizás, éste el párrafo que más incertidumbre genera en el sector de Noticias, porque les dice que los modelos serán cada vez más avanzados, y, se supone, más complicados de bloquear).

Google Extended ni afectará al SEO ni a Google Adsense

Como vemos, mientras la industria de los medios ve cómo las grandes empresas de inteligencia artificial les pasa por encima con esta disrupción, usando a destajo sus contenidos sin ningún tipo de remuneración, ahora Google da el gran paso.

En sus especificaciones, no en vano, desvela que bloquear el entreno de la IA en el agente de Googlebot (robot.txt) no afectará al rastreo que realiza para indexar, posicionar o incluso despachar de manera personalizada publicidad (Google AdSense).

Ésta última acción (la publicitaria) era uno de los grandes condicionamientos por que los medios que facturan con programática no lo han hecho aún, como sí THE NEW YORK TIMES.

«Google-Extended doesn’t have a separate HTTP request user agent string. Crawling is done with existing Google user agent strings; the robots.txt user-agent token is used in a control capacity».

Así, te abre la puerta a bloquear su AI, y te asegura que esta decisión, presumiblemente, no hará desaparecer las noticias de la nueva frontera del SEO, el hecho de posicionar en Google SGE (Search Generative Experience).

Es la nueva experiencia de búsqueda, aún activa sólo en Estados Unidos, Japón e India, que todos los expertos en audiencias digitales anuncian que será un auténtico apocalipsis.


📩 Suscríbete a nuestra newsletter semanal que ya leen 1.200 directivos de los medios


▶︎ Conversa con discover GPT Pro, chatbot de IA entrenado para ganar audiencia en Google Discover

▶︎ Apúntate al canal de WhatsApp de #ReddePeriodistas


Más Noticias sobre Google SGE