Perplexity lo justifica

Amazon investiga a una de las 'startups' de moda por 'saquear' contenido para entrenar su IA

La multinacional sospecha de Perplexity por saltarse las normas y emplear una técnica para captar contenido de terceros. Este es un caso más en el gran debate en torno a esta tecnología.

Amazon Logo. (Reuters / Chris Helgren)

Por

01/07/2024 - 17:53

Amazon Web Services (AWS) ha comenzado una investigación sobre el funcionamiento de Perplexity para conocer si esta empresa, que emplea sus servidores, utiliza la técnica web scrapping para entrenar sus modelos de Inteligencia Artificial (IA).

El también conocido como raspado de datos es un proceso mediante el cual se filtra y almacena información mediante un software que extrae el código HTML de estos sitios, lo que se compara con el proceso automático de copiado y pegado.

Perplexity es un motor de búsqueda impulsado por IA fundado en 2022 en Estados Unidos. Entre sus fundadores se encuentra un extrabajador de OpenAI y Google, Aravind Srinivas, que ejerce director ejecutivo. La compañía está valorada en más de 2.800 millones de euros.

Estas acusaciones se suman a una larga cadena que pone de manifiesto el gran debate sobre propiedad intelectual, derechos de autor y el supuesrto plagio que suponen los modelos de IA. El más conocido de estos enfrentamientos es el que mantiene el New York Times con OpenAI y Microsoft, por presuntamente entrenar ChatGPT con sus contenidos pero sin su autorización.

Elon Musk también ha sido muy beligerante en este asunto, al entender que diversas compañías se aprovechaban del contenido de X.com (la red social antes conocida como Twitter).

TE PUEDE INTERESAR

La IA se está envenenando a sí misma y las tecnológicas no quieren hablar de ello

Albert Sanchis

El desarrollador Robb Knight y Wired habrían descubierto recientemente que la startup de búsquedas con IA Perplexity habría violado el conocido como Protocolo de Exclusión de Robots de ciertas páginas web al ejecutar esta técnica para entrenar sus modelos de IA.

Este protocolo responde a una norma web que consiste en colocar un archivo de texto sin formato (robots.txt) en un dominio para señalar a qué páginas no deben acceder los robots y rastradores automatizados, tal y como explica dicho medio.

Esto es una prueba de funcionamiento de los sumarios en el CMS

En base a estas acusaciones, Amazon Web Services ha dado comienzo a una investigación para determinar si Perplexity, que emplea AWS para entrenar su IA, está infringiendo las normas y ejecutando web scrapping en sitios web que intentaban impedírselo.

Así lo ha confirmado a Wired un portavoz de AWS, que ha recordado que en sus términos prohíbe a sus clientes usar sus servicios para cualquier actividad ilegal y que estos son responsables de cumplir con sus condiciones "y todas las leyes aplicables".

Desde la startup han indicado que Perplexity "respeta robots.txt" y que los servicios que controla "no realizan un rastreo de ninguna forma que infrinja las condiciones de servicio de AWS", en palabras de la portavoz Sara Platnick.

Las excepciones del 'bot' de Perplexity

Esta, no obstante, ha explicado que su bot ignora el archivo robots.txt cuando un usuario introduzca una url en su consulta, un caso de uso "no frecuente". "Cuando un usuario indica una url específica no desencadena un comportamiento de rastreo" sino que "el agente actúa en nombre del usuario para recuperar la url. Funciona igual que si este fuera a una página, copiara el texto del artículo y después lo pegara en el sistema", ha dicho.

En este sentido, Wired ha subrayado que, según la descripción de la portavoz, se confirman que las investigaciones que ha llevado a cabo son veraces y que su chatbot ignora robots.txt en ciertos casos para recopilar información de forma no autorizada.

Inteligencia Artificial

El redactor recomienda

Silicon Valley promete que vivirás como en la película 'Her'. La realidad es más complicada Michael Mcloughlin Ilustración: Sofía Sisqués
He hablado durante horas con GPT-4o, y si fuera Apple estaría muy preocupado Albert Sanchis
Este gigante va a usar IA para controlar el estrés de su plantilla. Es un adelanto de lo que te espera pronto M. MC.