no es el único afectado

Google aconseja la pasta con gasolina. El origen del problema está en los bajos fondos de internet

Un puñado de respuestas disparatadas levantan la polémica en torno a la IA en las búsquedas de Google. El problema, que también afecta en cierta medida a OpenAI, está en el material que usan para entrenar estos sistemas

Foto: Captura de pantalla de un resultado de búsqueda de Google tras implementar AI Overview. — Captura de pantalla de un resultado de búsqueda de Google tras implementar AI Overview.

Por

29/05/2024 - 05:00

"Los gatos pueden teletransportarse"; “Barack Obama es musulmán”; “Es saludable comer una piedra al día”; “El pegamento mejora la adhesividad del queso en la pizza”... Ya han pasado varios años desde que nos vendieron la idea de que las inteligencias artificiales generativas iban a cambiar nuestra vida muy pronto, incluida la manera en la que buscamos en internet. Promesas que hicieron que las grandes tecnológicas se enzarzaran en una carrera de tiempos contra la competencia y dejaran en un segundo plano una reflexión tan importante como con qué datos se estaban entrenando esos modelos de lenguaje. Las consecuencias están cada vez más claras. La crisis que Google está atravesando es probablemente la que más haya dado que hablar, pero no es algo exclusivo de los californianos.

Desde que OpenAI lanzó ChatGPT en 2022 y a la gente le voló la cabeza, la multinacional estuvo sudando sangre para mostrar al mundo sus capacidades en IA. En el último año, los de Mountain View han pisado el acelerador y en su conferencia anual de desarrolladores de la semana pasada anunciaron que abrían, tras meses de pruebas, su caja de los truenos. Entre todos los anuncios estaba AI Overview.

La compañía había conectado Gemini, su modelo de IA, a su producto más importante de largo, el buscador. El objetivo era “facilitar la búsqueda” combinando resultados generados a través de su IA con enlaces en la web. ¿Por qué recorrer páginas y anuncios para encontrar información si un chatbot puede darte una respuesta única y útil? Sonaba genial, pero las cosas no han salido tan bien como preveían.

Foto: Sundar Pichai, durante la presentación. (Google)

TE PUEDE INTERESAR

Google abre su propia caja de los truenos: su nuevo buscador ya no es un experimento

Michael McLoughlin. Montain View (California)

Desde que desembarcó la nueva funcionalidad de Google en el buscador, no han sido pocos los usuarios que han reportado resultados tan hilarantes como peligrosos. Un usuario compartía una búsqueda en la que la IA sugería “añadir pegamento no tóxico a la pizza para darle más adhesividad". Esta estrafalaria sugerencia no era una invención, sino que estaba copiando un comentario irónico de Reddit de hace 11 años.

Entre otros ejemplos, a la pregunta "¿cuántas piedras debo comer al día?", el buscador respondía que es saludable comer una piedra pequeña a diario para obtener vitaminas y minerales. Otra conclusión descabellada a la que había llegado por un artículo en The Onion en el que se hacía esta recomendación en un claro tono humorístico. También ofrecía recetas de espaguetis con gasolina, pero el peak se alcanzó arrojando un resultado que decía que Barack Obama es musulmán, un bulo recurrente en foros de extrema derecha.

Una vez se prendió la mecha, algunos usuarios intentaron aprovechar el caos para desordenar aún más, falsificando otros resultados y subiendo a las redes sociales capturas de pantalla falsas, como una que indicaba que la IA de Google sugería tirarse del puente Golden Gate como solución a la depresión. La compañía negó que su sistema alguna vez hubiera ofrecido este resultado, pero claro, el daño ya estaba hecho y la confianza en su IA puesta en entredicho. Sobre todo cuando algunos expertos reunieron algunos casos en los que el buscador había tenido fallos más graves a la hora de identificar especies de setas venenosas o dar consejos erróneos sobre qué hacer si te muerde una serpiente.

La multinacional ha defendido con insistencia su herramienta y ha señalado que la gran mayoría de consultas habían dado resultados de “alta calidad, con enlaces para profundizar en la web” y que, muchos de los resultados estrambóticos que habíamos visto en redes se debían a “consultas poco comunes, formuladas con el propósito de confundir a la IA y crear escenarios absurdos, o directamente que los usuarios habían compartido ejemplos manipulados”. La empresa se ha dedicado durante estos días a desactivar manualmente algunos de los resultados falsos.

Demasiadas prisas, demasiados errores

La mayoría de estos percances tienen su origen en la falta de tiempo y preparación. Google está actuando rápidamente para mantenerse al día con la competencia, incluso si eso se traduce en algún que otro bache en el camino. “Para comprender bien por qué han sucedido estos errores hay que detenernos en cómo se han entrenado, en cómo se filtran los datos de calidad en estos modelos. Se puede hacer por mecanismos que se conocen en la industria como ex-ante o ex-post. El primero es “limpiar” a través de validadores los datos de entrada al sistema. Es la mejor forma de control que hay para que aprenda bien. Pero esa metodología es compleja porque hay cantidades ingentes de datos y gasta muchos recursos y personas. El segundo se basa en filtrar los datos de salida del sistema: los validadores ven los resultados y si no les gustan los eliminan manualmente. Este es ahora el método más común porque es más barato y más rápido, pero es peor”, explica Antonio Flores, experto en IA que asesora a la Comisión Europea y autor de Una Mente Infinita.

Que la mayoría de modelos de IA tienen alucinaciones y ofrecen datos erróneos o desactualizados es una realidad, es algo que hemos visto en la mayoría de productos que se han lanzado al mercado, incluidas grandes compañías como OpenAI. Sin embargo, el precio a pagar de Google en este caso es más alto al estar su IA integrada en un motor de búsqueda que usan a diario millones de personas. “Es un tema de expectativas. Google es una empresa vieja y la gente lleva 20 años usando su buscador. Si ahora dan una vuelta de tuerca y meten algo que está prácticamente en fase experiencial, va a hacer mucho más ruido. En ChatGPT, por el contrario, la gente va con una percepción de que se trata de algo nuevo, que puede dar errores. A Google le ha costado más caro esa premura por salir al mercado y se les puede volver en su contra”, añade Flores.

Además, Google lleva varios disparos errados, meteduras de pata que, aunque la competencia también ha tenido, han terminado abriendo las portadas de periódicos y revistas de tecnología. Hace tres meses, Google tuvo que frenar el despliegue de su generador de imágenes porque la herramienta se propasó en dotar de inclusividad a sus resultados, presentando a soldados nazis negros o asiáticos. Sundar Pichai, CEO de la empresa, se disculpó públicamente por el desliz. "Sé que algunas de sus respuestas han ofendido a nuestros usuarios y han mostrado prejuicios. Es inaceptable y nos hemos equivocado". El valor en bolsa se desplomó 90.000 millones. Hubo un episodio todavía más caro. A principios de 2023, cuando Bard se presentó en una demo pregrabada, un error de bulto le costó a Alphabet otros 100.000 millones de capitalización bursátil.

Que una IA se salga de madre y ofrezca resultados no planificados por quienes la diseñaron y la entrenaron no es algo que sea nuevo. En el pasado le ha ocurrido también a Microsoft, Amazon o Meta. Estas empresas tuvieron que desenchufar sistemas de este tipo porque se habían inventado un lenguaje propio ininteligible para sus desarrolladores o porque se habían puesto a soltar proclamas xenófobas al poco tiempo de estar en contacto con los usuarios.

El descocado ChatGPT chino

Pero todos estos episodios son previos al big bang de la inteligencia artificial generativa que provocó ChatGPT. El campo de juego ahora es infinitamente más grande y los fallos pueden afectar a muchísimas más personas y pueden provocar daños significativos en la reputación de las compañías, en su capitalización o en su cuenta de resultados. OpenAI, su principal rival en esta contienda tecnológica, también ha sufrido un caos similar en los últimos días. Al poco de liberar su último modelo, GPT-4o, los usuarios que utilizaron el chatbot en chino empezaron a notar un comportamiento errático en sus respuestas. Tianle Cai, un investigador de la Universidad de Princeton, detectó que el problema residía en que los tokens estaban contaminados con expresiones y palabras utilizadas en páginas pornográficas, webs de apuestas y campañas de spam.

Los tokens son como piezas de un rompecabezas que representan palabras o partes de palabras. Los modelos de inteligencia artificial utilizan estas piezas para entender y procesar el lenguaje y, por tanto, nuestras peticiones. Si las personas razonan con palabras, se podría resumir grosso modo que los chatbots lo hacen con los tokens. Cuanta más cantidad haya y más largos sean, se presupone que más capaz es la IA en cuestión. Uno de los grandes anuncios de Google en el I/O, por ejemplo, fue que una de las versiones de Gemini soportaba dos millones de tokens.

Para generar esos tokens, los desarrolladores crean lo que se conoce como tokenizador, que sería una suerte de cuchillo encargado de dividir las frases y palabras. El problema de OpenAI, según explicó el investigador y estudiante de Princeton en Twitter, parece residir en la base de datos que se ha utilizado para entrenarlo, un conjunto de textos conocidos como corpus. De lo que se come se cría y, por tanto, si cargas un corpus de referencias pornográficas es completamente lógico que sus respuestas las reflejen.

¿Quiere decir esto que OpenAI ha estado entrando el ChatGPT chino en páginas webs para adultos? No necesariamente. El MIT Technology Review apuntaba, tras hablar con algunos expertos, a que el problema se debía a dos causas principales. La primera, la indexación de ese contenido, que podía no haber sido conscientemente. Aunque hayan evitado todas esas plataformas, hay cientos de miles de páginas webs que se dedican a crear contenido de paja para posicionarse en buscadores. Estos sitios sirven para poder mostrar campañas relacionadas con estos contenidos sin que salten los filtros de spam o de verificación de edad.

Es de sobra conocida la voracidad con la que las empresas de IA fagocitan los contenidos de internet para entrenar y mejorar sus sistemas. No es de extrañar, por tanto, que hayan recolectado esto también. “El caso de OpenAI no es exactamente el mismo problema que el pegamento y el queso de Google”, explica José Luis Calvo, ingeniero y fundador de Diverge AI, que explica que los problemas de cada empresa se han vivido en partes diferentes del sistema. “Sin embargo, están relacionados con lo mismo: el uso, por así decirlo, de texto de baja calidad”.

La utopía de una AGI

Este parece el punto de conexión con la crisis que está atravesando Google. ¿Por qué Overviews AI consideró esos resultados tan surrealistas como las mejores respuestas? La respuesta es sencilla: utilizó datos y contenido de Reddit para entrenar Gemini. Hace poco, licenció todo el contenido del foro más famoso de internet en un acuerdo valorado en 60 millones de euros al año. Eso quiere decir que su modelo se entrena con millones de comentarios de la plataforma: algunos muy útiles, otros todo lo contrario. Si entrenas a una máquina con información falsa, o con sesgos, compras todas las papeletas para que esto se refleje en su funcionamiento. Es lo que los desarrolladores llaman garbage in, garbage out.

“Internet está llena de mucha basura y muy poca información de calidad. Por eso es esencial que estos modelos se entrenen donde realmente está el conocimiento: revistas científicas, libros, periódicos, información institucional, etc”, apunta Flores. El principal fallo no reside únicamente en recoger esos textos, sino en no haberlos limpiado adecuadamente antes de utilizarlos para el entrenamiento. Un proceso que se suele hacer manualmente, por parte de subcontratas que suelen estar localizadas en países con salarios mucho más bajos.

Flores también hace hincapié en que el problema reside muchas veces en que la IA, aunque razona e intenta imitar cómo funciona el cerebro de una persona, tiene una falta de contexto de los datos que ha absorbido: “Las personas, cuando ven algo que no les cuadra, es porque tienen algo de contexto, memoria, experiencias vitales… Las IA, como son tan nuevas, no tienen aún ese contexto incorporado, pero es una cuestión de tiempo y de uso que lo consigan”.

Este es un problema al que se le están buscando soluciones. Por ejemplo, Microsoft está explorando lo que se conoce como modelo Phi. Son modelos diseñados para el procesamiento de lenguaje natural pero, al contrario de otros, son mucho más eficientes en el uso y cantidad de tokens que necesitan para funcionar. Eso permitiría, por ejemplo, un mayor control y una supervisión más sencilla durante el entrenamiento. “Lo que pretende solucionar este tipo de modelos son errores como el de Google, que vienen dados por priorizar el volumen de información, algo que hace que se introduzca mucho texto ‘malo’”, explica Calvo. “El salto que logró OpenAI en GPT-3 fue por volumen. Ahora están en otra fase, su foco está en conseguir el mismo entendimiento del lenguaje y conocimiento con menos texto y más cuidado”.

Foto: Ilustración: Sofía Sisqués (EC Diseño)

TE PUEDE INTERESAR

Silicon Valley promete que vivirás como en la película 'Her'. La realidad es más complicada

Michael Mcloughlin Ilustración: Sofía Sisqués

Cada empresa afronta el riesgo a su manera. Mientras ChatGPT opta por poner un aviso a pie de página advirtiendo de los posibles errores, Google además ha incluido un verificador que señala partes erróneas o confusas de las respuestas y ofrece enlaces a contenidos que refutan esa información o la matizan. Esto hace preguntarse si la verdadera utilidad del invento. ¿Merece la pena incluir estas respuestas rápidas si luego tenemos que andar navegando por diferentes enlaces para confirmar esa información? El propio Sundar Pichai se pronunció sobre esto en una entrevista de The Verge y dijo que, aunque la herramienta se puede equivocar a veces, la atención tenía que estar puesta en la utilidad que aportaba. Calvo cree que no es "fácil" solucionar el problema que tiene Google, en la medida que su IA aspira a funcionar de buscador de la información de la web, la nueva y la vieja, y siempre va a haber alguien intentando beneficiarse de la falta de comprensión de estos sistemas. "Va a ver gente que para ellos va a ser un juego".

Las empresas de inteligencia artificial se han empeñado en vender que esta tecnología generativa pasará de un porcentaje de acierto del 80% al 100% muy pronto, pero la realidad es que lograrlo es extremadamente difícil. Yann LeCun, uno de los académicos más reputados en deep learning y machine learning y responsable de esta área en Meta, incluso cree que los sistemas actuales, como Gemini de Google y GPT-4 de OpenAI, no serán los que den paso a una AGI, una inteligencia artificial que supere a la humana e incluso aprender cosas por su cuenta.

Inteligencia Artificial Google

El redactor recomienda

Este invento de Google me hace pensar que el ChatGPT que uso desde hace meses está viejo Michael McLoughlin. Montain View (California)
Pelea de 'gallos' entre Elon Musk y el capo de IA de Meta: "¿Tú qué sabes de ciencia?" Pablo Rey
He hablado durante horas con GPT-4o, y si fuera Apple estaría muy preocupado Albert Sanchis