Tecnología

conferencia I/O

Este invento de Google me hace pensar que el ChatGPT que uso desde hace meses está viejo

En 48 horas eso de comunicarse con texto escrito con una IA ha quedado obsoleto. La culpa la tienen las inteligencia artificiales multimodales que han presentado OpenAI o Google. Así funciona Astra, el asistente del futuro de Google

Foto: Sundar Pichai. Foto: Google — Sundar Pichai. Foto: Google

Por

Michael McLoughlin. Montain View (California)

15/05/2024 - 10:44

EC EXCLUSIVO Artículo solo para suscriptores

ChatGPT, un invento que apareció en nuestras vidas en la recta final de 2022, tiene el honor de haber sido la app que más rápido ha alcanzado los 100 millones de usuarios activos en la historia de la tecnología. Tardó solo dos meses. Hasta ese momento, este mérito correspondía a ese fenómeno viral de origen chino llamado TikTok, que tardó nueve meses en alcanzar esa misma cifra de usuarios. Aquello fue premonitorio y una señal de la expansión brutal que iba a alcanzar este desarrollo y de cómo iba a marcar el ritmo de una industria que se lanzaría sin pensarlo a una carrera loca para la conquista de la inteligencia artificial generativa, esa capaz de crear como lo haría un humano.

Apenas ha pasado año y medio de ese ‘big bang’ de la IA. Y en apenas 48 horas, herramientas como ChatGPT, Copilot o el chatbot antes conocido como Bard parecen haber quedado ya obsoletos. La culpa la tienen los últimos anuncios de OpenAI y Google que han puesto sobre la mesa una suerte de asistentes virtuales de próxima generación impulsados por IA que en el futuro prometen ser capaces de ver y entender lo que nos rodea y darnos respuestas e información sobre ello incluso sin que le preguntemos. Unos anuncios que han hecho que escribir en una caja en blanco y tener que escribir completísimos prompts parezca pasado de moda.

Foto: Sundar Pichai, durante la presentación. (Google)

TE PUEDE INTERESAR

Google abre su propia caja de los truenos: su nuevo buscador ya no es un experimento

Michael McLoughlin. Montain View (California)

Google celebra desde este martes su I/O, la conferencia anual de desarrolladores de la compañía que este año ha versado únicamente sobre inteligencia artificial. Los de Mountain View presentaron su nuevo buscador, que incluye entre los resultados resúmenes generados por Gemini. También mostraron otras muchas cosas, como nuevos modelos de lenguaje, herramientas para generar imagen y video con unas solas palabras o funciones capaces de encontrar respuestas en las fotografías que tenemos en nuestro teléfono.

"Asistentes de próxima generación"

Sin embargo, todas estas novedades quedaron eclipsadas por el Project Astra. Demis Hassabis, cofundador de DeepMind y mano derecha de Sundar Pichai en todo lo que tiene que ver con esta tecnología, lo anunció como “un asistente de próxima generación”. En la jerga más especializada también son conocidos como “agentes inteligentes”. En realidad, son desarrollos que son capaces de ver y escuchar lo que nos rodea y razonar sobre ello.

En el video de presentación, que la compañía asegura que no ha sido editado y que ha sido grabado en vivo, se puede ver cómo una joven recorre una oficina con la cámara de un teléfono encendido y va conversando con ell asistente. En el clip se ve cómo consigue identificar la fuente de una canción que está sonando y cómo responde a preguntas sobre los componentes del altavoz en cuestión.

Inmediatamente enfoca la pantalla de uno de los trabajadores y este desarrollo es capaz no solo de identificar que está picando código fuente, sino entender lo que está escribiendo y decir para qué sirve. Poco después, la joven enfoca por la ventana, pregunta y el sistema es capaz de reconocer que está en King Cross. Cuando le pregunta dónde olvidó sus gafas, el asistente es capaz de recordar y decir dónde estaban. En resumen, Astra es un desarrollo con la habilidad de entender nuestras peticiones de viva voz, identificar y comprender objetos y escenas a través de una cámara y conversar con nosotros de forma natural. La idea de futuro es que no necesitemos hacerle preguntas constantemente como ocurre en el vídeo y que pueda razonar al ver e identificar elementos y adelantarse a ello.

Este anuncio de Google hubiese sido todavía más impresionante si OpenAI no le hubiese contraprogramado este lunes con la presentación de algo tremendamente parecido. Un año después volvemos a vivir una situación parecida a la que vivimos cuando en 48 horas asistimos a la presentación por sorpresa de Bard y poco después a la presentación de Bing Chat, que posteriormente pasaría a llamarse Copilot. La empresa de Sam Altman presentó una nueva faceta de ChatGPT, propulsado por un nuevo modelo de lenguaje bautizado como GPT-4o.

GPT-4o a esta IA generativa conversar rápidamente por voz y hablar sobre lo que se ve a través de la cámara o en la pantalla de un ordenador, algo muy similar al concepto que presentó Google.Puede hacer comentarios simpáticos sobre un perro o también puede entender lo que un niño está intentando estudiar en el iPad y darle explicaciones para ayudarle a comprenderlo y memorizarlo. En uno de los ejemplos mostrados también era capaz de hacer de intérprete en tiempo real entre una persona que hablaba inglés y otra que hablaba italiano.

El anuncio de OpenAI resulta todavía más impactante, porque a diferencia del Project Astra, la voz es menos sintética, ya que hay más matices, entonación, risas e incluso algo parecido al sarcasmo. No son los primeros que intentan hacer algo así. Meta tiene algo similar desarrollado para sus gafas inteligentes, aunque solo funciona en inglés. Luego hay algunas startups, como Humane AI o Rabbit, que están intentando hacer lo mismo, incluso creando sus propios dispositivos para ejecutar estas herramientas.

Del texto al todo: multimodalidad

La clave de estos inventos es lo que se llama la multimodalidad. A diferencia del ChatGPT que muchos de los que leen estas líneas habrán utilizado, el entrenamiento no ha consistido únicamente en texto. También se les ha alimentado con ingentes cantidades de audio y video. Ser capaz de manejarse con todas estas fuentes es lo que le permite a estos desarrollos reconocer lo que nos rodea y contestarnos por sí solos, sin necesidad de recurrir a otra IA.

Este periódico ha podido asistir a varias demostraciones y poner a prueba algunas de las capacidades de Project Astra. El modelo con el que se ha desarrollado, por cierto, se basa en una evolución de Gemini Ultra 1.0, la IA más ambiciosa que ha creado la compañía.

En la primera de los encuentros, se podía ver cómo el sistema era capaz de reconocer un plátano, un pimiento y un dulce y hacer comentarios sobre el valor nutricional de cada uno y si tiene sentido cocinarlos juntos.

A continuación, uno de los ingenieros del proyecto ha ido colocando varios peluches con forma de animales. No solo ha identificado la especie, sino que también ha sido capaz de recordar los nombres o la posición de cada uno una vez los muñecos fueron sacados de plano. Esto demuestra que el sistema tiene memoria, un aspecto muy importante, aunque los responsables de la demo no han explicado qué capacidad temporal tiene Astra para recordar cosas. Durante la demostración también hubo un detalle que dio la idea, de que en algún momento, incluso puede hilar cosas y preguntarnos o concluir cosas sin que la digamos nada. Cuando la ingeniera que está colocando todos los peluches, retira absolutamente todos y empieza a hablar, el sistema se adelanta y dice: "¿Quieres presentarme a algún amigo más?".

Foto: ChatGPT 4o en un dispositivo móvil. (Getty Images/Jaap Arriens)

TE PUEDE INTERESAR

He hablado durante horas con GPT-4o, y si fuera Apple estaría muy preocupado

Albert Sanchis

“Es alucinante que puedas usar el mismo modelo para múltiples aplicaciones sin realizar ninguna especialización ni por el estilo”, reconocía Sergey Brin en un corrillo improvisado con este y otros medios que se formó cuando el cofundador de Google irrumpió de forma accidental en la demostración. Brin volvió a la primera línea de fuego una vez OpenAI se destapó como el rival a tener en cuenta en la supremacía por la IA y se puso a supervisar estos desarrollos de primera mano.

“Ese modelo lo desarrollamos originalmente como parte de una serie de modelos de prueba (de IA). En realidad, no esperábamos usar eso, pero resultó estar mucho más allá de nuestras expectativas”, aclaró Brin, que zanjó la conversación afirmando que día a día “van descubriendo nuevos usos inesperados” al experimentar con sus IA y los modelos que dan vida. Hassabis, en una entrevista con el medio especializado The Verge concedida antes del I/O y de la presentación de Open AI, reconocía que cuando lanzaron Gemini 1.5 Pro, la primera gran iteración de su inteligencia artificial generativa, es cuando se dieron cuenta de que tenían los elementos necesarios para que esto funcionase. Eso sí, eso ocurrió hace seis meses y durante este tiempo se han dedicado a optimizar el tiempo de respuesta y la latencia para que la experiencia resulte natural y fluida.

La otra demostración a la que ha podido asistir este periódico ha consistido en tres pruebas diferentes. En la primera, la máquina era capaz de reconocer diferentes objetos, hacer comentarios y responder preguntas sobre ellos.

En la segunda, ha sido capaz de inventarse un cuento donde los protagonistas eran un flamenco y un triceratops de juguete que estaba enfocando la cámara en ese momento. Y la tercera, y quizás más impresionante, ha sido la de jugar una partida de Pictionary. El operario encargado ha pintado una aleta sobresaliendo del mar y al preguntarle por el título de la película, Astra ha sabido interpretar que ese garabato hacía referencia a Tiburón. La segunda prueba era un dibujo de un barco navegando a punto de chocar contra lo que parecía un iceberg. Nuevamente, la máquina ha acertado y no ha dudado en pronunciar Titanic.

Todavía falta para que estas funcionalidades lleguen al común de los mortales. Cuando una tecnológica pone la etiqueta 'Project' junto al nombre de algo, es que a ese algo le queda trabajo por delante hasta hacerse una realidad comercial, si es que llega a ocurrir. Google asegura que algunas de sus capacidades de Astra llegarán a los usuarios de pago de Gemini a finales de este año.

Si cumplen esa promesa, hay que ver en qué condiciones, porque no ha concretado qué funciones son ni si lo que llegará se parecerá por asomo al concepto que ha mostrado. Y probablemente en Europa y otros lugares del mundo toque esperar, porque la receta de Google es lanzar primero en EEUU a pequeñísima escala y luego ya empezar a abrirlo en otros mercados. Entre una cosa y otra pueden pasar meses.

OpenAI ha corrido un poco más, pero tampoco ha dado acceso total a sus novedades. Los usuarios de ChatGPT Pro ya pueden conversar de viva voz con el chatbot con el nuevo modelo, pero este todavía no puede reconocer lo que se le enseña a través de la cámara. Tampoco han activado todavía la nueva voz, esa que acerca la experiencia de hablar con una máquina como si fuese humana en realidad.

A pesar de esto, el globo no ha tardado en hincharse un poco más y muchos ya señalan que este enorme salto supone un paso más hacia lo que se denomina inteligencia artificial general, esa que iguala e incluso supera las capacidades del ser humano. Este desarrollo, o el ritmo que se llevaba para alcanzarlo, es lo que provocó el pasado año el despido de ida y vuelta de Sam Altman y la guerra civil en OpenAI.

Foto: Sam Altman, CEO de OpenAI. (Reuters)

TE PUEDE INTERESAR

El caos de OpenAI es solo el inicio: esta es la gran guerra que viene por el control de la IA

Manuel Ángel Méndez Michael Mcloughlin Gráficos: EC Diseño

Precisamente, Ilya Sutskever, científico en jefe de la compañía y uno de los que promovió este golpe de estado, dejó este martes su puesto en la empresa para emprender su propio negocio. La dimisión llegó 24 horas después de la presentación de las novedades de ChatGPT. El propio Sutskever afirmaba en Twitter que confiaba en las capacidades de sus ya excompañeros para crear una inteligencia artificial general segura.

Volviendo a Project Astra, Hassabis ha repetido en varias intervenciones en las últimas horas que una IA general queda lejos, pero que este es un paso en esa dirección y hay que seguir haciendo pruebas y poniendo a punto todo. Algo que corroboran algunos de sus colaboradores de confianza en Google DeepMind. “Es importante hacer la experimentación correcta y asegurarnos de que tengamos las experiencias adecuadas y saquemos a la luz lo correcto”, afirmó Koray Kavukcuoglo, CTO de este departamento, quien señaló que los “agentes inteligentes” es algo que ya se ha visto en repetidas ocasiones, aunque cada vez son más capaces.

ChatGPT, un invento que apareció en nuestras vidas en la recta final de 2022, tiene el honor de haber sido la app que más rápido ha alcanzado los 100 millones de usuarios activos en la historia de la tecnología. Tardó solo dos meses. Hasta ese momento, este mérito correspondía a ese fenómeno viral de origen chino llamado TikTok, que tardó nueve meses en alcanzar esa misma cifra de usuarios. Aquello fue premonitorio y una señal de la expansión brutal que iba a alcanzar este desarrollo y de cómo iba a marcar el ritmo de una industria que se lanzaría sin pensarlo a una carrera loca para la conquista de la inteligencia artificial generativa, esa capaz de crear como lo haría un humano.

Google