conferencia I/O

Google abre su propia caja de los truenos: su nuevo buscador ya no es un experimento

Tras 12 meses en pruebas, Google da el paso de incorporar IA generativa en su producto más importante. Además, ha anunciado un proyecto para crear un nuevo asistente y un rival para Sora, la IA de videos de OpenAI

Foto: Sundar Pichai, durante la presentación. (Google) — Sundar Pichai, durante la presentación. (Google)

Por

Michael McLoughlin. Montain View (California)

14/05/2024 - 19:55

Cuando se habla de Google e inteligencia artificial generativa conviene refrescar un episodio que sucedió a principios de 2023. Microsoft y OpenAI tenían un sarao convocado en el que se iba a anunciar y explicar cómo iban a utilizar la tecnología que daba vida a ChatGPT en su navegador Edge y en su buscador Bing. A los de Mountain View les entraron las prisas y contraprogramaron el evento con el anuncio sorpresa de Bard.

La puesta de largo consistió en decir que el chatbot existía, que se iba a empezar a poner a prueba en pequeños círculos de confianza. Lo único que mostraron fueron un par de ejemplos preparados previamente para ver cómo la herramienta iba a contestar a nuestras preguntas, pero nada de ponerlo a funcionar y a disposición del público general como iban a hacer sus rivales en esta contienda. En una de las respuestas, Bard cometió un pequeño error que tuvo un impacto enorme en la cotización de Alphabet: 100.000 millones de dólares de capitalización se esfumaron en unas pocas horas.

Foto: OpenAI revela durante su evento las características de GPT-4o, su nuevo modelo de IA.

TE PUEDE INTERESAR

OpenAI revela GPT-4o, su IA más potente hasta la fecha (y es gratuita)

Albert Sanchis

Este capítulo sirve para ejemplificar todo lo que Google, uno de los grandes triunfadores de internet del último cuarto de siglo y responsable de la forma en la que millones de personas buscan información y navegan cada día en todo el mundo, se juega con la IA generativa. También para justificar el celo excesiva y su obsesión por evitar dar fechas concretas para el lanzamiento de los inventos relacionados con esta tecnología mientras sus competidores no dejan de poner avances en el mercado.

El uso de estas herramientas en las búsquedas, la viga maestra de su negocio, ha sido casi un tema tabú y se ha tratado con la máxima cautela y discreción. Cualquier paso en falso podía tener un efecto tremendo, como ya demostró en su presentación Bard, ahora conocido como Gemini.

Pero ahora, la compañía está dispuesta a abrir esta caja de los truenos. En la jornada inaugural del Google I/O, su conferencia anual de desarrolladores, ha anunciado que su buscador con inteligencia artificial generativa deja de ser un experimento cerrado y hermético y que empieza a estar disponible en abierto. De momento, para cualquier persona en Estados Unidos. "Pronto" - a finales de año apuntan algunos medios- llegará a más países. En los próximos meses, tendremos confirmación o no de los pronósticos que auguran que el tráfico de ciertas páginas se reducirá notablemente.

Un paso que ha tardado 12 meses

La compañía dirigida por Sundar Pichai ha tardado doce meses en dar este paso. Hace un año, en este mismo foro, anunció la puesta en marcha de Google SGE, que es como bautizó el programa para que un pequeño número de personas hiciesen las veces de conejillos de indias.

No es lo mismo meter un término en una caja en blanco y que el sistema te devuelva un listado de enlaces a meter un término en una caja en blanco y que un chatbot sea capaz de elaborarte un pequeño resumen. Lo que perseguía la multinacional californiana con el piloto de SGE no era otra cosa que obtener respuestas que no tenían y hacerse una idea del efecto que podía llegar a tener sobre al tráfico y la navegación los usuarios, por tanto, también sobre sus anuncios.

Google tiene muchos más cambios preparados, pero no los ha soltado todos de golpe. Hoy ha liberado lo que han bautizado como AI Overviews, que en una traducción gruesa al castellano podría traducirse como Vista General de IA. Cuando un usuario busque algo, obtendrá un pequeño resumen con enlaces de interés. El resumen se encargará de hacerlo un nuevo modelo de Gemini que ha sido personalizado específicamente para esta función de búsqueda.

En el I/O de 2023, Google empezó a experimentar en pequeños grupos eso de meter inteligencia artificial generativa en su buscador

La compañía afirma que los usuarios han usado millones de veces esta herramienta en su fase de pruebas y que los buenos resultados conseguidos son los que le empujan ahora a ponerlo al alcance de cualquiera. Liz Reid, vicepresidenta de búsquedas de Google, ha afirmado que los enlaces que se incluyen en las respuestas de AI Overviews reciben más clics “que si la página hubiera aparecido como una lista web tradicional” y, por tanto, que se envía “tráfico más valioso” a estos sitios. Otra de las cosas que también ha mostrado es cómo se organizará la publicidad, que seguirá teniendo sus espacios dedicados.

No ha sido el único, pero probablemente haya sido el anuncio más importante del Google I/O, que bien podría ser bautizado como Google I/A porque no se han tratado otros temas. El año pasado se popularizó un meme que recopilaba las veces que Pichai había repetido las siglas IA. Este año el CEO de la compañía se ha adelantado a la broma y ha mostrado la cuenta final: la han pronunciado en más de 120 ocasiones.

Se rumoreaba que los estadounidenses podían presentar su plataforma o sistema operativo para competir en realidad mixta con Meta y Apple y sus Vision Pro, pero ni rastro de ello. Tampoco de novedades que tengan que ver con directamente con Android, más allá de lo que puede llegar a hacer gracias a Gemini. De eso no tocaba hablar este martes.

El anuncio de que la IA empieza a llegar de forma abierta al buscador no ocurre en un momento cualquiera. En los últimos días se ha especulado mucho con que OpenAI podía lanzar su propio buscador. Los rumores habían llegado a tal punto que hasta Sam Altman, CEO de la compañía, tuvo que salir a desmentir que el evento sorpresa que convocaron este lunes por la tarde iba a servir para ponerlo en la pista de lanzamiento. En realidad, lo que presentó fue su nuevo modelo de lenguaje, GPT-4o, el más potente de los que han creado hasta ahora.

Otros cambios en las búsquedas

Google también ha explicado que otros experimentos ha puesto en marcha y que en unos meses se incorporarán al buscador. Dentro de poco habilitará funciones que permitirán ajustar el lenguaje o la extensión de las respuestas de AI Overviews, porque no es lo mismo el tipo de respuesta que necesitas si eres un estudiante universitario de una materia determinada o lo que estás intentando es ayudar a tu hijo con los deberes del colegio.

También se habilitarán capacidades de razonamiento más complejas, de manera que pueda responder a preguntas en las que se incluyan varios elementos y parámetros. El ejemplo que han utilizado durante la conferencia es de alguien que quiere buscar los mejores lugares de yoga y pilates en una ciudad determinada, saber a cuánto quedan de su barrio y qué ofertas tienen para nuevos alumnos. El sistema propulsado por Gemini será capaz de responder a todo ello en una sola respuesta, gracias a esa capacidad de multi-razonamiento.

La búsqueda grabando un video o el multirazonamiento son otros de los experimentos en marcha

También están ultimando una herramienta orientada a la planificación, de momento limitada a alimentación y viajes. Basta con hacer la pregunta que se quiera para obtener un plan, que además se puede exportar a GDocs o Drive. A lo largo de este año, han explicado que su aplicación se extenderá a planes de entrenamiento, fiestas o citas nocturnas. Todo esto, eso sí, está disponible en beta únicamente en inglés y en Estados Unidos. Al resto de países, les toca esperar o utilizar una VPN.

Pero las búsquedas no son solo palabras. Google lo sabe. Hace unos meses lanzó “rodea para buscar”, una evolución de Lens. Basta con hacer un círculo en cualquier imagen, web o captura para que se haga una búsqueda de elementos parecidos. En España esta herramienta ha llegado algo desnatada, ya que en otros mercado permite que cuando estamos seleccionando el objeto que va a intentar encontrar, también se le puede hacer una pregunta directamente. Por ejemplo, rodeamos una planta de una fotografía de nuestro balcón y preguntamos qué cuidados necesita. Automáticamente, detecta la especie y nos ofrece esos consejos sin necesidad de una consulta adicional.

La siguiente evolución en la búsqueda visual ha sido presentada hoy y podría ser bautizada como Graba para buscar. Google ha conseguido utilizar sus avances en comprensión de video para multiplicar las capacidades de esta forma de localizar información. Un pequeño clip de un tocadiscos que funciona mal o de una bici estropeada podría servir para tener una respuesta y una guía sobre cómo arreglarlo, sin tener que hacer múltiples consultas y preguntas al respecto. El problema es que no sabemos exactamente cuándo se materializarán estos cambios, ya que la multinacional ha seguido su política de no concretar fechas de lanzamiento y seguir dando referencias temporales genéricas, en la mayoría de casos, para poner los experimentos con grupos reducidos en marcha.

Astra, el siguiente paso

Demis Hassabis, cofundador de DeepMind y mano derecha de Sundai Pichai en todo lo que tiene que ver con la inteligencia artificial, ha pisado por primera vez el escenario de un Google I/O. Su presencia era la mejor muestra de que la IA iba a ser el único plato del menú en el evento de esta tarde. Una de las cosas que ha explicado este ejecutivo ha sido el Project Astra, el nombre en clave para el desarrollo de un asistente virtual basado en inteligencia artificial para el día a día, algo similar a lo que persiguen Rabbit o Humane AI. La diferencia es que Google no pretende, por ahora, crear un dispositivo diferente sino que pretende que esta herramienta funcione en un teléfono móvil.

Project Astra, que sigue siendo un desarrollo completamente privado, será capaz de identificar lo que ve a su alrededor y responder preguntas al respecto. En el vídeo de muestra, una joven utiliza un móvil con este asistente. El sistema es capaz de identificar el altavoz de dónde sale el sonido e identificar las piezas del mismo, reconocer el barrio en el que se encuentra simplemente enfocando a una ventana o interpretar el código que está desarrollando un compañero en la pantalla. El más difícil todavía llega cuando la joven pregunta donde se ha dejado las gafas y Astra le indica el lugar donde están. La idea es que en futuro Astra sea proactivo y no simplemente reactivo, por lo que no necesitaría una pregunta para hacer una acción o tomar una decisión.

¿De qué Gemini me habla usted?

El motor que mueve todos estos inventos es Gemini. ¿Pero cuál de todos? Porque detrás de ese nombre, Google ha agrupado los modelos de lenguaje que dan vida a sus inteligencias artificiales, al chatbot antes conocido como Bard así como a su plan de pago, conocido como Gemini Advanced.

La primera hornada de Gemini se anunció hace un año en tres lenguajes de tamaños diferentes. El más pequeño era Gemini Nano, pensado para ejecutarse localmente en móviles. Más arriba estaban Gemini Pro, un modelo intermedio; y Gemini Ultra, que según los investigadores que lo entrenaron, era más capaz que GPT-4. Poco meses después actualizaron Gemini Pro con la versión 1.5, que añadía "un millón de tokens de contexto", algo que le permitía incluso superar el rendimiento del modelo Ultra, que sigue anclado en su versión 1.0 y de la que aparentamente no hay más noticias a día de hoy. Lo cierto es que lejos de simplificar el catálogo, lo que ha hecho ha sido enredarlo.

¿Por qué es importante esta estadística? Los tokens básicamente son frases o palabras que ayudan a las inteligencias artificiales a entender el significado de la palabra, frase o pregunta que está intentando procesar. Es decir, cuanto más contexto tenga, más capaz será de entender el universo que nos rodea y ofrecer respuestas más complejas.

Ahora han subido el listón, permitiendo que esta versión de Gemini soporte hasta los millones de tokens de contexto, en una versión que por ahora estará disponible solo para desarrolladores.

La compañía asegura que ha estado haciendo chapa y pintura a este modelo de lenguaje para que ahora escriba código mejor que como lo hacía hace unos meses, razone mejor y comprenda de forma más explícita los matices y lo que está viendo en un video, escuchando en un audio o lo que contiene una imagen. Google asegura que el trabajo de mejora también tiene impacto en cómo Gemini es capaz de mantener charlas más largas con múltiples intervenciones, manteniendo una mayor coherencia.

Gemini Advanced, la versión de pago, ya se podrá utilizar en español de una vez por todas

En este punto hay buenas noticias para los usuarios de España, ya que Gemini 1.5 Pro estará disponible en castellano dentro de Gemini Advanced, que es la versión de pago de esta inteligencia artificial. Una versión de pago que ya estaba disponible en el mercado patrio, pero que solo se podía utilizar en inglés. La suscripción cuesta 21,99 euros e incluye otras prebendas como 200 teras de almacenamiento en la nube. Eso sí, hay que recordar que la versión de Gemini 1.5 Pro a la que accederán es la que cuenta con un millón de tokens de contexto.

Gemini Advanced ahora se enriquecerá con nuevas posibilidades para sus suscriptores. Por ejemplo, podrán hablar con el chatbot desde su aplicación de Google Mensajes como si lo hiciesen con cualquiera de sus contactos, en lugar de tener que acceder a una app concreta. También estará la posibilidad de crear Geminis específicos para una materia concreta, por ejemplo, para que sea su entrenador o para que sea un asistente de cocina. Advanced también gestionar documentos, de hasta 1.500 páginas, al mismo tiempo o hacer un resumen de cien correos electrónicos en unos pocos segundos. Aseguran que dentro de poco podrá manejar una hora de vídeo para extraer detalles o bases de código de 30.000 líneas.

Si uno tiene la sensación que se pierde con Gemini Pro, Ultra, Nano, la suscripción o el Gemini que sustituye a Bard, Google ha decidido enredar un poco más el catálogo, añadiendo otro Gemini más a la familia, bautizado como Gemini Flash 1.5, que vendría a ser algo similar a lo que OpenAI hizo con GPT-4 Turbo.

Se trata de un modelo de lenguaje "destilado" de Gemini Pro 1.5, cuyo objetivo es ser más rápido en funciones clave, permitiendo ejecutarse a gran escala más fácilmente a un menor coste, tal y como ha explicado Demis Hassabis. Este nuevo tentáculo de Gemini destaca en resúmenes, aplicaciones de chat, subtítulos de imágenes o videos o a la hora de extraer datos de documentos interminables o tablas de gran tamaño. Estará disponible en Vertex AI y AI Studio, plataformas pensadas para los desarrolladores e investigadores de AI.

La IA de Google...para el trabajo

Workspace, la versión empresarial de las apps de Google, también recibirá una serie de actualizaciones en los próximos meses. Lo primero de todo es un panel lateral al estilo del que implementó Microsoft con Copilot que estará en Gmail, Docs, Drive, Sheets o Slides, que nos permitirá interactuar con el contenido de estas apps a través de un chatbot pudiéndole pedir diferentes acciones sobre ese contenido, como por ejemplo extraer los puntos claves de la grabación de un reunión que tienes almacenada en la nube.

En los próximos meses empezarán a probarse de forma controlada nuevas funciones. Por ejemplo, se va a intenar crear una conexión entre todas las apps empresariales, de manera que si el usuario pide a Gemini en Gmail que le ayude a organizar sus facturas pendientes de un viaje de trabajo, el sistema será capaz de bucear en todos sus correos, organizarlos en una tabla de Excel y de paso guardarlos en Drive. También habrá una serie de novedades para la aplicación de correo, que gracias a la IA generativa podrá hacer resumenes de cadenas de correo o generar respuestas rápidas en cada caso.

Otras apps disponibles para todo el mundo, como Google Fotos, también recibirán su dosis de Gemini. En este caso, la compañía ha presentado una función que sirve para interactuar con lenguaje natural con el contenido de nuestras imágenes. En la demostración, Pichai preguntó por la matricula de su coche y la herramienta fue capaz de diferenciar entre las múltiples imágenes de automóviles que tenía en la galería y señalar el correcto.

Gracias a las capacidades de Gemini Nano, uno de los teléfonos de Google puede analizar en tiempo real una llamada sospechosa y avisarte cuando están a punto de desplumarte. Por ejemplo, si respondes un número desconocido que afirma ser tu entidad bancaria y en algún momento de la conversación te piden tus claves, Gemini Nano es capaz de entender que estás a punto de caer en un fraude y mostrarte un aviso. La duda que queda aquí es cómo va a hacer Google para escuchar dicha conversación sin vulnerar ningún tipo de ley de protección de datos.

Veo, la respuesta a Sora

La compañía también ha aprovechado para presentar dos nuevos modelos de generación de elementos multimedia. Por una parte, ha puesto sobre la mesa Veo, destinado a la creación de vídeo; y por otra, Image 3, dedicado a las imágenes fijas. El primero de ellos es la respuesta de Google a Sora, un invento de OpenAI que generó mucha expectación y revuelo por las capacidades que demostró. También hubo su dosis de polémica, ya que los de Altman no explicaron en detalle en ningún momento cómo se había entrenado. Cabe decir que Sora todavía no está disponible en abierto.

Foto: Fotograma de vídeo creado por Sora. (OpenAI)

TE PUEDE INTERESAR

Todo lo que has visto de la IA eran migajas y el último invento de OpenAI lo demuestra

M. Mcloughlin

Veo podrá generar videos con resolución de 1080p y de hasta un minuto de duración con una sola petición del usuario. Google asegura que el sistema entiende de forma avanzada la semántica visual y el lenguaje natural, pudiendo responder a lo que expresa el usuario con unas solas palabras. La compañía asegura que puede trabajar con conceptos como “timelapse” o “toma aérea”. Han puesto el énfasis en el trabajo que han hecho tanto en las físicas como en la continuidad para que el movimiento sea coherente y constante en todo el clip.

En el caso de Image 3, la plataforma ha sido refinada para poder ofrecer más fidelidad y comprensión de detalles que a veces se pierden en las peticiones más largas. Sin embargo, uno de sus grandes avances, al menos según lo mostrado en el I/O, es la capacidad que tiene para representar texto. Igual alguno de ustedes ha probado a intentar hacer alguna felicitación que incluyese texto, por ejemplo, en Dall-E y se han encontrado que era una lotería que copiase el nombre correctamente. Pues bien, Image 3 ha sido entrenado específicamente para esto. El problema, una vez más, es saber cuándo el común de los mortales va a poder meter mano, ya que estas novedades están solo al alcance de “creadores seleccionados”. La tercera herramienta para generar contenido multimedia que ha presentado ha sido Music AI Sandbox, una IA generativa que ayudará a los artistas a generar sus bases musicales.

Google

El redactor recomienda

EEUU y China nos barren en IA. Científicos plantean una polémica idea para adelantarles José Pichel
OpenAI revela GPT-4o, su IA más potente hasta la fecha (y es gratuita) Albert Sanchis
La medicina del futuro gracias a esta IA: Google presenta AlphaFold 3 Pablo Rey