Los vídeos son increíbles

Así funciona la nueva versión de ChatGPT que lo ve y oye todo a su alrededor

Ayer la empresa de Sam Altman presentó ChatGPT-4o con unos vídeos de muestra que han sorprendido a toda la comunidad

Foto: Invidente utilizando GPT4o para reconocer el entorno (X/@ChatGPT) — Invidente utilizando GPT4o para reconocer el entorno (X/@ChatGPT)

Por

14/05/2024 - 10:34

Cada vez más curas españoles utilizan ChatGPT para sus misas: "Lo usé hasta para un funeral"
ChatGPT se vuelve más “humano”: OpenAI le ha dado memoria en su última actualización

Internet está que arde. Todos los analistas y fanáticos de la tecnología están hablando de lo mismo. Y es que ayer, tratando de coger ventaja en una inteligente estrategia de marketing (ya que quien golpea primero golpea dos veces), OpenAI presentó GPT-4o, adelantándose un día al evento de Google I/O.

La nueva versión del Chatbot de la compañía de Sam Altman no es solo una ligera remodelación de la anterior. ChatGPT4 se diferenció de ChatGPT3 en una mejora de las respuestas, más precisas y objetivas. Una mayor potencia de procesamiento, y en introducir reconocimiento de imágenes de forma simultánea con el texto. Es lo que se conoce como reconocimiento multimodal.

Foto: Sam Altman aún tiene mucho que decir (REUTERS)

TE PUEDE INTERESAR

¿Un Google de ChatGPT? Así es el motor de búsqueda con el que OpenAI busca competir con Gemini

Pablo Rey

En este caso, la “o” que se añade a GPT4 viene de omni, ya que la característica principal de la evolución del chat es la capacidad para recibir inputs desde todas las fuentes a la vez. Texto, imágenes, vídeo y sonido. Es capaz de procesar toda la información obtenida en tiempo real, y de elaborar una respuesta en cuestión de milisegundos.

Una herramienta con muchas utilidades

También tiene mayor potencia de procesamiento y nuevas funciones, como el reconocimiento de emociones en la voz. Y es que GPT4o no solo obtiene información, también da respuestas habladas con completa naturalidad, usando expresiones humanas como la risa o el suspiro.

Como si de Her se tratara, la película de Spike Jonze, podemos ver en este video publicado por la compañía en X (@OpenAI) cómo un usuario le dice al chat: “Quiero presentarte a alguien”, apuntando con la cámara a un perro. El Bot responde como lo haría un humano cualquiera al que le encantan los animales, modulando la voz como se hace con los bebés, y respondiendo “¿Cuál es tu nombre, pequeña bola de pelo?”. Por cierto, se llama Bowser.

A continuación, el usuario saca una pelota de tenis, y la voz se percata inmediatamente lo que está sucediendo. Hay que reconocer que, al principio del vídeo, antes de responder al usuario, la voz, que debe de estar procesando la información y buscando la modulación correcta, se superpone a sí misma emitiendo varias voces electrónicas a la vez, lo que resulta un poco siniestro.

En este otro vídeo, también publicado por la compañía, podemos ver cómo un padre y su hijo utilizan la aplicación para ver cómo podría ayudar a un usuario a mejorar en matemáticas. El asistente comienza a hablar dubitando. Entonces el padre le cuenta lo que están haciendo ahí: le pide que ayude a su hijo con un problema matemático, pero no quiere que le dé las respuestas, sino que le haga las preguntas adecuadas para que el chico aprenda por sí mismo.

La aplicación parece sonreír, emitiendo ese sonido característico de los humanos al hacerlo, y entonces realiza la pregunta. El video continúa con preguntas y respuesta hasta que el chico resuelve el problema, argumentando la respuesta.

En este otro interesante vídeo podemos ver cómo un usuario con ceguera utiliza el chat para parar un taxi. La aplicación le avisa cuando tiene que levantar la mano, y cuándo el taxi ha parado en frente suya.

Lo cierto es que los videos demostrativos son impresionantes, y las posibilidades de esta herramienta infinitas, aunque también los problemas que plantea. ¿Qué nuevos problemas legales de privacidad o derechos de imagen surgirán? Y, por otro lado, ¿hasta qué punto vamos a tener todos unos dispositivos siempre al lado que es capaz de ver, leer, escuchar y procesar todo lo que ocurre a nuestro alrededor?

Sam Altman Tecnología Inteligencia Artificial

El redactor recomienda