Cambiará tu mundo literalmente

El próximo gran salto de la inteligencia artificial que nadie espera está a la vuelta de la esquina

La inteligencia artificial está a punto de dar el salto a tus auriculares. La tecnología permitirá alterar tu realidad completamente y hacer cosas que ahora parecen pura ciencia ficción, para bien y para mal

Foto: Ilustración de inteligencia artificial. (Novaceno) — Ilustración de inteligencia artificial. (Novaceno)

Por

07/06/2024 - 05:00 Actualizado: 08/06/2024 - 18:21

Cuando Apple presentó el primer AirPod Pro, la compañía plantó la semilla de una revolución de audio con inteligencia artificial que silenciará la forma en que escuchamos el mundo, reemplazando nuestra realidad sonora diaria con un simulacro sintético. Viendo la futura generación de auriculares que se nos viene encima, existe una clara posibilidad de que terminemos en una distopía más rápido que con los sistemas visuales de IA.

A diferencia de las imágenes y vídeos falsos de la IA generativa, parece como si los humanos hubiéramos ya aceptado la perspectiva de una nueva realidad de audio inventada sin resistencia alguna. Esto puede deberse a que los peligros de jugar con una parte fundamental de lo que nos hace humanos no son tan obvios como los riesgos de la IA generativa visual. Por el contrario, los beneficios de acallar la ensalada de sonidos que consume la vida de las ciudades actuales son claros para todo el mundo.

Foto: El nuevo Leopard 2 A-RC 3.0. (KNDS)

TE PUEDE INTERESAR

El nuevo tanque Leopard: 'diseñado' por la guerra de Ucrania para los conflictos del futuro

Omar Kardoudi

Puedes culpar a Apple y sus AirPod Pro originales 2019 de lo que nos viene encima. Aquellos auriculares trajeron una nueva tecnología llamada "modo de transparencia", que fue el primer uso de IA que normalizó la idea de procesar digitalmente tu realidad auditiva. Si bien la cancelación activa de ruido (ANC) ‘crea’ silencio utilizando micrófonos y un procesamiento de audio simple en tiempo real para generar una señal que es inversa a la forma de onda del ruido ambiental, el nuevo modo de transparencia iba mucho más allá: utiliza algoritmos de inteligencia artificial para remezclar sonidos ambientales con la música de tu iPhone en una única secuencia de audio sintético, algo que te permite seguir escuchando tu música mientras sigues atento a tu entorno. La gente no tuvo ningún problema con eso. Parecía conveniente caminar por una calle concurrida consciente de lo que sucede a tu alrededor sin que molestase demasiado, incluso si lo que estabas escuchando no era la misma realidad sino un sonido generado por computadora.

En 2022 los AirPod Pro de segunda generación introdujeron otra tecnología de inteligencia artificial llamada Adaptive Audio. Esto es un modo de transparencia que se combina con ANC para neutralizar o potenciar sonidos externos en tiempo real. Sus algoritmos funcionan discriminando varios tipos de sonidos (como voces, tráfico y otros ruidos ambientales) y ajustando el procesamiento de audio en la medida que haga falta para garantizar que los sonidos que deseas escuchar (como la voz de tu interlocutor usando el modo llamado Conversation Boost) se escuchen alto y claro mientras cancelas o reduces el nivel de todo lo demás.

Esto resultó en un mundo sonoro sintético aún más obvio que el modo de transparencia: una realidad falsa que es extremadamente convincente y conveniente. ¿Quién no quiere desconectarse de la cacofonía que nos rodea a todos todo el rato? Personalmente, me encanta la idea de un mundo en el que no escucho gente sorbiendo sus bebidas y comiendo sándwiches con la boca abierta, reventándose la cara con palomitas de maíz en el cine con la boca más abierta todavía, o chasqueando los labios y expulsando un obsceno "aaaah!” al final de un trago de café o Coca-Cola fría. Algunas personas llaman a esto un éxito de la “realidad aumentada” y no es difícil estar de acuerdo. Pero para mí, es además el principio del fin de la realidad, un ladrillo más para construir una realidad fabricada en torno a nuestra persona. Otra señal más del narcisismo imperante.

La nueva realidad va a ser increíble pero falsa

Los productos de Apple han educado eficazmente a la gente. Ahora, está bien visto usar auriculares en todo momento para cambiar la forma de escuchar el mundo. Pero esto va a cambiar radicalmente gracias a una nueva generación de dispositivos que están llevando la premisa de audio sintético de los AirPods Pro más allá de los sueños de ciencia ficción más salvajes.

“El sonido es un medio fundamental a través del cual percibimos nuestro entorno. Sin embargo, hoy en día estamos rodeados de una cacofonía que puede acabar por abrumar nuestros sentidos. Lo que estamos haciendo es construir sistemas auditivos inteligentes que puedan recuperar algunas opciones en términos de qué sonidos escuchamos en entornos del mundo real”, según me dice el investigador de la Universidad de Washington en Seattle Shyam Gollakota en una entrevista por correo electrónico. Gollakota lidera el grupo de inteligencia móvil en la Escuela de Ingeniería y Ciencias de la Computación Paul G. Allen de la universidad, donde han estado trabajando en el aumento en tiempo real de la percepción auditiva humana durante más de cuatro años.

Su gran objetivo ha sido programar lo que él llama ‘escenas acústicas en tiempo real’. “Cuando la gente habla de aprendizaje profundo e inteligencia artificial, lo más común son las interfaces basadas en chat”, señala. "Pero lo que nos propusimos es demostrar que podemos diseñar métodos de aprendizaje profundo en tiempo real que también pueden programar entornos acústicos".

Rápidamente intensificaron sus esfuerzos de desarrollo. En 2022, se les ocurrió un dispositivo llamado Clearbuds que permitió a las personas tener conversaciones más claras a través de llamadas de Zoom. En 2023, desarrollaron la Audición semántica, que permitía a los usuarios elegir los sonidos específicos que querían escuchar, como el canto de los pájaros en el parque pero no a las personas alrededor del usuario de los auriculares. El mes pasado lanzaron algo llamado objetivo de la audición habla, que te permite seleccionar una voz específica de tu entorno y solo escuchar a esa persona con solo mirarlo, silenciando todo lo demás.

placeholder — El prototipo de la la Universidad de Washington. Obviamente, no es un producto para consumidores sino una demostración de la tecnología. (UW)

El prototipo de la la Universidad de Washington. Obviamente, no es un producto para consumidores sino una demostración de la tecnología. (UW)

“Imagínate que tú y un amigo estáis caminando y charlando en una calle muy transitada. ¿No sería fantástico si tuvieras un par de auriculares que aprendieran las características de la voz de tu amigo y suprimieran el ruido de la calle y el habla de los transeúntes, para que puedas concentrarte en lo que dice tu colega?”, pregunta Gollakota. También habla de estar bajo la sombra de un árbol en el parque, escuchando el canto de los pájaros y la naturaleza hasta que el parloteo de un grupo cercano de personas que no paran de hablar y ronchar patatas fritas interrumpe tu paz. "Imagínate si tus auriculares pudieran brindarte la capacidad de concentrarte en los sonidos de los pájaros mientras el resto del ruido simplemente desaparece". Suena muy bien en todos los sentidos.

Para lograr este objetivo, Gollakota y su equipo desarrollaron un software de procesamiento con un alto nivel de inteligencia capaz de identificar simultáneamente todos los diferentes sonidos y hablantes de un entorno. Luego, este sistema separa los sonidos objetivo de todos los ruidos de interferencia. "Por si esto no fuera suficientemente difícil, cualquier sonido que extraemos debe sincronizarse con el sentido visual del usuario", afirma. No se puede escuchar algo dos segundos después de haber visto que sucede, por lo que la red neuronal debe procesar los sonidos en tiempo real en menos de una centésima de segundo, que es lo que lograron con su invento. Esto es lo que él llama el ‘efecto cóctel’. Lograr una latencia de menos de 10 milisegundos en el dispositivo es extremadamente difícil pero él asegura que finalmente lo lograron y lo mostraron en su trabajo de investigación.

placeholder — El prototipo de la la Universidad de Washington en acción. (UW)

El prototipo de la la Universidad de Washington en acción. (UW)

Para construir esta experiencia de realidad de audio alternativa y, a diferencia de los grandes modelos de lenguaje como ChatGPT, necesitaban desarrollar redes neuronales que puedan ejecutarse en un teléfono inteligente y en dispositivos integrados en los auriculares que pueden extraer el sonido que interesa en tiempo real. Este tipo de inteligencia es probablemente algo que probablemente tengan incluso los insectos pequeños, apunta, por lo que su modelo necesitaba ser minúsculo, ágil y preciso para lograr realizar estas tareas. Demostraron que, de hecho, podían diseñar redes neuronales y construir sistemas de auriculares que tuvieran la inteligencia espacial y acústica para captar sonidos y palabras como nunca antes se había hecho. Tenían que trabajar en tiempo real con una capacidad computacional y una duración de batería limitadas, algo inalcanzable con las tecnologías actuales de auriculares hasta que desarrollaron la suya. “Creemos que estamos inventando y mostrando el camino y la viabilidad de qué tipo de inteligencia es realmente posible en estos dispositivos. También ponemos el código a disposición de otros investigadores para que trabajen en él para que esto se convierta en un producto real”.

Una computadora en tu oído

El Iyo One va incluso más allá que el dispositivo de la Universidad de Washington. Piensa en ello como un Humane Pin o Rabbit R1 sin pantalla que vive en tu oído y se comunica exclusivamente a través de audio, tomando tus comandos de voz como la computadora del Enterprise y filtrando tu mundo auditivo como tú quieras. Jason Rugolo, fundador de Iyo, cree que el audio es el futuro de la interacción entre máquinas y humanos, y eso incluye la forma en que procesamos la realidad que nos rodea.

“Vine a Google X justo cuando se inventó la arquitectura transformadora dentro de Google a finales de 2017”, me dice Rugolo por correo electrónico. "Descubrí desde el principio que las computadoras pronto podrían hablar en lenguaje natural, y por eso me enamoré de la idea de que en el futuro todos hablaremos con computadoras todo el tiempo". Afirma que exploraron esencialmente todo los dispositivos portátiles que te puedas imaginar: alfileres, broches, collares, pulseras, ropa, gafas, sombreros y auriculares. Rápidamente se dio cuenta de que la interfaz del lenguaje natural debe vivir en el oído. Esto se debe a que la captación de voz debe ser muy buena (en el canal) y la audición de las respuestas debe ser siempre privada.

Rugolo dice que su dispositivo informático de audio podrá hacer lo mismo que el invento de la Universidad de Washington y mucho más. En su reciente charla TED 2024, Rugolo demostró cómo Iyo One tenía la capacidad de filtrar sonidos específicos con solo mirar la fuente o pidiéndolo de viva voz. ¿Quieres deshacerte del adorable bebé que llora en el asiento 35B desde que saliste de Nueva York en tu viaje de 24 horas a Tokio? No será necesario tirar al niño por la puerta de emergencia. Solo tendrás que mirarlo y el auricular filtrará ese ruido (la cara de sociópata que puede poner es opcional).

Lo que Rugolo está tratando de hacer es básicamente una Humane Pin o un Rabbit R1 con una interfaz de audio, lo que, según él, es extremadamente difícil de realizar (y, ciertamente, extremadamente difícil de creer teniendo en cuenta los mediocres esfuerzos que hemos visto hasta ahora). "Estamos muy centrados en ofrecer una enorme cantidad de valor desde el primer día", afirma Rugolo, y confía en que habrá mucha gente que querrá el Iyo One a un precio de 699 dólares exclusivamente por las funciones de procesamiento de audio. Promete que esta computadora de audio también incluirá aplicaciones para agregar valor real que ninguno de los otros dispositivos pseudo-iPhone puede ofrecer con este nivel de intimidad e interacción: “Traducción en tiempo real, mejora de la audición, búsqueda en lenguaje natural y una aplicación de música conversacional vendrán con nuestro primer dispositivo. Estas aplicaciones son bastante increíbles cuando las experimentas de primera mano”. El dispositivo también está abierto para que desarrolladores externos hagan nuevas aplicaciones, asegurando que ya tienen muchos "creando cosas increíbles".

placeholder — Imagen de las partes del Iyo One. (Iyo)

Imagen de las partes del Iyo One. (Iyo)

Rugolo dice que han tenido cientos de personas trabajando en este proyecto durante los últimos seis años y planean enviar las primeras Iyo One este mismo invierno a sus clientes (los pedidos anticipados disponibles ahora). “Será exactamente igual al que llevaba en TED, que era un dispositivo prototipo [...] hecho de un chasis de titanio con un frontal de cristal de zafiro”. El dispositivo, afirma, tiene los mismos elementos de un teléfono inteligente excepto la pantalla y añade muchos más micrófonos. Debo admitir que sus promesas, como las del Humane Chapa y el Rabbit R1, Suena demasiado buenas para ser verdad, pero me reservaré el juicio para cuando lo tengamos en la oreja.

Gollakota, sin embargo, no se atreve a ir tan lejos como Rugolo. No cree que un auricular que sustituya a un teléfono inteligente sea factible. “Creo que es una reto demasiado grande dado que los teléfonos inteligentes son omnipresentes y tienen una gran cantidad de funcionalidades y modalidades de interacción que son extremadamente buenas”, señala. Él sólo está interesado en reconstruir la realidad sonora que nos rodea con lo antes mencionado: las tecnologías de audiencia semántica o objetivo auditivo del habla, que él cree sí formarán parte de los futuros auriculares y audífonos en los próximos años. "Solo queremos brindarle a la gente la capacidad de controlar sus escenas acústicas [con] auriculares habilitados para IA que pueden comunicarse con un teléfono inteligente, como hoy, lo que creo que será la forma más natural e inmediata de llevar la tecnología desde mi laboratorio a [las orejas] de miles de millones de personas”.

placeholder — Aspecto del Iyo One en la oreja. (Iyo)

Aspecto del Iyo One en la oreja. (Iyo)

Para él, la última década ha sido testigo de dos tendencias tecnológicas clave: en primer lugar, ha habido avances significativos en los auriculares con cancelación de ruido. En segundo lugar, el aprendizaje profundo está permitiendo una prometedora inteligencia artificial similar a la humana. Estas dos tendencias presentan oportunidades para crear el futuro de dispositivos audibles inteligentes, afirma Gollakota, con capacidades en el mundo real que hasta ahora han existido sólo en el ámbito de la ciencia ficción. "Estoy muy emocionado de que este sea el momento adecuado para crear estos auriculares inteligentes y que comencemos a ver inteligencia artificial en nuestros auriculares dentro de los próximos cinco años. Creo que esto no requiere reemplazar un teléfono inteligente", enfatiza. Hay otra razón para sustentar su lógica, apunta: los modelo de lenguaje grandes sólo pueden ejecutarse en un teléfono inteligente (y en la nube), pero algo como la audición semántica o el objetivo de audición del habla deben ejecutarse en los mismos auriculares, dados los requisitos de retardo de menos de 10 milisegundos.

Entonces, ¿qué hay de malo en todo esto?

Ambos conceptos suenan realmente fantásticos. ¡Deshacerse de ruidos molestos! ¡Traducción perfecta en tiempo real! ¡Aislamiento de cualquier ruido para hacer de tu mundo auditivo privado un paraíso en la Tierra! Me apunto a todo… hasta que empiezo a pensar en todas las formas en que esto puede irse al garete rápidamente.

Me imagino una aplicación en la que puedo cambiar la voz de las personas que me rodean, también en tiempo real. En este momento, los modelos que transforman la voz se ejecutan en la nube pero, en un par de años o menos, podrán hacerlo en estos dispositivos. Podrás hacer que tus amigos y amantes suenen como tú quieras. ¿Que el pervertido de Sam Altman quiere que su novia suene como Scarlett Johansson sin que tanto la novia como ScarJo se enteren? Dicho y hecho.

También puedo imaginar un mundo en el que cambio mi propia voz para que, en lugar de sonar como Mickey Mouse, suene como Sean Connery. Y además obligar a los demás a escuchar esta voz, ya que lo más seguro es que haya una manera de autodefinirse como a ti te dé la gana y los auriculares de la gente te oirán como tú quieras que te oigan.

También existe la posibilidad de que hackers y ladrones se apropien de estos sistemas, engañando a las personas para que escuchen cosas que no escuchan, desde la voz de otros hasta ruidos que pueden volver locas a algunas personas, para bullying, para aprovecharse de alguien, para lo que sea.

Y ni siquiera estamos hablando del factor de la monetización. Rugolo afirma que nunca habrá anuncios en el oído con el Iyo: “Nuestra plataforma no admitirá anuncios. Estamos construyendo una relación pura entre humanos y dispositivos, y los desarrollos existen para servir a esas personas”. Es una afirmación similar que ya hizo Apple en su día: Nunca habrá anuncios en iOS, como con Google Android, dijeron… hasta que construyeron su propia red publicitaria para ganar miles de millones de dólares extra cada año.

A pesar de todos estos peligros potenciales, Gollakota parece estar seguro de que sintetizar la realidad y adulterar un sentido humano central es, en última instancia, algo bueno. “Ahora la gente puede encender sus auriculares con cancelación de ruido y desconectarse de todo. Lo que mi grupo está haciendo es devolver el control a los usuarios para que puedan permitir algunos de estos sonidos ambientales selectivamente”, describe. Dado que vivimos cada vez más en un entorno más ruidoso, permitir que los usuarios tengan cierto control sobre lo que escuchan puede ser muy útil para su salud mental y su bienestar. “Definitivamente, las personas pueden optar por ahogar los sonidos que tal vez no les gusten, pero de hecho hoy en día la gente puede optar por ahogar esos sonidos usando auriculares con cancelación de ruido. Lo que estamos haciendo es brindarles a las personas la opción de aceptar sonidos para que puedan escuchar algunas clases de sonidos. Al final, es mejor que las personas elijan por sí mismas lo que quieren escuchar en lugar de que unos pocos elijan lo que pueden o no pueden hacer”. Rugolo básicamente coincide con él, reconociendo que siempre existirá la posibilidad de hacer cosas malas con estas capacidades (o que las hagas tú mismo).

Todo esto son buenos argumentos. Y, como dije, quiero deshacerme de mil millones de ruidos que me irritan diariamente. Pero, más allá de todas las ventajas, hay una cuestión filosófica más profunda que está implícita en nuestra definición misma de lo que es ser humano. ¿Realmente vamos a ser nosotros si una parte fundamental de nuestro ser está adulterada y procesada como una cena precocinada de los frigoríficos de congelados del supermercado? ¿Alterar digitalmente nuestra experiencia es realmente la ruta para cambiar un mundo irritantemente ruidoso en uno placentero?

Llamadme imbécil de remate mientras os digo esto con mi voz de Mickey Mouse: Quizás todos deberíamos esforzarnos por ser más respetuosos los unos con los otros, que diría Carl Sagan, por hacer lo que nos gustaría que hicieran los demás y construir un mundo mejor a nuestro alrededor. Tal vez soy ingenuo, sí, y nunca nos faltarán personas groseras que mastican y hablan con la boca llena, balbucean sin cesar en los vagones del metro, dejan o escuchan mensajes de Whatsapp por el altavoz del teléfono en el autobús, charlan en voz extremadamente alta en restaurantes, o sorben sus cafés calientes. Supongo que estoy condenado a unirme al mundo de la realidad alternativa o mudarme a una playa de Cádiz y vivir como un monje. Viendo el estado de las cosas en el mundo, esto último parece cada día más atractivo.

Cuando Apple presentó el primer AirPod Pro, la compañía plantó la semilla de una revolución de audio con inteligencia artificial que silenciará la forma en que escuchamos el mundo, reemplazando nuestra realidad sonora diaria con un simulacro sintético. Viendo la futura generación de auriculares que se nos viene encima, existe una clara posibilidad de que terminemos en una distopía más rápido que con los sistemas visuales de IA.

Inteligencia Artificial Tecnología

El redactor recomienda