Poniéndole voz a la era de la inteligencia artificial
Cuando me inicié en la radio a mis 12 años, jamás imaginé que los ordenadores (que ni siquiera existían por aquel entonces) nos facilitarían la vida como lo hacen hoy. De hecho, durante décadas, las emisoras de radio en las que yo trabajé carecían de PCs.
Todo era manual y necesariamente en directo y, si en algún momento había que "automatizar" una franja de emisión amplia, no quedaba más remedio que grabar varias horas en cintas magnetofónicas y dejarlas repitiéndose en bucle, o pasar por el estudio a cambiarlas para que la emisión pudiera mantenerse.
Aquella radio, que me cautivó desde niño, era un trabajo netamente artesanal y romántico. E invertí décadas de mi vida en ella.
Hoy, echando la vista atrás y pudiendo contemplar ya casi toda una vida, no podemos dejar de maravillamos de cuán distinto se ha vuelto todo, para bien y para mal. Pero, sobre todo, para bien.
La tecnología nos ha cambiado la forma de trabajar. Y también de pensar y relacionarnos. Nos ha transformado por completo. Hoy, somos seres humanos muy distintos a lo que éramos.
Pero aún no somos conscientes de que estamos a punto de experimentar un cambio mucho más radical.
El primer cuarto del siglo XXI, que veremos concluir en apenas un par de años, nos ha aportado la adopción de ordenadores en todos los ámbitos, internet de banda ancha y la telefonía móvil. Nos ha hecho ubicuos e hiperconectados.
En este punto, apenas empezamos a atisbar el vertiginoso potencial de la inteligencia artificial. Mucho se está hablando de ello, pero es materialmente imposible imaginar lo que significa.
Hoy, le hablamos a un dispositivo (a un altavoz inteligente, por ejemplo) y éste nos entiende y nos responde. De forma un tanto rudimentaria, sí, siguiendo rutinas muy básicas. Pero, una vez comiencen a funcionar con inteligencia artificial, los límites caerán hasta el punto de que seremos incapaces de distinguir si estamos interactuando con una computadora o con otra persona.
Por ejemplo, volviendo al ámbito de la radio o la televisión, el hecho de que cualquiera pueda hoy crear contenidos personalizados publicando podcasts o emitiendo vídeos en directo por Youtube o Twitch, incluso usando el smartphone como única herramienta desde cualquier lugar, algo que llevamos todos en el bolsillo y saben manejar hasta los niños, ha hecho tambalearse el antiguo paradigma de la comunicación, obligando a la industria audiovisual a reinventarse.
Llevo interesado por las aplicaciones de la síntesis de voz desde que hace años surgió la posibilidad de generar voces sintéticas.
La inteligencia artificial está revolucionando también este ámbito, hasta el punto de hacer indistinguible una voz generada por IA de una locución original grabada de "viva voz".
He publicado un hilo de Twitter para mostrar el auténtico reto al que nos enfrentamos con las voces sintéticas, ofreciendo muestras de audio reales. Absolutamente sorprendentes.
Clonar cualquier voz y hacerla hablar en cualquier idioma, con traducción automática y con un acento perfecto, ya es perfectamente posible.
Lo único imposible es imaginar la revolucionaria dimensión que esto abre en la industria del audio y atisbar sus infinitas posibilidades.
Las voces sintéticas robóticas ya pasaron a la historia.
Hacer que un avatar de voz propio locute por uno mismo un audio a partir de un texto y en tiempo real, y dejarlo publicado al momento en internet en varios idiomas, sin necesidad de recurrir a un traductor, es sólo uno de los usos más obvios.
Repetir tomas frente al micrófono es algo que está a punto de pasar a la historia. Ahora ya es (casi) posible modificar la tonalidad y emocionalidad sobre el papel y obtener una versión perfecta de la locución deseada.
En este punto, surgen varios desafíos que acometer.
Uno es evitar el fraude. Cualquiera por teléfono podría engañarte, haciéndote creer que hablas con quien realmente no existe; con absoluto realismo, generando mensajes en tiempo real y adaptados al contexto. Imaginemos audios o vídeos "fake" publicados en internet, o incluso difundidos a través de los medios. Todo ello, hoy, resultaría ya posible y sería imposible distinguir lo auténtico de lo falso.
Otro pasa por proteger la autoría de las voces. Ciertamente, debe hacerse con urgencia.
Ya veo a locutores profesionales poniendo el grito en el cielo y quejándose por el riesgo de que les clonen sus voces y las usen ilícitamente fuera de su control.
Pero, ¿quién en su sano juicio podría negarse a abrir esta caja de Pandora? En mi opinión, quien elija permanecer en la prehistoria o pretenda ponerle puertas al campo se estará quedando directamente fuera de la nueva realidad.
Y, como usuarios, estamos ante un precipicio que, como todo cambio de paradigma, volverá a transformarnos en la forma de entenderlo y concebirlo todo.