POR QUÉ un PROYECTO

La palabra hablada, emitida sin leer, tiene una capacidad de atraer y calar en quien escucha que no tiene el mismo mensaje leído por uno mismo. La expresión oral traslada con más fuerza el contenido. En determinadas condiciones, –a investigar en este proyecto– el mensaje directo de la palabra hablada provoca en el oyente efectos neuronales y aumenta, más que la palabra fruto de la lectura, la sinergia de la voz con la imagen y la música que la acompañan. Lograr locutar textos escritos con la voz natural de su autor es el reto de este proyecto.

La oratoria, herramienta poderosa

El problema de comunicar hablando, sin leer, es que se altera fácilmente la estructura del discurso; complica ajustar la plática a tiempos limitados y no es fácil dominar esa técnica. Recordar los datos de memoria, en el orden adecuado, y exponerlos de viva voz, requiere una mente potente muy entrenada.

La producción intelectual se realiza escribiendo. Un proceso de muchas horas y días de trabajo en proporción al tiempo en que luego se lee, con el que se logra ir mejorando la estructura y el vocabulario hasta expresar lo que se ha de transmitir. La precisión de un texto escrito no la alcanza la exposición hablada, muy en particular al locutar contenido de divulgación científica, sean guiones de documentales, de radio, de podcast o audiolibros. 

Pero al leer, la voz pierde su fuerza original. Solo los mejores actores y locutores logran trasladar al leer algo de la emoción que se expresa al hablar. En la mayoría de las personas, incluidos muchos profesionales de la comunicación, el resultado es deficiente y penoso. 

No somos capaces de aplicar la fuerza del mensaje hablado, al grabar textos complejos, laboriosamente trabajados, que reflejen a la perfección lo que hay que transmitir al oyente o espectador. Lograrlo es el objetivo que nos planteamos y creemos que hará dar un salto cualitativo a la comunicación .

 

Clonar la voz

La Inteligencia Artificial (IA) permite clonar voces al nivel de como lo ha hecho la empresa vasca Vicomtec –cuyo equipo participa en este proyecto– que clonó en 2020 la voz de Francisco Franco (Ver, www.vicomtech.org).

La empresa Sonantic, de Londres, clonó la voz del actor Val Kilmer en 2021 combinando 40 versiones distintas de su voz, creadas digitalmente a partir de grabaciones suyas anteriores a la operación del cáncer de garganta que le arrebató su voz original. Un programa de conversión de texto a audio captó los tonos y matices de la voz del actor contenidos en esas 40 muestras. En un video locutado ya con su voz clonada Kilmer se ha manifestado satisfecho con el resultado. (Ver, https://www.sonantic.io/)

Los algoritmos «aprenden en base a lo que escuchan» de modo que para alcanzar un cierto nivel de perfección hacen falta muchas horas de audio, grabado con diferentes variables a registrar. El equipo de Vicomtec considera necesarias un mínimo de 30 horas de audio, que versen sobre temas suficientemente variados y ricos en vocabulario, para abarcar el mayor número de matices posibles de la voz a clonar. 

Empresas que clonan voz, como www.aflorithmic.ai consideran que este mercado crecerá exponencialmente en los próximos años.

 

leer con la voz de sin leer

El problema es que a los programas de Inteligencia Artificial (IA) se les enseñe a reconocer y clonar la voz con audios que se obtienen leyendo. Franco era famoso por lo mal que leía sus discursos y Kilmer por lo bien que locutaba los guiones, pero, en ambos casos, sus voces se clonaron con toda probabilidad no a partir de su voz hablada, sino con la ya degradada proveniente de la lectura.

Este proyecto investiga las claves de cómo conseguir esas 30 horas de audición que requieren los algoritmos de la IA para clonar la voz, proporcionándole al programa de IA la voz natural del autor, y no la de leer. Para ello establecerá un patrón y una metodología, estudiada para alcanzar el objetivo que se plantea y analizará si con esta técnica se aumenta la eficacia del mensaje.

 

¿Capacidades perdidas?

Es posible, que la IA, lo que permita hacer, sea posibilitar la recuperación de técnicas y capacidades de comunicación perdidas, como las que investiga el proyecto ERC, Artsoundscapes (2018–2026), que examina con un enfoque multidisciplinar innovador, cómo el sonido puede haber contribuido –antes de que la domesticación de lo libre cambiara el mundo hace 7.000 años– a la comprensión de lo sagrado en sitios con arte rupestre y a la creencia en el paisaje como un ser vivo, con alma, por parte de los cazadores–recolectores paleolíticos.

El proyecto “Artsoundscapes” investiga capacidades acústicas desconocidas del hombre primigenio; el proyecto “Voz clonada sin leer” (VOZ CSL), presentado en esta memoria, traslada al futuro esas hipótesis de Margarita Andreu y su equipo, e investiga cómo recuperarlas. 

Nuestra pregunta es: 

¿Puede la voz emitida directamente, gracias a la IA, sin el interface de la escritura y la lectura, ayudar a mejorar la comunicación ambiental y devolver al ser humano la capacidad, que con toda probabilidad tuvo, de entenderse con el medio en el que vive y respetarlo?

Un caso reciente en la historia de la comunicación induce a pensar que esta hipótesis pudiera confirmarse. Constituye el núcleo experimental de este proyecto. (Ver apartado “Antecedentes” en barra de navegación)