lunes, octubre 10, 2011

Cuestión de tiempo: Síntesis de voz

Todos aquellos que hayan visto una película de ciencia-ficción se habrán dado cuenta de que en muchas de ellas los ordenadores se comunican usando lenguaje natural con sus usuarios. Bien, está claro que todo es ficción y que aún estamos lejos de llegar a ese nivel de interacción con una máquina, pero el sintetizador de voz que suele usar Stephen Hawking nos da una idea de que vamos por el buen camino.

Pese a lo que pueda parecer la investigación en temas de sonido y síntesis de voz no es algo reciente. Ya desde el segundo tercio del siglo pasado se hicieron pruebas para que un computador emitiera sonido. El VODER es considerado el primer programa que sintetizaba voz y fue presentado por los Laboratorios Bell en la Feria Mundial de Nueva York de 1939. Oigamos una prueba.







En 1951 se creó el primer y único sintetizador de voz monótono. No tenía mucho interés para la gente de la calle pero sí para los científicos que podía, usando este programa, estudiar la física y la acústica de la voz humana.





En 1949 entraba en funcionamiento el CSIRAC, el cuarto ordenador de la historia, y aunque se utilizaba principalmente para realizar cálculos, con una laborioso trabajo de programación se podía conseguir que emitiera música. Como, por ejemplo, esta "Marcha del Coronel Bogey" (conocida por ser el himno que silban en "El Puente sobre el río Kwai") que se grabó en 1957.





Como nota anecdótica, éste es el único ordenador de aquellos primeros que se construyeron en los años 40/50 que se conserva. Es el primer computador que se construyó en Australia, y podéis encontrar información sobre él en su sitio web.

Seguimos avanzando en el tiempo y haciendo progresos en la generación de voz por ordenador. En 1958 George Rosen desarrolló en el MIT (Instituto Tecnológico de Massachussets) el sintetizador articulatorio DAVO que, entre otras cosas, era capaz de "cantar" la canción del alfabeto. Yo conocía esta canción por escucharla, cuando era pequeño, en Barrio Sésamo.





En realidad, el primer ordenador cantarín no llegó hasta el año 1961 cuando fue presentado por sus desarrolladores Louis Gerstman y Max Mathews en los Laboratorios Bell. La canción en concreto es "Daisy Bell", fue interpretado por un IBM 7094 y cuenta con el acompañamiento de un piano también sintetizado.





Stanley Krubrick y Arthur C. Clarke conocían este hecho cuando realizaron "2001: Una odisea del espacio", de ahí que Hal 9000 cante esta canción justo está siendo desconectado y repite un discurso de autopresentación.

13 años después, en 1974, se consiguió un hito importante en nuestra historia. Donald Sherman, un paciente con Síndrome de Moebius y problemas de comunicación, consiguió pedir una pizza por teléfono usando un ordenador. Puede sonar un poco chorra eso de pedir una pizza, pero supuso un gran avance dentro de la computación y, claro está, de la aplicación de ésta como prótesis para personas con dificultades y/o problemas.






Ya a comienzos de los años 80, llegó la producción en masa de algunos juegos para niños que usaban esta tecnología. La idea era que los niños aprendieran a hablar y pronunciar palabras que transmitían al juguete por un teclado. De este tipo es el "Speak-n-spell" (habla y deletrea), primer juguete producido en masa y que escuchamos a continuación. Lo importante de este juguete es que la voz era producida por un sintetizador, es decir, no es una voz grabada que es repetida.





En los últimos 30 años se ha mejorado mucho el generación de voz por parte del ordenador. Programas como festival o toda la tecnología TTS (text-to-speech) se ha venido desarrollando de una manera imparable. Ahora es posible seleccionar un párrafo en nuestro procesador de texto y escucharlo con sólo un par de clicks. Muchas páginas dan la opción de "leer" el contenido a invidentes y, ya hay sistemas operativos especializados en síntesis, como tiflolinux, una distribución gnu/linux orientada a deficientes visuales.

Por último, os dejo con un texto generado en apenas 1 minuto usando loquendo, un programa de síntesis que podéis probar en su web.





Los audios han sido tomados de la página "Klatt's History of Speech Synthesis" salvo "Colonel Bogey March" que la he tomado de la página de CSIRAC.

No hay comentarios: