Reconocimiento del habla, más allá del dictado de documentos

Publicado: 

Jue, 14/04/2011

Fuente: 

TecnoAccesible

Los programas de reconocimiento del habla son relativamente conocidos para el dictado de documentos en el ordenador, como el programa Dragon NaturallySpeaking, que actualmente es hegemónico en el mercado. El sistema operativo Windows 7 incorpora una herramienta de reconocimiento del habla bastante eficiente, que debe ser activada y realizar un entrenamiento previo antes de poder utilizarla, permitiendo dictar texto en documentos o formularios y ejecutar comandos de voz para manejar el sistema operativo o los programas instalados. No hay duda de que los programas de reconocimiento del habla son una formidable herramienta y el mejor sistema de acceso al ordenador para usuarios que tengan un habla fluida y sin alteraciones, adecuado especialmente para los que tengan problemas de movilidad, e incluso para aquellos que no tienen dificultades para escribir con el teclado convencional (que en realidad son para los que fueron diseñados inicialmente estos productos). En otro artículo hablaremos de las ventajas de utilizar los programas de reconocimiento del habla en entornos de Windows (no conozco ninguna herramienta para Linux o Appel en español, aunque sí hay ya iniciativas para crearlas), pero en éste vamos a hacernos eco de una noticia que para mí tiene una enorme trascendencia: Nuance hace posible que el servicio de Llamadas Perdidas de Movistar España incorpore la conversión de voz a texto.

El servicio consiste en que si la persona a la que se llama no está disponible en ese momento, pueda grabarse un mensaje como si fuera un buzón de voz, el sistema reconoce el mensaje, lo convierte en texto y lo envía como un SMS. Es un servicio práctico para aquellos que no quieren estar pendientes de los mensajes de voz, basta con acceder al buzón de entrada de SMS y revisar los mensajes de las llamadas que no han sido atendidas. Evidentemente se pueden producir fallos en el proceso de convertir la voz en texto, los programas de reconocimiento "siempre" interpretan los sonidos convirtiéndolos en palabras a partir de un vocabulario interno con los que los comparan, y siempre hay alguna palabra que se parece al sonido procesado, nunca tiene como resultado "palabra no encontrada" o "sonido no identificado". Los fallos pueden ser de nombres propios, palabras mal pronunciadas o de otros idiomas.

Las posibilidades que abre este servicio van más allá de la utilidad para la que ha sido diseñado. En 1999 trabajé en un proyecto de Telefónica I+D denominado "Beethoven", que tenía como ojetivo hacer un demostrador de un servicio que permitiera realizar una conversación en tiempo real entre un usuario sordo y otro oyente, utilizando la tecnología del habla desarrollada por Telefónica para sus servicios de atención al usuario. El prototipo se presentó en el CEAPAT a la CNSE, funcionando durante la demostración bastante bien, según reconocieron los asistentes. Aún así, disponía de un vocabulario limitado (10.000 palabras) que no garantizaba una fiabilidad suficiente para establecerlo como servicio en producción. Los servicios de este tipo, como el que actualmente se describe en la noticia de Nuance para Movistar o el mencionado proyecto "Beethoven", deben reconocer la voz del usuario sin un entrenamiento previo, es decir, independiente del locutor, y disponer de un vocabulario amplio para cubrir el repertorio lingüístico de cualquier usuario que acceda al servicio.

El esquema de funcionamiento de un servicio de comunicación telefónica automático entre usuarios sordos y oyentes es sencillo:

  • Cuando un usuario oyente llama a un usuario sordo, el sistema le informa sobre el tipo de conversación que va a establecer; la señal de voz entra en el módulo de reconocimiento de habla espontánea, que convierte la voz en texto y lo envía al usuario sordo.
  • El texto es presentado en la pantalla de la aplicación del usuario sordo, quien a su vez contesta escribiendo una respuesta como si se tratrar de una aplicación de mensajería instantánea, y es enviada al servidor.
  • En el servidor el texto es convertido en voz y se transmite la señal al interlocutor oyente.
  • Un servicio de intermediación automático debería disponer de un soporte alternativo de intermediación atendido, como el que actualmente presta el IMSERSO, de forma que si los usuarios creen que el reconocimiento falla puedan recurrir al servicio atendido.
Esquema de un servicio de intermediación automática
Esquema del funcionamiento de un servicio de intermediación automática entre usuarios sordos y oyentes

Parece que corren buenos tiempos para conseguir un servicio de este tipo, por una parte el programa Dragon NaturallySpeaking, que en sus versiones anteriores tenía como requisito un entrenamiento previo del usuario leyendo un texto, ahora es capaz de empezar a funcionar sin dicho etrenamiento con bastante éxito en el reconocimiento realizado y, por otra parte, este servicio en producción de Movistar es una excelente noticia que parece estar a sólo un paso de disponer de un servicio de intermediación automática entre personas sordas y oyentes. Esperemos que las operadoras de telefonía recojan la idea y lo implementen lo antes posible o, mejor aún, que ya estén en ello y falte poco para que sea una realidad.

Información adicional