Reconocimiento de Voz en Accesibilidad

Tras la petición de Juan Carlos de Úsalo he indagado sobre el estado de los sistemas de reconocimiento de voz y sus aplicaciones.

Una primera definición
Las aplicaciones de reconocimiento de la voz tienen como objetivo la captura, por parte de una computadora, de la voz humana, bien para el tratamiento del lenguaje natural o para cualquier otro tipo de función.

Situémonos en contexto:

Los sistemas de reconocimiento de voz han sido y siguen siendo objeto de continuo desarrollo debido a la demanda tecnológica que requieren. Podemos situar el estado actual de los sistemas de reconocimiento en una Segunda Generación que supera el 90% de fiabilidad que ofrecían las aplicaciones de Primera Generación. Hoy en dia se trabaja con porcentages superiores al 95%.

Los Usos de los sistemas de reconocimiento de voz

El principal uso que agiliza la investigación en los sistemas de reconocimiento de voz es indudablemente la tramitación burocrática. Se pretenden implantar sistemas de reconocimiento de voz para usos médicos como la escritura de informes de los pacientes, ahorrando así gran cantidad de tiempo a los profesionales de medicina. En mas de 200 hospitales de EE.UU se han implantado estos sistemas de reconocimiento con mucho éxito.

En nuestro ámbito

Desde aquí trataremos los sistemas de reconocimiento de voz para la Accesibilidad que estos pueden proporcionarnos.

Primero separaremos las tecnologías de interfaces de Voz según el criterio de Josep Casanovas de Alzado.org:

Detección de tonos (DTMF):
El usuario oye una voz que le da las instrucciones y pulsa el teclado del terminal para escoger las opciones. El sistema reconoce la opción dada por el usuario a partir del tono pulsado.

Reconocimiento de voz (ASR):

El usuario oye una voz que le da las instrucciones y responde con la voz para escoger las opciones. El sistema reconoce lo que dice el usuario.

Síntesis de voz (TTS):

La voz que oye el usuario no está pregrabada, es voz sintetizada. Útil para dar respuestas con valores variables.

Verificación de la persona que habla (SV):
Es la vertiente biométrica del reconocimiento de voz que permite reconocer a la persona a través de las características de su voz.


Todos estos sistemas pueden tener aplicaciones en términos de Accesibilidad, especialmente para personas con discapacidades motrices severas que impidan el uso del teclado o el ratón total o parcialmente.
Se pueden usar en editores de texto y en navegadores para facilitar el acceso y uso de estos.

Algunas aplicaciones Software de tecnología de reconocimiento de voz son:

Dragon Naturally Speaking Preferred 4.0

Precio de lista : $199 USD. Requiere: Pentium MMX/200 o equivalente; 48 MB en RAM; 200MB de espacio en disco duro; tarjeta de sonido de 16 bits compatible con Creative Labs Sound Blaster; Microsoft Windows 95 , 98 o NT.

Nuestra selección de los editores en esta competencia, Dragon Naturally Preferred 4.0, marca el estándar para la facilidad de uso, desde la instalación directa hasta el formato sencillo y la navegación en el Web activada por la voz.

Con una mejor optimización para los nuevos procesadores y avances en el reconocimiento de palabras y comandos, Naturally Speaking ofrece una exactitud impresionante desde el desempaque. Sólo tiene la desventaja de un soporte limitado para el lenguaje natural en aplicaciones distintas de Microsoft Word. La precisión inicial de Naturally Speaking empató con la de nuestra mención honorífica, el Via Voice, 95%, y aunque este último subió a 98% con capacitación adicional, Naturally Speaking termino en 96%.

Sin embargo, los evaluadores informaron, de manera unánime, haber tenido el menor número de problemas al entender los comandos de voz de Naturally Speaking para la navegación y el formato.

Después de una práctica de 5 minutos, Naturally Speaking tarda alrededor de 2 minutos más en ajustar el modelo de lenguaje de base de acuerdo con su voz y pronunciación. El Vocabulary Builder importa palabras solas, listas de palabras o documentos completos, y le permite practicar todas las palabras o las seleccionadas tan pronto como las importa. Igual que con Via Voice, puede importar documentos para mejorar el reconocimiento.

FreeSpeech 2000

Precio lista: con audífonos Plantronics, $99.99 USD; con Philiphs SpeechMike , $149.99 USD. Requiere: Pentium/MMX 166 o equivalente; 48 MB en RAM; 100MB de espacio en disco duro; tarjeta de sonido compatible con Sound Blaster; Microsoft Windows 95,98 o NT con SP3.

FreeSpeech 2000 de Philips Speech Products presenta varios avances respecto a su predecesor: soporte para dictado en seis idiomas. Macros de voz y mayor precisión. Y aun incluye el práctico Philips SpeechMike. Pero las bajas calificaciones en precisión, la información limitada y el hecho de tener que cambiar en forma manual entre los modos de dictado y comandos reduce la facilidad de uso del FreeSpeech.

FreeSpeech, con una calificación inicial de 91% en precisión, mejoró en forma sustancial en comparación con su versión anterior. Pero en una categoría en la que un par de puntos porcentuales afecta la utilidad del producto, ésta es una calificación muy baja. FreeSpeech también se colocó en el último lugar en exactitud, a 93%. Probamos el FreeSpeech con SpeechMike y con Plantronics SR1. Obtuvimos una calidad de sonido aceptable durante la activación del audio con SpeechMike, pero sólo después de tres intentos. El programa también carece de una tarjeta de consulta rápida e incluye poca información de los comandos.

El modo de dictado tiene una característica EasyEdit, que destaca las palabras mientras reproduce el dictado, y la característica EasyCorrect del programa le permite interrumpir la reproducción y reemplazar la palabra subrayada con la opción seleccionada de una lista de alternativas. Para utilizar los comandos de los menús y los cuadros de diálogo, o para navegar en un documento, debe cambiar al modo Comandos con la barra de herramientas o un botón especial de SpeechMike. Esto puede ser confuso, sobre todo comparado con los otros programas, que por el momento no tienen modelos. El botón de SpeechMike facilita el proceso, excepto que, cuando lo suelta, el micrófono se apaga y debe pasar en forma manual al modo de Dictado , lo que reduce los beneficios del botón. Para deletrear palabras, debe cambiar al modo Deletrear, y si desea interrumpir la grabación de la voz, recurra al modo Inactivo. Utilizar cuadros de diálogo que requieren una combinación de navegación y dictado puede ser difícil.

Las herramientas para macros de FreeSpeech le permiten insertar varias líneas de texto, ejecutar programas y golpes de teclas y clics del mouse programados en forma previa. FreeSpeech tiene un soporte adecuado para NCL así como para comandos y controles en todas las aplicaciones. Al igual que Voice Xpress, incluye una lista de comandos de voz en la que es posible buscar por palabras clave.

Los usuarios encontrarán mayor precisión y facilidad de uso en otros programas que participan en esta competencia. Y muchos usuarios se cansarán muy pronto de cambiar en forma manual entre los modos de FreeSpeech.


L & H Voice Xpress Professional, Versión 4


Precio al público: $150 USD. Requiere: Pentium II; 48 MB en RAM con Microsoft Windows 95 o 98, o 64 MB con Windows NT; 200 MB de espacio en disco duro; tarjeta de sonido de 16 bits compatible con Sound Blaster o micrófono USB.



L & H Voice Xpress Professional ofrece las características básicas que todos esperamos en un programa de reconocimiento de voz: es posible dictar en cualquier aplicación, crear macros de voz y controlar las aplicaciones con comandos de voz. El punto fuerte del programa son sus comandos intuitivos con lenguaje natural para Microsoft Word, Excel y el sencillo procesador de palabras Voice Xpress. Pero sus características de corrección son limitadas; por ejemplo, carecen de reproducción de audio.

La instalación del programa y la lectura de información necesaria que tomó 10 minutos se realizaron sin problemas, pero la instalación del audio fue menos intuitiva. Al probar el volumen del micrófono, no hay indicación que le diga cuándo dejar de leer. Al terminar la instalación, aparece una barra de control en la parte superior de la pantalla, pero no es muy evidente cómo encender el micrófono. El delgado manual incluye pocas pantallas o ilustraciones, por lo que es difícil empezar a trabajar cuando se es nuevo en el reconocimiento de voz. En nuestras pruebas, Voice Xpress quedó en tercer lugar en precisión final, con 94%, detrás de Via Voice y Naturally Speaking. Para el uso casual, quizá sea suficiente, pero para un dictado más formal, querrá una calificación de 95% o más alta.

Voice Xpress es fácil de utilizar para dar formato al texto. Reconoce frases como “convertir en negritas las ultimas tres palabras”, convertir en negritas las tres palabras anteriores” y muchas otras variaciones del mismo comando. El programa responde con rapidez a lo que usted dice, por lo que la edición y el formato son rápidos y sencillos. Sus comandos para Excel también funcionan en forma adecuada.

Voice Xpress le permite respaldar sus archivos de voz con facilidad en Iomega Zip Drive u otro lugar aseguro. Los usuarios que desean controlar Excel y Word por medio de la voz quizá consideren que Voice Xpress es una opción adecuada.


Via Voice Pro Millennium Edition


Precio al público: $180 USD. Requiere: Pentium/233 o equivalente; 48 MB en RAM con Microsoft Windows 95 o 98, o 64 MB con Windows NT; 100 MB de espacio en disco duro ; tarjeta de sonido de 16 bits.

Nuestra mención honorífica en esta ronda, Via Voice Pro Millenium Edition de IBM, ofrece una amplia variedad de funcionalidad tanto para aplicaciones de dictado como de control, además de las mejores calificaciones de precisión del grupo. Los novatos empezarán a trabajar con rapidez, mientras que los usuarios de poder apreciarán las capacidades avanzadas de macros del programa. No obstante, los evaluadores encontraron que algunas de las características de edición de Via Voice son complicadas, un factor determinantes en su facilidad de uso en general. La instalación y el manejo inicial transcurrieron sin problemas gracias a las pantallas del asistente bien diseñadas y un personaje animado que explica cómo empezar. Los usuarios podrán empezar a dictar de 20 a 30 minutos después de la instalación del software, lo que incluye de 10 a 15 minutos de lectura del texto del registro.

En nuestras pruebas, Via Voice fue el producto más preciso: después del registro fue de 95%, que aumento a un sobresaliente 98% cuando dictamos el mismo documento después de hacer correcciones. En el uso diario, la mayoría de los usuarios deben tener una precisión entre estos porcentajes.

Via Voice, al igual que los otros productos que evaluamos, le permite controlar los menús y cuadros de diálogo en la mayor parte de los programas de Windows, con comandos en lenguaje natural disponibles para Microsoft Word y Excel, entre otros. Via Voice también le permite navegar el Web al activar Internet Explorer con la voz. Naturally Speaking también le permite decir los nombres de los vínculos, pero sólo Via Voice numera los elementos de la pagina, de modo que puede decir el nombre del elemento requerido.

Con todo, es complicado corregir los errores en Via Voice. El manual del programa sugiere emplear una combinación de mouse, teclado y voz para editar, en lugar de usar sólo comandos de voz.

Asimismo, es imposible emplear comandos de formato común en SpeakPad, el propio procesador de texto sencillo de Via Voice. Según las experiencias de los evaluadores, comandos como convertir en negritas las tres últimas palabras únicamente funcionaron en Microsoft Word.

A las excelentes calificaciones de precisión de Via Voice les afectan las limitadas capacidades de corrección del programa. Pero quienes son nuevos en el reconocimiento de voz y los usuarios de poder que valoran las capacidades de macros del programa y su capacidad de guardar audio para reproducirlo después, encontrarán muchas características agradables en Via Voice.

Estudio extraido de www.itq.edu.mx

Resumiendo
El reconocimiento de voz es un sistema aún en desarrollo, lejos de conseguir la perfección si se están obteniendo rendimientos aceptables para un uso fiable y productivo.
Los beneficios que este sistema puede añadir a la accesibilidad son muchos, desde escritura por voz hasta navegación completa. Pese a no ser el campo principal de desarrollo también se ve la Accesibilidad como un campo de acción extenso para los sistemas de reconocimiento de voz.
Se estan desarrollando navegadores, como es el caso de Opera, adaptados mediante sistemas de reconocimiento de voz para la navegación y búsqueda en Internet.
De seguir así, en un futuro no muy lejano, estos sistemas superaran las barreras tecnológicas, que ahora los limitan, y causarán una revolución en el uso del ordenador, aunque sin llegar a reemplazar a los existentes periféricos, si que llegará a coexistir con ellos facilitando muchos aspectos actuales como es la escritura de textos vía teclado.


Fuentes de documentación usadas y de visita obligatoria para profundizar:
Software de reconocimiento de voz. PC Magazine.
Opera lanzará un navegador con sistema de reconocimiento de voz.
El reconocimiento de voz aún debe superar barreras . Diario Médico
Interfaces de Voz IVR. alzado.org

miércoles, mayo 18, 2005

  • Volver al prinCipio