August 5, 2011 2:27 pm

Una interfaz mucho más natural (parte 3 de 3)

prod_TellMe_hero

Una vez que se identificó plenamente el sistema de sonido, el siguiente paso que debíamos dar era integrar a Kinect esa señal en el servicio de voz Microsoft Tellme. “Nuestro trabajo consistía en tomar el sonido restante, que en esta etapa eran los comandos del jugador, y hacer algo racional con él”, afirma Keith Herold, gerente senior de programas en Microsoft Tellme. “Este proyecto exigía que rebasáramos todas las barreras en respuesta de voz telefónica y en reconocimiento de voz por computadora para generar un ambiente mucho más humano”.

Otro factor era la tasa de error permitida por el equipo de Xbox, la cual parecía demasiado baja para un sistema con tantas variables.

“Jamás queremos que un comando desate acciones aleatorias en la consola”, asegura Herold. “Desde luego, la idea de ‘jamás’ es imposible, pero elegimos un número pequeño, razonable para ese ‘jamás’”.

La solución a ese problema era un software similar al concepto desarrollado por primera vez para los walkie-talkies, el botón de transmisión o de “pulsar para hablar”, que en este caso, se personalizó con la palabra clave “Xbox”.

“Cuando dices ‘Xbox’, el sistema sabe que te estás dirigiendo a él y que en seguida recibirá un comando. Si no dices ‘Xbox’ primero, no has pulsado el botón virtual ‘pulsar para hablar’, y el sistema no te escuchará”, dice Herold.

Debido a que Kinect soporta tanto voz como gesticulación, los equipos de Xbox y de Microsoft Tellme dedicaron mucho tiempo a determinar cómo habilitar ambas formas de interacción en una manera que fuera complementaria e intuitiva. Por ejemplo, la voz puede ser la mejor forma de buscar entre miles de canciones, pues utilizar la gesticulación para recorrer una lista tan grande puede ser tedioso. Al decir a la máquina, “Xbox: Bing, The Beatles”, el usuario obtiene, en la manera más natural posible, lo que desea de la vasta colección de contenido disponible a través de Xbox LIVE.

Evolucionamos la plataforma

Sin embargo, el equipo pensó a largo plazo desde el principio. “Para el lanzamiento de Kinect, tuvimos que saltar varias vallas tecnológicas en nuestro camino hacia ‘Xbox: reproduce. Xbox: pausa.’”, afirma Soemo. “Nadie había logrado un reconocimiento de voz tan preciso a una distancia de cuatro metros sin pulsar un botón físico y en un ambiente con tanto ruido ambiental —todo mientras reproduce en sonido ambiental 5.1—. Gracias a la colaboración entre los equipos de Xbox, de Microsoft Research y de Microsoft Tellme, pudimos convertir la ciencia ficción en un hecho científico”.

“¿Cuáles son las experiencias más asombrosas que podemos crear con el reconocimiento de voz?”, pregunta dice Keith Herold, gerente senior de programas en Microsoft Tellme. “¿Podemos crear una tecnología que sea tan natural como conversar con un amigo? Es ahí a donde queremos llegar, y está sucediendo frente a nuestros ojos”.