Búsqueda de escenas en secuencias de vídeo
Hace unos meses estuve viendo un vídeo de las charlas de TED Conferences y recuerdo que el ponente expuso varias ideas muy interesantes. Mi problema ahora es que no tengo la documentación escrita y necesito una de las referencias que citó. Podría volver a ver el vídeo completo, pero tampoco tengo tanto tiempo y quisiera poder saltar directamente a la escena que me interesa. ¿No te ha pasado a ti alguna vez algo parecido?
Pronto dejará de ser un problema, ya que una de las líneas de investigación más activas últimamente es la que se refiere a los buscadores especializados en contenidos audiovisuales. Cada vez se distribuyen más vídeos caseros (YouTube) o producidos profesionalmente (películas, series TV, etc.) a través de Internet y varias empresas, como Blinkx y EveryZing, han desarrollado tecnologías de búsqueda basadas en la conversión del audio en texto (reconocimiento de voz).
En el MIT, al igual que otras prestigiosas universidades americanas, han empezado a publicar los vídeos de las clases impartidas en sus aulas. La difusión de ese conocimiento es muy loable, pero nuevamente supone un reto si no tienes tiempo suficiente para verte todos los vídeos o deseas consultar algo en particular para tener referencias. Los buscadores en secuencias de vídeo actuales no sirven porque muchos de los profesores del MIT no son angloparlantes nativos y sus acentos pueden resultar confusos para los sistemas de transcripción automática basados en reconocimiento vocal. Además, los terminos específicos de las asignaturas de ciencia y tecnología suenan a chino y la estructura de una clase no es tan organizada en tópicos o partes como en el caso de un libro.

La solución es el MIT Lecture Browser, un buscador especializado que resuelve la mayoría de dichos problemas. El software que convierte el audio en texto está entrenado para distintos tipos de acentos y conoce el vocabulario técnico que habitualmente se encuentra en los textos académicos. Sin embargo, cuando el ponente tiene un acento muy raro la tasa de acierto queda reducida al 50%.
En el futuro, también van a mejorar el software que analiza la estructura gramatical de las frases para poder deducir cuáles son los conceptos claves. Esto no es fácil en el caso del lenguaje hablado, ya que a veces es muy poco estructurado y lleno de muletillas o dubitaciones.
Vía Technology Review.





