Búsqueda de escenas en secuencias de vídeo
Publicado el Enero 14, 2008 por Luis Fernando Solórzano
Archivado bajo Futuro de Internet
Hace unos meses estuve viendo un vídeo de las charlas de TED Conferences y recuerdo que el ponente expuso varias ideas muy interesantes. Mi problema ahora es que no tengo la documentación escrita y necesito una de las referencias que citó. Podría volver a ver el vídeo completo, pero tampoco tengo tanto tiempo y quisiera poder saltar directamente a la escena que me interesa. ¿No te ha pasado a ti alguna vez algo parecido?
Pronto dejará de ser un problema, ya que una de las líneas de investigación más activas últimamente es la que se refiere a los buscadores especializados en contenidos audiovisuales. Cada vez se distribuyen más vídeos caseros (YouTube) o producidos profesionalmente (películas, series TV, etc.) a través de Internet y varias empresas, como Blinkx y EveryZing, han desarrollado tecnologías de búsqueda basadas en la conversión del audio en texto (reconocimiento de voz).
En el MIT, al igual que otras prestigiosas universidades americanas, han empezado a publicar los vídeos de las clases impartidas en sus aulas. La difusión de ese conocimiento es muy loable, pero nuevamente supone un reto si no tienes tiempo suficiente para verte todos los vídeos o deseas consultar algo en particular para tener referencias. Los buscadores en secuencias de vídeo actuales no sirven porque muchos de los profesores del MIT no son angloparlantes nativos y sus acentos pueden resultar confusos para los sistemas de transcripción automática basados en reconocimiento vocal. Además, los terminos específicos de las asignaturas de ciencia y tecnología suenan a chino y la estructura de una clase no es tan organizada en tópicos o partes como en el caso de un libro.

La solución es el MIT Lecture Browser, un buscador especializado que resuelve la mayoría de dichos problemas. El software que convierte el audio en texto está entrenado para distintos tipos de acentos y conoce el vocabulario técnico que habitualmente se encuentra en los textos académicos. Sin embargo, cuando el ponente tiene un acento muy raro la tasa de acierto queda reducida al 50%.
En el futuro, también van a mejorar el software que analiza la estructura gramatical de las frases para poder deducir cuáles son los conceptos claves. Esto no es fácil en el caso del lenguaje hablado, ya que a veces es muy poco estructurado y lleno de muletillas o dubitaciones.
Vía Technology Review.
Tags: blinkx, buscador, Google, MIT, reconocimiento voz, vídeo, Youtube
Un AMIGO en el hogar
Publicado el Diciembre 5, 2007 por Alonso Alvarez
Archivado bajo Banda ancha, Tecnologías
“Smarter homes with an Amigo” es un artículo en el blog “Emerging Technology Trends” de ZDNET sobre el proyecto AMIGO, una actividad financiada por la Comisión Europea en la que participan activamente varias empresas españolas como Telefónica I+D, Ikerlan o Fagor.
Es un hecho singular que los medios del otro lado del Atlántico se fijen en la I+D europea, especialmente aquella realizada en colaboración y financiada con fondos públicos (es más habitual que reflejen iniciativas individuales de grandes empresas como Nokia o Philips).
El proyecto Amigo surge como una iniciativa común entre 15 empresas europeas de los sectores de las telecomunicaciones, el desarrollo de software, la electrónica de consumo y la fabricación de electrodomésticos con el objetivo fundamental de exprimir e impulsar todo el potencial que ofrecen las redes domésticas (home networking) y la Inteligencia Ambiental para mejorar el día a día de las personas cuando se encuentran en su hogar.
Para alcanzar estos objetivos se esta construyendo un middleware abierto, estandarizado e interoperable (junto con el desarrollo de servicios para el usuario final apoyados en dicho middleware), dentro del entorno del hogar u hogar interconectado. Este middleware es distribuido, de forma que cada bloque funcional puede estar implementado por varios componentes en máquinas distintas. Su objetivo es proveer interoperabilidad y seguridad en un entorno dinámico.

Por encima de dicho middleware se construyen unos Intelligent User Services (IUS), que utilizan los servicios básicos ofrecidos por el middleware y ofrecen a los desarrolladores servicios avanzados para integrar en sus aplicaciones. En el marco del proyecto se han desarrollado algunos IUS como:
- Gestor de la información de contexto producida en el hogar.
- Intérpretes de contexto que combinan informaciones individuales para obtener información de contexto de mayor nivel (que se almacena según un modelo ontológico).
- Modelado de usuarios que genera perfiles con las preferencias asociados a cada usuario del hogar.
- Motor de reglas y notificaciones para el usuario.
- Interfaces multimodales (reconocimiento de voz, de gestos 3D y 2D, menús adaptables al contexto y preferencias).
- Servicios de privacidad y seguridad.
Y sobre estos servicios están las aplicaciones de usuario, organizadas en torno a tres escenarios:
- Home Care and Safety: centrado en dispositivos y servicios relacionados con el cuidado y la seguridad de las personas en el hogar.
- Home Information and Entertainment: enfocado a la provisión de información y distribución de contenidos en el hogar. Está en el Parque Tecnológico de Walqa, en Huesca. Incluye aspectos tan atractivos como juegos interactivos empleando tableros físicos.
- Extended Home Environment: centrado en los conceptos de la “comunicación de ambiente” (Ambience Sharing) ente hogares, que extienden el entorno del hogar hacia la compartición de ambientes y la comunicación remota como en una extension natural de la comunicación cara a cara (face to face).
Una iniciativa muy original de este proyecto es la “AMIGO Challenge“, una competición que premia el desarrollo de componentes open source que operen sobre el midleware de AMIGO.
Hay más información sobre el proyecto en la web oficial (http://www.hitech-projects.com/euprojects/amigo/), en el artículo “An open approach to smarter homes” de ICT Results, un resumen descriptivo del proyecto, un artículo en El País (“Inteligencia ambiental, tecnología al servicio vida diaria“) o el siguiente vídeo:
(Con la colaboración de José María Miranda, componente del equipo de proyecto en Telefónica Investigación y Desarrollo)
Tags: ambient intelligence, contenidos, entretenimiento, gestuales, hogar, interfaces, Microsoft, personalizacion, Philips, reconocimiento voz, Telefónica ID
Tendencias de internet en TC40
Publicado el Septiembre 21, 2007 por Alonso Alvarez
Archivado bajo Futuro de Internet, Tendencias
Organizada por el blog TechCrunch, la conferencia del mismo nombre, TechCrunch 40 o TC40, se ha celebrado por primera vez este año (18 y 19 de sepiembre) con un formato muy original: 40 startups elegidas entre una lista de 700 a las que se ha dado la oportunidad de dar a conocer públicamente sus propuestas. Al final, se ha otorgado un premio de 50.000$ a la más valorada por los asistentes.
TC40 ha servido para obtener una visión general y muy actualizada de las propuestas más interesantes dentro de un mercado muy cambiante y dominado por los servicios Web 2.0. La conferencia se ha visto complementada con un área de exposición para otras 100 compañías, y ha sido el foro elegido para hacer numerosos anuncios.
Hay mucha información en el sitio web preparado por la organización, lo que incluye programa, un blog, un espacio para multimedia y referencias e información de todas las empresas que han participado. Las presentaciones de cada una de las empresas han sido valorada por los asistentes. Tanto esa valoración como algunas de las presentaciones están disponibles públicamente.
La conferencia ha sido aprovechada para hacer anuncios por parte de algunas empresas, como BlueString de AOL, Yahoo!Teachers, la herramienta para presentaciones de Google Docs, o DialDirections, un servicio para obtener indicaciones en el móvil.
En lo que respecta a las startups en sí, el número y variedad demuestran la vitalidad de esta industria. Por temas destaca el número de propuestas relacionadas de una u otra forma con la movilidad y servicios en torno a los teléfonos móviles, lo que incluye también las llamadas de voz.
Las comunidades sociales y todos los aspectos relacionados con la Web 2.0 siguen siendo omnipresentes, de forma que muchas de las empresas ofrecen formas “sociales” de hacer tareas que ya existían, o tratar de ser el “Youtube” o el “Facebook” de algo.
La interpretación del lenguaje (usando inteligencia artificial), el uso de interfaces vocales, y la mejora y simplificación de la forma de interactuar con los sistemas son también puntos presentes en muchas de las propuestas presentadas.
Llama la atención que varias empresas se basan en modelos de compartición de ingresos con el público. Ya no se trata únicamente de captar el contenido generado por el usuario. Ahora se le atrae con una recompensa económica.

El premio de 50.000$ (35.000€) ha sido para Mint que ofrece una aplicación de finanzas personales con toque de red social que parece contar con un sólido modelo de negocio y unas buenas perspectivas.
También se ha destacado mucho la coreana MusicShake que permite la creación y comercialización de música generada por el usuario.
Además de éstas, merece la pena destacar a:
- Xobni. Dedicada a gestionar y organizar el correo de sus usuarios, puede ser una herramienta muy importante para un gran número de personas.
- XR3TD ofrece un interface basado en gestos con muy buenas perspectivas de aplicación, sobre todo en mundos virtuales y aplicaciones inmersivas.
- La plataforma de creación de mundos virtuales Metaplace puede ser una gran idea pero va a competir en un mercado un poco saturado.
- Kaltura ofrece un Wiki para multimedia y ha sido la más valorada entre las empresas del “pit”, el área de demostraciones.
- Y por su potencial impacto, la irlandesa Cubic y su sistema de roaming.
Tags: 3D, Google, Inteligencia Artificial, interfaces, mundos virtuales, negocio, reconocimiento voz, servicios moviles, Web 2.0, Yahoo, Youtube
Google 411. Servicio de búsqueda vocal automatizado
Publicado el Agosto 9, 2007 por Alonso Alvarez
Archivado bajo Futuro de Internet, Ideas de negocio, Tendencias
Uno de los últimos desarrollos de los Google Labs es el llamado Google 411, un servicio automatizado que sustituye al 411 norteamericano. Hasta la fecha, este número de teléfono daba paso a un servicio bastante costoso (o financiado por publicidad) que permitía búsquedas de negocios por medio del teléfono y atendidos por operadores. La innovación del servicio de Google, que cada vez se muestra más activo en el teléfono, es la gratuidad de la llamada, y la atención automatizada del usuario. El sistema es similar al de los números 118 españoles: puede remitir los resultados por SMS al usuario o poner en contacto telefónico directamente con el negocio localizado.
El servicio, actualmente gratuito, migrará previsiblemente tratándose de Google a un modelo financiado por publicidad.
El mercado de este tipo de servicios en Estados Unidos mueve unos 7.000 millones de dólares y está viendo la entrada de empresas (como Microsoft y ATT) con modelos basados en la gratuidad de la llamada.
Tags: Google, negocio, publicidad, reconocimiento voz
Jott, servicio Web 2.0 con motor humano
Publicado el Agosto 6, 2007 por Alonso Alvarez
Archivado bajo Futuro de Internet, Ideas de negocio
Ya hemos hecho referencia a servicios basados en el uso de personas para realizar tareas demasiado costosas o complejas en términos de computación, la llamada Inteligencia Artificial artificial. Mientras la mayoría de esos servicios se orienta a empresas o requiere el uso de interfaces sofisticados, uno de de ellos, Jott, reseñado en Technology Review, hace uso de un interface vocal.
Sin necesidad de descargar software, directamente desde un teléfono y llamando a un número gratuito, el usuario deja un mensaje vocal de una duración máxima de 30 segundos, indicando a quién debe dirigirse. El mensaje es transcrito en la India y enviado por correo electrónico a la persona o personas indicadas por el destinatario, incluyendo él mismo, en forma de memorandos o recordatorios.
La empresa ha acuñado la expresión “jotting” para promocionar su servicio.

El servicio, a día de hoy gratuito, es novedoso en sus formas, más que en su contenido y función en un mercado tan maduro como el norteamericano. Se basa como es evidente en una mano de obra barata y cualificada, pero no es fácil imaginar servicios similares replicados en otros mercados.
Tags: India, Inteligencia Artificial, reconocimiento voz
Buscadores de vídeo basados en reconocimiento de voz
Publicado el Julio 16, 2007 por Luis Fernando Solórzano
Archivado bajo Futuro de Internet, Ideas de negocio
La proliferación de servicios de publicación de vídeos en la web, del estilo YouTube o los videoblogs, origina una necesidad de mejorar los buscadores. No es tan fácil para un motor de búsqueda “saber” de qué va un vídeo como lo es analizar el contenido de una página web con texto. El nombre del archivo y los atributos asociados (social network tags, ID3, MPEG-7, etc.) a menudo se quedan cortos y no ayudan en nada a localizar una determinada escena en un videoclip.
Everyzing ha lanzado su servicio de búsqueda para vídeos, basado en la tecnología de reconocimiento de voz de la empresa BBN Technologies. Lo que hacen es generar una transcripción del audio aplicando el reconocedor de voz, para luego indexarlo y aplicar la tecnología de búsqueda tradicional de Google u otros.
Aquí tienes una demo en vídeo:
No es la primera empresa que hace esto, Blinkx es una tecnología de motor de búsqueda avanzado para contenidos de vídeo que es capaz de analizar la imagen en movimiento y además también aplica técnicas de reconocimiento de voz para ayudar en búsqueda de contenidos audiovisuales.
Aquí tienes una entrevista en vídeo a su fundador:
Vía TechnologyReview.
Tags: blinkx, buscador, reconocimiento voz, vídeo, Youtube




