Los empleados deciden en qué idioma publican sus entradas.
Puedes encontrar más contenidos seleccionando el idioma inglés en el enlace superior.

Navegando por el Long Tail: utilidad de las tecnologías semánticas

1 Malo2 Mejorable3 Normal4 Bueno5 Excelente (Votos: 2. Media: 5,00/5)
Loading ... Loading ...

Cuando nos acercamos a la edad de los Zetabytes en información generada en nuestro planeta (un uno y 21 ceros), nos vamos dando cuenta que este aumento exponencial en la cantidad de información provoca que sea más difícil encontrar lo que deseamos en la WEB. Tanta cantidad de información, en muchas ocasiones se acaba convirtiendo en un problema si no se desarrollan en paralelo mecanismos para mejorar el nivel de acierto en las búsquedas.

Esto es especialmente relevante en las búsquedas que no son las más  habituales. El motivo es que los sistemas de ranking de los buscadores tradicionales tipo Google se basan en criterios de uso: número de links, número de visitas…, que hace que los primeros puestos en cualquier consulta sean los que tienen un significado más utilizado por los usuarios, lo que coincide con el concepto de “Short Head”. Aunque a primera vista esto puede parecer positivo, supone dejar a un lado gran cantidad de información que se encuentra en la zona “Long Tail” que en muchas ocasiones es mayor que la información en la cabeza aunque más dispersa. Se trata por tanto de información con menor relevancia para la masa pero interesante para muchos grupos de pocos usuarios.

Para buscar información en esta área es necesario buscar otros criterios diferentes a los rankings tradiconales, y sin duda alguna las tecnologías semánticas tienen mucho que decir al respecto.

Como un ejemplo vale más que mil palabras voy a hacer una comparativa entre dos buscadores conceptualmente distintos: Google que utiliza un sistema de ranking basado en relevancia y Quintura que utiliza un motor semántico.

Supongamos que queremos buscar información sobre el Hotel Palace de Madrid, pero no en el sentido tradicional para buscar alojamiento, sino que somos estudiantes de arquitectura y queremos saber el nombre del arquitecto que construyó este hotel. Vamos a realizar la siguiente consulta: “Hotel Palace Madrid arquitecto”.

Google nos muestra los siguientes resultados para esta consulta:

De los cuatro primeros resultados mostrados por este navegador, ninguno es capaz de captar el sentido a la búsqueda y todos dirigen a páginas de mayoristas de hoteles, ya que la mayoría de los usuarios cuando buscan un hotel, lo hacen con la intención de buscar un sitio donde alojarse.

Quintura nos muestra los siguientes resultados para la consulta:

 

Con este buscador que utiliza tecnologías semánticas se consigue mejorar en gran medida la calidad de los resultados. Los dos primeros resultados conducen directamente a documentos en los que que se nombra al arquitecto del hotel Palace.

Además Quintura ofrece un Interfaz gráfica que permite  al usuario navegar por esta “Long Tail”, permitiendo al usuario que delimite más el sentido de su búsqueda.

 

No hay duda que el aumento exponencial de la información en la red y el uso masivo de Internet hacen que sea necesario encontrar nuevas formas de movernos por la información. En principio parace que será difícil que una sola herramienta como Google sea la más adecuada para todos los grupos de personas en todas las ocasiones. Por este motivo estamos asistiendo a movimientos importantes en el mundo de los buscadores: Powerset, Hakia, Ask.me, True Knowledge, Quintura… Habrá que esperar para ver si consiguen competir con Google. 

Tecnologías Semánticas: situación y tendencias actuales

1 Malo2 Mejorable3 Normal4 Bueno5 Excelente (Votos: 2. Media: 5,00/5)
Loading ... Loading ...

Sin duda alguna las tecnologías semánticas están empezando a dar sus frutos y son ya muchos los que  desde los más diferentes ámbitos: empresas usuarias, organismos públicos, comunidad científica, desarrolladores de aplicaciones… defienden su incorporación en los sistemas de información. El motivo fundamental que está impulsando este movimiento procede de la sensación bastante generalizada de que nos estamos ahogando en datos y de que el grado de madurez que están alcanzando estas tecnologías es suficiente para entregar resultados.

En estos momentos el concepto tan abstracto de “tecnologías semánticas”, muy utilizado pero que muchas veces poco comprendido, es visto como una posible salvación para abordar el reto de una Web más estructurada. Tanto es así, que algunos expertos como Richard MacManus lo considera como la tendencia más importante de la Web para los próximos años

El primer problema que surge es definir que son las tecnologías semánticas, ya que dependiendo del área en el que se trabaje, la visión puede ser completamente diferente. En cierto modo sucede como en el cuento de los seis ciegos y el elefante, que dependiendo de que parte palpe cada uno, la imagen que se construye sobre como es el elefante es diferente.

Una definición genérica de tecnologías semánticas es: aquellas tecnologías que tratan de manejar las relaciones entre datos para proporcionar un acceso inteligente a los recursos que sirva para mediar entre las intenciones de los usuarios y la información disponible. El gran reto es crear, codificar y extraer significados y ofrecer una organización estructurada de conocimiento para manipular, reutilizar y direccionar la información. En el presente post trataremos de repasar la situación actual y tendencias actuales de las tecnologías semánticas. Como se ha comentado, la situación actual viene marcada por la sensación de que las piezas fundamentales para construir aplicaciones semánticas ya están ahí, y eso se plasma en la estabilidad de estándares y bases de conocimiento.

  • Estándares:

El problema de los estándares a la hora de comunicar información es tan antiguo como la propia civilización, siendo el ejemplo más recurrido sobre la falta de entendimiento entre las personas por la falta de un sistema común de información el caso de la “Torre de Babel”.

Por este motivo, desde que se empezó a hablar de tecnologías semánticas, los aspectos relacionados con los estándares han tenido gran relevancia. Según comentó Ivan Herman  (líder de la actividad semántica de W3C) en la Conferencia Semántica SemTech 2008, ya se ha alcanzado un grado elevado de desarrollo en los estándares sobre los cuales pueden edificarse los servicios de tecnologías semánticas. Las principales conclusiones de su conferencia relativas a los estándares fueron: 

  • Existe una estabilidad en los estándares RDF y OWL.
  • En el año 2008 aparece un nuevo estándar para hacer consultas, el SPARQL
  • Existen tecnologías para acceder/crear RDF datos: GRDDL, RDFa, POWDER
  • Algunos vocabularios empiezan a ser pervasivos: Dublin Core, FOAF…
  • Bases de conocimiento

Las ontologías y las tripletas de datos RDF tratan de representar formalmente los conceptos dentro de un dominio y también las relaciones entre estos conceptos. Son por tanto la base del conocimiento estructurado y uno de los pilares sobre los que se basa las tecnologías semánticas. Tras varios años de trabajo en el campo de las tecnologías semánticas, el número de datos, ontologías y su tamaño ha ido creciendo, constituyéndose como verdaderas bases de datos de conocimiento.

Estas bases de datos semánticamente preparadas tienen un ámbito vertical: Geonames Ontology tiene más de 6 millones de datos, Ontology for Biomedical Investigations, RDF Book mashup…

Llama en este sentido la atención el reto de la 7th  International SemanticWeb Conference  que se define como “Billion Triple Challenge 2008“.

Una vez que existe una base firme y con un buen grado de madurez, conviene repasar cuales son las áreas en las que hay más movimiento y empiezan a marcar tendencia:

  • Buscadores semánticos:

Sin duda alguna este es el campo que más expectativas ha levantado en los últimos años. El incremento en la cantidad de información en la Web, sobre todo desde que la Web 2.0 se ha asentado convirtiendo a los usuarios en generadores de contenidos, hace que una gran cantidad de empresas se haya planteado modelos alternativos a Google, el cual se basa únicamente en estadísticas.

Durante el año 2008 se produce el lanzamiento de dos herramientas en este sentido Hakia y Powerset. No obstante, tras realizar pruebas comparativas con Google se ha comprobado que la utilización de tecnologías semánticas no mejora la calidad con respecto a los resultados ofrecidos por Google.

Tal y como se ha comentado en otro post, algunas empresas como Yahoo están apostando por un planteamiento botton-up como manera de mejorar la calidad de las búsquedas, para ello están indexando etiquetas semánticas de toda la Web con la intención de ofrecer resultados más estructurados. Según este planteamiento, los editores tendrán que introducir metadatos en sus WebSites si desean que un buscador semántico pueda entender el contenido. Esto conlleva un esfuerzo por parte de los creadores de contenido que según ellos se verá recompensado por las posibilidades que ofrecen las búsquedas semánticas.

  • Web Services semánticos

Los web services añaden una capa de funcionalidad a los sitios web, suponiendo un primer paso para la integración de componentes distribuidos de software. Se basan en estándares y tecnologías como Soap, UDDI, y WSDL. A pesar del progreso que se ha realizado para facilitar la interoperabilidad, todavía es necesaria la intervención humana, por ejemplo tanto el proceso de encontrar un servicio relevante como de los datos que necesitan ser intercambiados entre los servicios, requieren de un trabajo manual.

El concepto de Semantic Web Services trata de solucionar el problema de la interoperabilidad entre los Web Services, intentando introducir además una interoperabilidad semántica ya que por ahora los web services se basan en XML lo que permite una interoperabilidad sintáctica. De esta manera se podrán automatizar las tareas relacionadas con los Web Services como descubrimiento, publicación, mediación, invocación y adaptación de servicios. En este sentido existe un gran número de iniciativas como OWL-S, METEROR-S, WSMO, WSDL-S, IRS, que han sido dirigidas a W3C, organismo que ha realizado ya las primeras recomendaciones sobre semántica para Web Services.

Como una primera aproximación de este concepto, la empresa Reuters ha lanzado la API Open Calais, que permite transformar texto desestructurado en metadatos, y que está centrada en “Personas”, “Compañías”, “Lugares”, y “Eventos” como se muestra en la siguiente figura:

Otro caso de API basada en tecnologías semánticas es la SemanticHacker API de la companía Textwise, que se centra en el descubrimiento de servicios y que ofrece un millón de dólares por la mejor aplicación comercial que la utilice. Este enfoque es diferente al de la simple extracción de datos o el uso de metadatos, ya que va más lejos tratando de encontrar el tema sobre el que giran los documentos.

Otro intento en este ámbito proviene de Dapper que trata de convertir una Web Site en una especie de Web Service o más bien en un data service  que permita a los internautas acceder a información de forma estructurada. Para ello recurre a anotaciones de los editores.

  •   Personalización según contexto

En un gran número de ocasiones los servicios tienen mucha dependencia con el contexto en el que se utilizan. En estos casos la personalización de contenidos juega un papel fundamental en su aceptación. Las tecnologías semánticas pueden ofrecer soluciones con ontologías específicas que permitan descubrir los contextos y utilizar esta información para enriquecer la experiencia del usuario.

Sezwho es una empresa especializada en utilizar el contexto en aplicaciones de social Web, para ello analiza diferentes tipos de medios sociales, reputaciones y perfiles y trata de introducir información relevante en el contexto de una conversación.

En el campo  de la navegación utilizando diferentes dispositivos, el hecho de conocer el contexto del usuario es un aspecto importante para mejorar la usabilidad de los servicios. Este concepto de contexto es amplio y tiene en cuenta: perfil del usuario, lugar desde el que se accede, características del dispositivo de acceso… Un ejemplo de como afrontar este desafío mediante las tecnologías semánticas se encuentra en la iniciativa OpenSource de la comunidad Morfeo, que en sus especificaciones incluye una ontología sobre la utilización del contexto en la navegación desde dispositivos móviles.