¿Llega por fin la Web Semántica?
Publicado el Mayo 22, 2009 por Javier Carbonell
Archivado bajo Sociedad de la Información, Tendencias
Se lleva hablando mucho tiempo de la web semántica. De hecho, siempre aparece entre las tendencias tecnológicas con más futuro a medio plazo en las quinielas de las grandes consultoras tecnológicas, pero ya sea por falta de madurez de tecnología o por motivos de mercado siempre su adopción se acaba posponiendo.
En los últimos días parece que las cosas empiezan a cambiar y cada día son más los anuncios de servicios que incluyen de alguna manera las tecnologías semánticas. Sin embargo los anuncios realizados por Google durante el evento “Searchology” que se ha llevado a cabo en las propias instalaciones de esta empresa en Mountain View (California), suponen un hito fundamental.
Parece que Google se ha dado cuenta que la competencia apremia, que aparecen nuevos competidores que hace un año no existían como Wolfram Alpha que asegura ser capaz de dar respuesta a preguntas complejas realizadas en lenguaje natural. También se espera que Microsoft lance un nuevo buscador semántico en las proxímas semanas, Kumo, que se basa en la tecnología de la empresa Hakia que compró hace un año. En otros casos como Yahoo, su buscador SearchMonkey está preparado para la utilización de tecnologías semánticas desde hace más de un año.
Como en otras ocasiones Google no quiere perder su posición innovadora y según ha indicado apuesta fuerte por las soluciones semánticas. Así este martes acaba de anunciar varias nuevas funcionalidades como:
- Rich Snippets: Permite obtener un resumen de información sobre un término de búsqueda para que el usuario pueda de un vistazo hacerse una idea general. Por ejemplo si un usario teclea el nombre de un restaurante, el buscador podrá mostrar opiniones de usuarios, clasificaciones… Para ello se basa en la utilización de RDFa y Microformatos
- Google Squared: Que permite obtener de las consultas información estructura y presentarla en formato tabla de datos.
- Google Search Options: Incorpora opciones de búsqueda que en algunos casos parecen tener un fundamento semántico como la representación gráfica de términos semánticos, identificar si una entrada es una opinión, y hasta destacar el texto que recoge el sentimiento del autor.
Para que una tecnología consiga entrar en el mercado es necesario que se den dos condiciones: un grado de madurez adecuado y un interés desde el punto de vista económico para que las empresas lo utilicen. Lo primero está más o menos claro, en el segundo punto es donde generalmente surgen las dudas. La mejora en la efectividad de la publicidad cuando se entiende el significado de las búsquedas puede ser una de las claves para superar el segundo punto.
Si bien es cierto que ya varios buscadores estaban realizando apuestas firmes por este tipo de tecnologías, el hecho de que Google tome el liderazgo marca una diferencia fundamental; ya que es el buscador que posee el 73% de cuota de mercado, y además su peso en el mundo de Internet es tan grande que puede ejercer un efecto de arrastre muy importante en el resto de las compañías relacionadas con Internet. Todo parece indicar que se va a entrar en otra etapa completamente diferente en el mundo de los buscadores y que dentro de cinco años nos acordaremos de las búsquedas actuales como “aquellas busquedas textuales de hace tiempo”.
Tags: buscadores, Google, tecnologías semánticas
Google y las tecnologías semánticas
Publicado el Enero 16, 2009 por Javier Carbonell
Archivado bajo General, Sociedad de la Información, Tendencias
Suele ser bastante habitual durante los primeros meses del año que las principales compañías dedicadas a analizar el mercado de las TI realicen sus análisis sobre lo más destacado del último año, y se arriesgen a rellenar la quiniela de lo que puede suceder en el siguiente.
En los últimos años la gran mayoría de las previsiones incluyen a las tecnologías semánticas como una de las áreas con mayor potencial, lo cual no es corroborado cuando al año siguiente se hace repaso de los avances más significativos.
Como no hay mejor forma de tomar el pulso a las tecnologías que comprobar las cosas por uno mismo, hace un tiempo me realicé un experimiento para estudiar los beneficios de las tecnologías semánticas en un campo tan propicio para su uso como es el de las búsquedas. El experimento en cuestión consistía en la realización de una serie de búsquedas en diversos buscadores semánticos y en Google, y contar el número de aciertos entre los diez primeros resultados. Las consultas eran de muy diverso tipo, desde información sobre hoteles, hasta preguntas de historia, pasando por temas de actualidad.
En algunos casos esperaba que Google batiera a sus competidores pero en otros, como en el caso de preguntas de historia esperaba justo lo contrario, ya que los buscadores semánticos en ocasiones circunscriben su terreno de búsqueda a fuentes más fiables como la wikipedia. En cambio en estas pruebas Google batía a sus rivales, pensé que habría que esperar todavía un par de años para ver estas tecnologías florecer… Lo que no pensé fue la otra posibilidad: que Google estuviera utilizando tecnologías semánticas más o menos desarrolladas.
El artículo Did Google Just Expose Semantic Data in Search Results? muestra también esta posibilidad. Siguiendo con la filosofía anterior de experimentar realicé la siguiente consulta “How many inhabitants live in Madrid?” en Google.com. La respuesta es la pantalla que aparece a continuación.
Los tres primeros resultados hacen mención a la población de Madrid aunque lo más sorprendente es que en el primer y tercer resultado no aparece la palabra “inhabitants” sino sinónimos suyos como “people” o “population”. De este análisis se pueden extraer ciertas conclusiones:

Los tres primeros resultados hacen mención a la población de Madrid aunque lo más sorprendente es que en el primer y tercer resultado no aparece la palabra “inhabitants” sino sinónimos suyos como “people” o “population”. De este análisis se pueden extraer ciertas conclusiones:
- Las tecnologías semánticas se introducirán como una evolución y no como una revolución. Este movimiento silencioso ya ha empezado, en algunos casos con análisis muy sencillos como ontologías de sinónimos
- En aspectos de la tecnología subyacente en los productos, en ocasiones es bueno seguir la regla “Just do it” sin hablar de tecnologías, ya será el usuario el que juzgue el funcionamiento del producto.
Tags: Google, tecnologías semánticas
Is context king?
Publicado el Diciembre 3, 2008 por Javier Carbonell
Archivado bajo General, Sociedad de la Información, Tendencias
En los últimos años hemos pasado de una situación caracterizada por la escasez de información en la que “información es poder”, a una situación en la que la abundancia de información empieza a ser un problema. Y es que desde que Internet se ha asentado como medio de comunicación y además la Web 2.0 es un fenómeno en auge, tenemos a nuestro alcance mucha más información que la que somos capaces de procesar. Nos encontramos a un click de las noticias (periódicos, blogs), informes de analistas sobre todos los temas, páginas de patentes, información comercial de las empresas y también opiniones de los consumidores, y hasta conversaciones en directo en diversos grados de formalismo.
La magnitud de este fenómeno nos lleva a plantearnos ¿la información se ha convertido en una commodity? Y si es así ¿dónde está el valor en una organización?
En un post anterior se comentó la importancia de diferenciar entre información y conocimiento. Conocimiento tiene en cuenta una serie de procesos mentales de comprensión, entendimiento y aprendizaje que se encuentran en la mente y que incluyen interacción con el mundo exterior y con otras personas. Así cuando nosotros deseamos expresar lo que sabemos, solamente lo podemos hacer uniendo mensajes de varias clases – oral, escrito, gestos…- Estos mensajes no suponen conocimiento sino información, la cual debe ser asimilada y entendida para por otros para pasar a formar parte de su conocimiento. Por este motivo una misma información produce un conocimiento diferente en dos sujetos distintos Schutz (1967).
Esta concepción del conocimiento viene a colocar al empleado como el protagonista de cualquier empresa, ya que el “conocimiento” tiene mucho que ver con la persona y como es capaz de utilizar la información para resolver problemas. Sin duda alguna el mayor activo de cualquier empresa son sus empleados, o mejor dicho la capacidad de sus empleados para enfrentarse a los retos diarios del trabajo y eso no se puede sustituir.Si bien es cierto que el “empleado” es el centro de todo este sistema del conocimiento, también lo es que la empresa tiene como uno de sus desafíos más importantes el gestionar lo más correctamente posible este conocimiento para su reutilización y para minimizar el impacto en los cambios empresariales.
Así el término Gestión del Conocimiento se ha convertido en una meta fundamental para las empresas, principalmente para aquellas cuyos trabajadores tienen un alto contenido de trabajo intelectual. Esta importancia se puede comprobar por la gran cantidad de iniciativas y herramientas que han aparecido en las empresas y consultoras y por la gran cantidad de literatura que se ha escrito sobre el tema en los últimos años.
Hasta ahora la mayoría de los casos la gestión del conocimiento se ha asociado a gestión de la “información”, o sea a la creación de repositorios estructurados que contienen el saber de una empresa, basta leer la siguiente definición de Deloitte and Touche
Deloitte Consulting provides system consulting and implementation services for knowledge management solutions in a wide range of applications and scales. The solutions include data warehouse systems, enterprise system integration (data exchange system) with middleware, and workflow or document management systems with groupware such as Lotus Notes/Domino
Es ahora con las nuevas tendencias en sistemas de información cuando se puede avanzar más en una verdadera gestión del conocimiento en las organizaciones. Tal y como se observa en la figura este propósito necesita una serie de fases:
-
Obtener información del conocimiento de los empleados. Para obtener esta información de los empleados existe una gran cantidad de herramientas, desde las tradicionales más formales como bases de datos estructuradas, hasta las más informales tipo 2.0 (blogs, microblogging, wikis…) mucho más efectivas para conseguir el conocimiento tácito (experiencias) de los empleados.
- La gran cantidad de información generada en la fase anterior usualmente se convierte en un problema. Supongamos una empresa con 1000 empleados, los cuales generan un ítem de información diario por alguno de los medios conectados anteriormente, si suponemos un minuto para su lectura, esto supondría la utilización de 1000 minutos (más de 16 horas) para alguien que quiera conocer toda esta información. A todo esto habría que añadir las fuentes externas como clientes, proveedores, competencia, consultoras… Sin duda alguna en este panorama la “contextualización” de la información que permita entregar la información adecuada, en el momento adecuado a las personas adecuadas será el factor competitivo clave.
- Esta información contextualizada tras un proceso de entendimiento pasa a aumentar el conocimiento de los empleados.
Como se observa en la figura todo este proceso tiene un carácter circular, lo que quiere decir que el proceso de generación de conocimiento es continuo y debe fluir por toda la empresa. De esta manera la información a secas se convierte en muchas ocasiones en una commodity que se puede comprar o vender, y lo que realmente tiene valor es la capacidad de la organización para contextualizar la información y transmitir el conocimiento adecuado a los empleados, y la capacidad de los empleados para utilizarlo.
En este proceso las tecnologías semánticas que muchos expertos consideran el nuevo paradigma de Internet, hasta llegar a asociarse comúnmente con la Web 3.0, serán la base tecnológica que permita este avance. Las tecnologías semánticas añaden a la “información plana” una capa de conocimiento en la que se describen relaciones entre conceptos. Esta nueva capa que puede tener diversos grados de detalle permite una gestión de la información mucho más rica facilitando una “contextualización” mucho más avanzada que la que se puede conseguir por los medios tradicionales. Por este motivo estas tecnologías están llamadas a convertirse en el elemento central de este nuevo modelo de gestión del conocimiento.
Tags: contexto, contextualización, gestión del conocimiento, tecnologías semánticas
Selección de tecnologías semánticas: la precisión
Publicado el Noviembre 14, 2008 por Javier Carbonell
Archivado bajo General, Sociedad de la Información, Tendencias
Como se ha comentado en un post anterior el entendimiento entre máquinas y personas es una tarea compleja, para la que no es posible la utilización de una solución única, sino una variedad de soluciones según el caso concreto. Si en un post anterior se trató el tema del ámbito como un aspecto fundamental para delimitar que herramientas semánticas son las más adecuadas, en este post se analizará la importancia de la precisión como otra variable importante.
En general la ambigüedad de nuestro lenguaje también provoca que el contexto juegue un papel fundamental. Así, cuando leemos “mi coche es grande” y “el Sol es grande”, nuestro cerebro automáticamente otorga a la palabra “grande” un orden de magnitud completamente diferente. Esto que para nosotros es obvio, para un ordenador es una barrera, ya que el ordenador no tiene un “conocimiento tácito” que los humanos tenemos fruto de nuestras vivencias
La interpretación de un contenido en muchas ocasiones puede ser subjetiva, por ejemplo cuando dos personas leen una noticia, pueden extraer conclusiones diferentes. En otras ocasiones la interpretación es objetiva, así si en una especificación de una pieza mecánica se comenta que debe medir 120,23 milímetros, este dato no deja lugar a la interpretación.
Esta diferencia en la ambigüedad del contenido nos lleva a considerar el nivel de precisión como un elemento fundamental a la hora de seleccionar las tecnologías semánticas. Así, en el caso de una aplicación que tiene que realizar intercambio de datos con los sistemas informáticos de proveedores, una clara y precisa definición de todo el contenido es necesaria. En cambio cuando lo que se trata es de tecnologías semánticas que tienen como objetivo captar el sentido de un texto para por ejemplo mejorar el ratio de eficiencia de la publicidad, el enfoque tiene debe ser radicalmente diferente.
Puede observarse en general una relación entre la variable ámbito y precisión, cuanto mayor es el ámbito en el que nos movamos, más difícil será conseguir buena precisión. En cambio cuando el ámbito se reduce es más fácil la creación de ontologías específicas que sin duda aumentan la precisión en el entendimiento.
Según este esquema podemos distinguir las siguientes zonas:
- Semantic SOA: supone la utilización semántica para el intercambio de datos automático entre aplicaciones, en este caso es necesaria una gran exactitud en el entendimiento de los términos
- Ontologías específicas: ontologías que se limitan a un entorno muy especifico como una organización y que también implican un grado de exactitud grande
- Ontologías verticales: ontologías sobre áreas del conocimiento determinadas en las que existe un menor grado de exactitud
- Procesamiento natural del lenguaje: utilidad en entornos generales aunque con grados de precisión bajos
El conseguir convencer a una empresa de la utilización de estas tecnologías, al igual que cualquier decisión empresarial se rige por la sencilla ecuación Beneficios > Costes.
Por una parte los grandes avances en el desarrollo de ontologías, con herramientas visuales que permiten crear ontologías de forma rápida, está propiciando la reducción de costes en su creación. Al mismo tiempo, el aumento de la información dentro de las empresas, así como el aumento de competencia que exige respuestas rápidas ha provocado que el beneficio percibido aumente.
Por este motivo cada vez más empresas están acudiendo a esta gama de tecnologías, principalmente las que se indican en la zona central de la figura, ontologías específicas y ontologías verticales son cada día más comunes y están mejorando tanto en precisión como en amplitud. Es de esperar que la popularización de estas tecnologías suponga una reducción de sus costes de desarrollo y una mejora de su rendimiento lo que potenciará más aún su uso en el futuro.
Tags: nlp, ontología, precisíon, selección, tecnologías semánticas
Selección de tecnologías semánticas: el ámbito
Publicado el Noviembre 5, 2008 por Javier Carbonell
Archivado bajo Futuro de Internet, General, Sociedad de la Información, Tecnologías, Tendencias
No hay duda que el ser humano tiene una capacidad especial para el entendimiento de los lenguajes, para ello cuenta con una máquina, “el cerebro”, con varias zonas especialmente dedicadas a este fin. En cambio cuando tratamos que un sistema de información entienda el sentido de un texto esta labor se convierte en una tarea muy complicada.

Hace ya varios años, con el nacimiento de los grandes computadores, los expertos pronosticaban que los ordenadores serían capaces de entender el lenguaje natural, abstraer conceptos, y hasta disponer de un razonamiento semejante al humano, lo que se vino a englobar bajo el concepto de inteligencia artificial. Varias décadas más tarde, este objetivo no se ha cumplido y no se considera factible por lo menos en un futuro cercano. En estos momentos, intentar que los ordenadores sean capaces de entender, al menos en parte, la información que almacenan puede considerarse como un objetivo más realista para los próximos años.
Tras varios años en los que se han anunciado las tecnologías semánticas como el nuevo paradigma que marcará la evolución de Internet en el futuro, en estos momentos hay el consenso de que tienen un grado de madurez adecuado para abordar el mercado. Lo cual es corroborado por la gran cantidad de firmas de capital riesgo que están apostando por estas tecnologías.
No obstante no se espera una “superaplicación”, algo así como un sistema inteligente que todo lo entienda que sirva en todas las situaciones. Se sabe que abordar este reto exigirá un enfoque múltiple con diversas soluciones que se adapten a los problemas concretos.
Esto supone que no habrá una sola solución, sino una gama de soluciones que serán más o menos útiles en función de cada situación. Merece la pena analizar cuales serán los criterios que pueden servir para optar por un enfoque determinado.
Parece lógico que buscar una solución que trate de entender un texto genérico ya sea una noticia o un documento general es algo muy diferente a entender un texto de un tema muy determinado el cual tiene un vocabulario muy concreto, y también esto es muy diferente a entender la información de una empresa que normalmente usará menos términos pero con una gran cantidad de convencionalismos.
En este capítulo consideramos el “ámbito” como un elemento fundamental para buscar soluciones semánticas. En este caso definimos ámbito según la especificidad del contenido (si es muy genérico o si por el contrario es especializado) y la amplitud o número de términos. Generalmente estas variables “especificidad” y “amplitud” son dos términos relacionados entre sí. Así, cuanto más general es el ámbito en el que queremos actuar más amplio es el vocabulario, y a medida que profundizamos en un ámbito concreto, el vocabulario va reduciéndose pero haciéndose más específico.
Podemos hacer el símil entre estas diferentes situaciones y el cráter de un volcán, considerando la profundidad como el grado de especificidad.

En la parte superior (en la zona 1) hay poca profundad y gran amplitud, en esta zona correspondería a que estuviéramos tratando de entender texto de carácter general, lo que significa un vocabulario muy amplio y poca en las expresiones. Para abordar este problema se recomiendan soluciones de procesado de lenguaje natural. Estas soluciones abarcarían desde el simple análisis estadístico de palabras basado en minería de datos, hasta los métodos más sofisticados de Inteligencia Artificial. En estos casos es necesaria una representación formal de conocimiento que abarque toda la lengua, de hecho una ontología posible sería el propio diccionario de la lengua. Existen empresas que están intentando esta aproximación como Cognition que ha lanzado el mayor mapa semántico de la lengua inglesa, el cual pede ser accedido desde otras aplicaciones y que incluye 10 millones de conexiones semánticas, 4 millones de contextos, 536.000 sentidos de palabras, 75.000 conceptos, 7.500 nodos y 506.000 raíces de palabras.En este ámbito, el error en la interpretación del contenido es todavía habitual dada la gran dificultad que tienen los sistemas informáticos de encontrar los diferentes sentidos en función del contexto
En un nivel de profundidad mayor nos encontraríamos un ámbito en el que nos restringimos a una temática concreta, por ejemplo un sector determinado, por ejemplo el mundo de la salud. En estos casos el número de conceptos es menor pero son más especializados y es necesaria la definición de una ontología más formal. En el caso concreto de la salud existe un gran número de ontologías formales ,y otras herramientas como buscadores que circunscriben sus búsquedas a este ámbito. En general en este caso los resultados son más precisos al ser un ámbito más acotado y la información tener un mayor grado de contextualización
En el nivel 3 nos encontraríamos el ámbito de una empresa determinada. Los sistemas de información de una organización, bases de datos, suelen tener un carácter muy persponalizado, donde los significados no tienen porque coincidir con los que tienen en otras empresas. En estos casos es necesaria creación de una ontología propia específica que tenga en cuenta los convencionalismos propios de cada empresa. En estos casos el grado de error es más pequeño ya que la el contexto está todavía más definido. Una vez creada esta ontología se pueden encontrar muchas utilidades internas como mejorar procesos transaccionales con proveedores o la creación de mashups.
Yo soy de las personas que tiene la suerte de conservar todavía el grupo de amigos de la infancia, tras toda una vida compartiendo experiencias hemos llegado a acuñar nuestros propios términos o al menos darlos un sentido propio. Este sería el nivel 4 o el mayor grado de especificidad, y se mostraría cuando un grupo de personas adoptan una serie de convencionalismos propios. Una persona desconocida podría acabar entendiendo estos convencionalismos gracias al contexto; pero como hemos comentado los ordenadores se manejan peor con contextos y sería necesaria la creación de una ontología formal con todos los significados para que pudieran entender el contenido.
Con este repaso se quiere dejar constancia de la gran dificultad que tenemos ordenadores y seres humanos para entendernos. Sin duda alguna la capacidad innata del hombre para contextualizar información supone una gran diferencia en nuestras maneras de tratar la información. Se puede concluir que no es eficiente tratar de buscar una solución adecuada para todos los problemas, sino que se hace necesario definir ámbitos. Así, en ámbitos más globales se tiende a técnicas de procesamiento del lenguaje con un alto nivel de error, mientras que en aplicaciones sectoriales o de empresa se tiende a la definición de ontologías formales lo que mejora la efectividad.
Tags: ámbito, nlp, procesado lenguaje natural, tecnologías semánticas
Navegando por el Long Tail: utilidad de las tecnologías semánticas
Publicado el Octubre 9, 2008 por Javier Carbonell
Archivado bajo General, Sociedad de la Información, Tendencias
Cuando nos acercamos a la edad de los Zetabytes en información generada en nuestro planeta (un uno y 21 ceros), nos vamos dando cuenta que este aumento exponencial en la cantidad de información provoca que sea más difícil encontrar lo que deseamos en la WEB. Tanta cantidad de información, en muchas ocasiones se acaba convirtiendo en un problema si no se desarrollan en paralelo mecanismos para mejorar el nivel de acierto en las búsquedas.
Esto es especialmente relevante en las búsquedas que no son las más habituales. El motivo es que los sistemas de ranking de los buscadores tradicionales tipo Google se basan en criterios de uso: número de links, número de visitas…, que hace que los primeros puestos en cualquier consulta sean los que tienen un significado más utilizado por los usuarios, lo que coincide con el concepto de “Short Head”. Aunque a primera vista esto puede parecer positivo, supone dejar a un lado gran cantidad de información que se encuentra en la zona “Long Tail” que en muchas ocasiones es mayor que la información en la cabeza aunque más dispersa. Se trata por tanto de información con menor relevancia para la masa pero interesante para muchos grupos de pocos usuarios.
Para buscar información en esta área es necesario buscar otros criterios diferentes a los rankings tradiconales, y sin duda alguna las tecnologías semánticas tienen mucho que decir al respecto.
Como un ejemplo vale más que mil palabras voy a hacer una comparativa entre dos buscadores conceptualmente distintos: Google que utiliza un sistema de ranking basado en relevancia y Quintura que utiliza un motor semántico.
Supongamos que queremos buscar información sobre el Hotel Palace de Madrid, pero no en el sentido tradicional para buscar alojamiento, sino que somos estudiantes de arquitectura y queremos saber el nombre del arquitecto que construyó este hotel. Vamos a realizar la siguiente consulta: “Hotel Palace Madrid arquitecto”.
Google nos muestra los siguientes resultados para esta consulta:
De los cuatro primeros resultados mostrados por este navegador, ninguno es capaz de captar el sentido a la búsqueda y todos dirigen a páginas de mayoristas de hoteles, ya que la mayoría de los usuarios cuando buscan un hotel, lo hacen con la intención de buscar un sitio donde alojarse.
Quintura nos muestra los siguientes resultados para la consulta:
Con este buscador que utiliza tecnologías semánticas se consigue mejorar en gran medida la calidad de los resultados. Los dos primeros resultados conducen directamente a documentos en los que que se nombra al arquitecto del hotel Palace.
Además Quintura ofrece un Interfaz gráfica que permite al usuario navegar por esta “Long Tail”, permitiendo al usuario que delimite más el sentido de su búsqueda.
No hay duda que el aumento exponencial de la información en la red y el uso masivo de Internet hacen que sea necesario encontrar nuevas formas de movernos por la información. En principio parace que será difícil que una sola herramienta como Google sea la más adecuada para todos los grupos de personas en todas las ocasiones. Por este motivo estamos asistiendo a movimientos importantes en el mundo de los buscadores: Powerset, Hakia, Ask.me, True Knowledge, Quintura… Habrá que esperar para ver si consiguen competir con Google.
Tags: buscadores semánticos, Google, long tail, quintura, tecnologías semánticas
Web 2.0 y Web 3.0 para empresas: de los datos al conocimiento
Publicado el Julio 16, 2008 por Javier Carbonell
Archivado bajo General, Sociedad de la Información, Tendencias
El descenso en el precio de los sistemas de almacenamiento, la mayor complejidad de los procesos, las necesidades de conocer mejor a los clientes…, está provocando que la cantidad de datos que almacenan las empresas aumente exponencialmente. Tanto es así que en muchas ocasiones navegar por los datos se vuelve en una tarea complicada, que nos lleva una gran cantidad de tiempo, para muchas veces no conseguir nuestro fin a pesar de que la información se encuentre disponible en los sistemas.
Todos damos por hecho que nos encontramos en la era de la información y que la empresa que maneje mejor sus flujos de información y que sea capaz de contextualizar esta información para las distintas situaciones, conseguirá una gran ventaja sobre las demás. Por tanto, el objetivo de transformar los “datos” en “conocimiento” es uno de los grandes retos a los que se enfrentan las empresas hoy en día.
En primer lugar merece la pena ahondar en el concepto de conocimiento:
Existen dos tipos de conocimiento ( Nonaka & Takeichu, 1995): conocimiento tácito, que reside en las percepciones y comportamiento de los seres humanos; y conocimiento explícito que es publicado, estructurado, externalizado y conciso.
El problema reside en que gran parte del conocimiento se encuentra solamente en las cabezas de los empleados (sus experiencias, sus impresiones se encuentran almacenadas sólo en su cerebro), por lo que aún siendo muy interesante en muchas ocasiones no es utilizado en otras partes de la organización cuando se necesita. Para difundir este conocimiento tácito entre diferentes partes de la organización, muchas empresas optan por rotar al personal entre departamentos.
La gestión del conocimiento es especialmente importante en las organizaciones basadas en proyectos, en las que un grupo de personas colaboran durante un tiempo, para después deshacerse y formarse nuevos grupos. Numerosos estudios señalan que gran parte del conocimiento generado en los proyectos se pierde (Weiser & Morrison, 1998), por lo que vuelven a cometerse los mismos errores. Algunas empresas han creado bases de datos con lo que se ha aprendido en los proyectos, así como grabaciones de las reuniones, aunque normalmente esta información no suele utilizarse (Conklin, 2001).
Las aplicaciones que se agrupan con el nombre de Web 2.0 y Web 3.0, tendrán un papel muy importante en la captación de la información, su traducción en conocimiento y su contextualización a las diferentes situaciones en las que pueda ser requerido. La siguiente figura muestra como estas herramientas pueden ser útiles en la gestión del flujo de información en las empresas:
Por una parte las herramientas agrupadas bajo el paraguas Web 2.0 (wikis, blogs, foros, comunidades…) pueden jugar un papel fundamental en transformar las vivencias, experiencias, impresiones… de los empleados en información más o menos estructurada. Esta información, junto con otra información estructurada constituirá la información explícita de la empresa.
Podríamos definir las tecnologías semánticas como aquellas tecnologías capaces de extraer el conocimiento explícito de los sistemas de información, almacenarlo, y mostrarlo de forma contextualizada en las situaciones que sea necesario.
Como se observa en esta definición se distingue entre “información” (datos agregados) y “conocimiento” (información procesada que tiene un significado). La primera misión de las tecnologías semánticas consiste en eso, procesar información y “entender” el contenido de esta información, para ello existen herramientas de análisis semántico y sintáctico. Esta información se debe almacenar en los sistemas de información de la empresa conservando el significado mediante la utilización bases de datos semánticas. De este conocimiento se extraerá información contextualizada para resolver problemas concretos de la empresa, gracias al uso de buscadores semánticos o de la contextualización semántica.
En fin, tanto las tecnologías Web 2.0 como las Web 3.0 tendrán gran importancia en captar y reutilizar el conocimiento de las organizaciones. No obstante, siempre habrá una parte del conocimiento que será muy difícil de captar y continuará residiendo solamente en las mentes de los trabajadores:
”knowledge is messy; it is self-organizing; it seeks groups of people; it travels on language; it is slippery; it likes carelessness; it is in shape of experiments; it does not grow forever; it is a social phenomenon; it evolves organically; it is multi-modal; and it requires the flow of data/information (Allee, 1997)
Tags: conocimiento explícito, conocimiento implícito, gestión del conocimiento, tecnologías semánticas, Web 2.0, web 3.0
Mejorando la publicidad online mediante el uso de tecnologías semánticas
Publicado el Julio 4, 2008 por Javier Carbonell
Archivado bajo Futuro de Internet, Sociedad de la Información, Tendencias
Hace tan solo unos días, en un post sobre tendencias en tecnologías semánticas, repasábamos los campos en los que estas tecnologías están empezando a implantarse. A estas tendencias habría que añadir “publicidad basada en tecnologías semánticas”, como destaca recientemente el prestigioso Washington Post en un artículo sobre el lanzamiento de la plataforma SemanticMatch por la empresa Peer39.
Esta compañía promete a las empresas de publicidad poder afinar mucho más en llegar al público objetivo mediante la utilización de tecnologías semánticas. Hay que reconocer que no es la primera empresa que utiliza las tecnologías semánticas en el campo de la publicidad (adPapper y Aduna ofrecen también este tipo de servicios), pero el hecho de que acabe de levantar 8 millones de dólares en financiación a los que hay que sumar otros tres millones a principios de año es un aval suficiente de que el mercado empieza a creerse estas tecnologías.
La clave de la plataforma recién lanzada al mercado consiste en la capacidad de analizar el contenido de las Web Sites llegando a entender el significado general. Para conseguir este fin con capaces de separar un documento en pequeñas unidades de texto y mediante algoritmos clasificarlo según temas y categorias (las cuales pueden ser predefinidas o crearse sobre la marcha). Por este motivo permite mostrar publicidad relacionada con los contenidos con una mejor tasa de acierto que los métodos tradicionales (los creadores afirman que son capaces de multiplicar por cuatro el click-through de la publicidad).
En cuanto a las categorías, son capaces de desplegar 7 niveles de categorías como en los siguientes ejemplos:
Technology> Consumer Electronics> Digital Camera> Canon> Powershot> SD870 IS> SD870 IS
SilverAuto> Compact> GM> Chevrolet> Chevrolet Cobalt> Chevrolet Cobalt LS Sedan
Otra novedad que incluye la plataforma es la capacidad de detectar contenidos negativos u ofensivos sobre un concepto o sobre un producto, lo cual influiría a la hora de seleccionar los anuncios.
Amiad Solomon, CEO en Peer39, afirma que las tecnologías semánticas pueden suponer en el campo del marketing un avance sin precedentes, superándose así la etapa del marketing basado en comportamientos que obliga a las empresas a introducir cookies y a tratar de “espiar” las acciones de los diferentes usuarios con los consiguientes problemas de privacidad.
Creo que todavía es pronto para afirmar que las tecnologías semánticas serán una Killer Application en el campo de la publicidad. Lo que si que es cierto, es que tras varios años en los que las tecnologías semánticas no acababan de encontrar su sitio, vemos como empiezan a ser sonados los movimientos en este campo como la adquisición por parte de Microsoft del buscador semántico Powerset. Además, en el caso de Peer39 se observa claramente una capacidad de transformar estas tecnologías en dinero de una manera muy directa, cosa que no es tan fácil de encontrar.
Tags: peer39, publicidad online, tecnologías semánticas
Tecnologías Semánticas: situación y tendencias actuales
Publicado el Junio 30, 2008 por Javier Carbonell
Archivado bajo Sociedad de la Información, Tendencias
Sin duda alguna las tecnologías semánticas están empezando a dar sus frutos y son ya muchos los que desde los más diferentes ámbitos: empresas usuarias, organismos públicos, comunidad científica, desarrolladores de aplicaciones… defienden su incorporación en los sistemas de información. El motivo fundamental que está impulsando este movimiento procede de la sensación bastante generalizada de que nos estamos ahogando en datos y de que el grado de madurez que están alcanzando estas tecnologías es suficiente para entregar resultados.
En estos momentos el concepto tan abstracto de “tecnologías semánticas”, muy utilizado pero que muchas veces poco comprendido, es visto como una posible salvación para abordar el reto de una Web más estructurada. Tanto es así, que algunos expertos como Richard MacManus lo considera como la tendencia más importante de la Web para los próximos años
El primer problema que surge es definir que son las tecnologías semánticas, ya que dependiendo del área en el que se trabaje, la visión puede ser completamente diferente. En cierto modo sucede como en el cuento de los seis ciegos y el elefante, que dependiendo de que parte palpe cada uno, la imagen que se construye sobre como es el elefante es diferente.
Una definición genérica de tecnologías semánticas es: aquellas tecnologías que tratan de manejar las relaciones entre datos para proporcionar un acceso inteligente a los recursos que sirva para mediar entre las intenciones de los usuarios y la información disponible. El gran reto es crear, codificar y extraer significados y ofrecer una organización estructurada de conocimiento para manipular, reutilizar y direccionar la información. En el presente post trataremos de repasar la situación actual y tendencias actuales de las tecnologías semánticas. Como se ha comentado, la situación actual viene marcada por la sensación de que las piezas fundamentales para construir aplicaciones semánticas ya están ahí, y eso se plasma en la estabilidad de estándares y bases de conocimiento.
- Estándares:
El problema de los estándares a la hora de comunicar información es tan antiguo como la propia civilización, siendo el ejemplo más recurrido sobre la falta de entendimiento entre las personas por la falta de un sistema común de información el caso de la “Torre de Babel”.
Por este motivo, desde que se empezó a hablar de tecnologías semánticas, los aspectos relacionados con los estándares han tenido gran relevancia. Según comentó Ivan Herman (líder de la actividad semántica de W3C) en la Conferencia Semántica SemTech 2008, ya se ha alcanzado un grado elevado de desarrollo en los estándares sobre los cuales pueden edificarse los servicios de tecnologías semánticas. Las principales conclusiones de su conferencia relativas a los estándares fueron:
- Existe una estabilidad en los estándares RDF y OWL.
- En el año 2008 aparece un nuevo estándar para hacer consultas, el SPARQL
- Existen tecnologías para acceder/crear RDF datos: GRDDL, RDFa, POWDER
- Algunos vocabularios empiezan a ser pervasivos: Dublin Core, FOAF…
- Bases de conocimiento
Las ontologías y las tripletas de datos RDF tratan de representar formalmente los conceptos dentro de un dominio y también las relaciones entre estos conceptos. Son por tanto la base del conocimiento estructurado y uno de los pilares sobre los que se basa las tecnologías semánticas. Tras varios años de trabajo en el campo de las tecnologías semánticas, el número de datos, ontologías y su tamaño ha ido creciendo, constituyéndose como verdaderas bases de datos de conocimiento.
Estas bases de datos semánticamente preparadas tienen un ámbito vertical: Geonames Ontology tiene más de 6 millones de datos, Ontology for Biomedical Investigations, RDF Book mashup…
Llama en este sentido la atención el reto de la 7th International SemanticWeb Conference que se define como “Billion Triple Challenge 2008“.
Una vez que existe una base firme y con un buen grado de madurez, conviene repasar cuales son las áreas en las que hay más movimiento y empiezan a marcar tendencia:
- Buscadores semánticos:
Sin duda alguna este es el campo que más expectativas ha levantado en los últimos años. El incremento en la cantidad de información en la Web, sobre todo desde que la Web 2.0 se ha asentado convirtiendo a los usuarios en generadores de contenidos, hace que una gran cantidad de empresas se haya planteado modelos alternativos a Google, el cual se basa únicamente en estadísticas.
Durante el año 2008 se produce el lanzamiento de dos herramientas en este sentido Hakia y Powerset. No obstante, tras realizar pruebas comparativas con Google se ha comprobado que la utilización de tecnologías semánticas no mejora la calidad con respecto a los resultados ofrecidos por Google.
Tal y como se ha comentado en otro post, algunas empresas como Yahoo están apostando por un planteamiento botton-up como manera de mejorar la calidad de las búsquedas, para ello están indexando etiquetas semánticas de toda la Web con la intención de ofrecer resultados más estructurados. Según este planteamiento, los editores tendrán que introducir metadatos en sus WebSites si desean que un buscador semántico pueda entender el contenido. Esto conlleva un esfuerzo por parte de los creadores de contenido que según ellos se verá recompensado por las posibilidades que ofrecen las búsquedas semánticas.
- Web Services semánticos
Los web services añaden una capa de funcionalidad a los sitios web, suponiendo un primer paso para la integración de componentes distribuidos de software. Se basan en estándares y tecnologías como Soap, UDDI, y WSDL. A pesar del progreso que se ha realizado para facilitar la interoperabilidad, todavía es necesaria la intervención humana, por ejemplo tanto el proceso de encontrar un servicio relevante como de los datos que necesitan ser intercambiados entre los servicios, requieren de un trabajo manual.
El concepto de Semantic Web Services trata de solucionar el problema de la interoperabilidad entre los Web Services, intentando introducir además una interoperabilidad semántica ya que por ahora los web services se basan en XML lo que permite una interoperabilidad sintáctica. De esta manera se podrán automatizar las tareas relacionadas con los Web Services como descubrimiento, publicación, mediación, invocación y adaptación de servicios. En este sentido existe un gran número de iniciativas como OWL-S, METEROR-S, WSMO, WSDL-S, IRS, que han sido dirigidas a W3C, organismo que ha realizado ya las primeras recomendaciones sobre semántica para Web Services.
Como una primera aproximación de este concepto, la empresa Reuters ha lanzado la API Open Calais, que permite transformar texto desestructurado en metadatos, y que está centrada en “Personas”, “Compañías”, “Lugares”, y “Eventos” como se muestra en la siguiente figura:
Otro caso de API basada en tecnologías semánticas es la SemanticHacker API de la companía Textwise, que se centra en el descubrimiento de servicios y que ofrece un millón de dólares por la mejor aplicación comercial que la utilice. Este enfoque es diferente al de la simple extracción de datos o el uso de metadatos, ya que va más lejos tratando de encontrar el tema sobre el que giran los documentos.
Otro intento en este ámbito proviene de Dapper que trata de convertir una Web Site en una especie de Web Service o más bien en un data service que permita a los internautas acceder a información de forma estructurada. Para ello recurre a anotaciones de los editores.
- Personalización según contexto
En un gran número de ocasiones los servicios tienen mucha dependencia con el contexto en el que se utilizan. En estos casos la personalización de contenidos juega un papel fundamental en su aceptación. Las tecnologías semánticas pueden ofrecer soluciones con ontologías específicas que permitan descubrir los contextos y utilizar esta información para enriquecer la experiencia del usuario.
Sezwho es una empresa especializada en utilizar el contexto en aplicaciones de social Web, para ello analiza diferentes tipos de medios sociales, reputaciones y perfiles y trata de introducir información relevante en el contexto de una conversación.
En el campo de la navegación utilizando diferentes dispositivos, el hecho de conocer el contexto del usuario es un aspecto importante para mejorar la usabilidad de los servicios. Este concepto de contexto es amplio y tiene en cuenta: perfil del usuario, lugar desde el que se accede, características del dispositivo de acceso… Un ejemplo de como afrontar este desafío mediante las tecnologías semánticas se encuentra en la iniciativa OpenSource de la comunidad Morfeo, que en sus especificaciones incluye una ontología sobre la utilización del contexto en la navegación desde dispositivos móviles.
Tags: buscadores semánticos, ontologías, personalización contexto, RDF, tecnologías semánticas, Web services semánticos

(Votos: 1. Media: 4/5) 
(Votos: 3. Media: 4.67/5) 
















