Selección de tecnologías semánticas: la precisión

Publicado el Noviembre 14, 2008 por Javier Carbonell 
Archivado bajo General, Sociedad de la Información, Tendencias

1 Malo2 Mejorable3 Normal4 Bueno5 Excelente (Votos: 1. Media: 5/5)
Loading ... Loading ...

Como se ha comentado en un post anterior el entendimiento entre máquinas y personas es una tarea compleja, para la que no es posible la utilización de una solución única, sino una variedad de soluciones según el caso concreto. Si en un post anterior se trató el tema del ámbito como un aspecto fundamental para delimitar que herramientas semánticas son las más adecuadas, en este post se analizará la importancia de la precisión como otra variable importante.

En general la ambigüedad de nuestro lenguaje también provoca que el contexto juegue un papel fundamental. Así, cuando leemos “mi coche es grande” y “el Sol es grande”, nuestro cerebro automáticamente otorga a la palabra “grande” un orden de magnitud completamente diferente. Esto que para nosotros es obvio, para un ordenador es una barrera, ya que el ordenador no tiene un “conocimiento tácito” que los humanos tenemos fruto de nuestras vivencias

La interpretación de un contenido en muchas ocasiones puede ser subjetiva, por ejemplo cuando dos personas leen una noticia, pueden extraer conclusiones diferentes. En otras ocasiones la interpretación es objetiva, así si en una especificación de una pieza mecánica se comenta que debe medir 120,23 milímetros, este dato no deja lugar a la interpretación.

Esta diferencia en la ambigüedad del contenido nos lleva a considerar el nivel de precisión como un elemento fundamental a la hora de seleccionar las tecnologías semánticas. Así, en el caso de una aplicación que tiene que realizar intercambio de datos con los sistemas informáticos de proveedores, una clara y precisa definición de todo el contenido es necesaria. En cambio cuando lo que se trata es de tecnologías semánticas que tienen como objetivo captar el sentido de un texto para por ejemplo mejorar el ratio de eficiencia de la publicidad, el enfoque tiene debe ser radicalmente diferente.

Puede observarse en general una relación entre la variable ámbito y precisión, cuanto mayor es el ámbito en el que nos movamos, más difícil será conseguir buena precisión. En cambio cuando el ámbito se reduce es más fácil la creación de ontologías específicas que sin duda aumentan la precisión en el entendimiento.

Según este esquema podemos distinguir las siguientes zonas:

El conseguir convencer a una empresa de la utilización de estas tecnologías, al igual que cualquier decisión empresarial se rige por la sencilla ecuación Beneficios > Costes.
Por una parte los grandes avances en el desarrollo de ontologías, con herramientas visuales que permiten crear ontologías de forma rápida, está propiciando la reducción de costes en su creación. Al mismo tiempo, el aumento de la información dentro de las empresas, así como el aumento de competencia que exige respuestas rápidas ha provocado que el beneficio percibido aumente.

Por este motivo cada vez más empresas están acudiendo a esta gama de tecnologías, principalmente las que se indican en la zona central de la figura, ontologías específicas y ontologías verticales son cada día más comunes y están mejorando tanto en precisión como en amplitud. Es de esperar que la popularización de estas tecnologías suponga una reducción de sus costes de desarrollo y una mejora de su rendimiento lo que potenciará más aún su uso en el futuro.


Tags: , , , ,

Selección de tecnologías semánticas: el ámbito

Publicado el Noviembre 5, 2008 por Javier Carbonell 
Archivado bajo Futuro de Internet, General, Sociedad de la Información, Tecnologías, Tendencias

1 Malo2 Mejorable3 Normal4 Bueno5 Excelente (Votos: 2. Media: 4/5)
Loading ... Loading ...

No hay duda que el ser humano tiene una capacidad especial para el entendimiento de los lenguajes, para ello cuenta con una máquina, “el cerebro”, con varias zonas especialmente dedicadas a este fin. En cambio cuando tratamos que un sistema de información entienda el sentido de un texto esta labor se convierte en una tarea muy complicada.

 

Hace ya varios años, con el nacimiento de los grandes computadores, los expertos pronosticaban que los ordenadores serían capaces de entender el lenguaje natural, abstraer conceptos, y hasta disponer de un razonamiento semejante al humano, lo que se vino a englobar bajo el concepto de inteligencia artificial. Varias décadas más tarde, este objetivo no se ha cumplido y no se considera factible por lo menos en un futuro cercano. En estos momentos, intentar que los ordenadores sean capaces de entender, al menos en parte, la información que almacenan puede considerarse como un objetivo más realista para los próximos años.

Tras varios años en los que se han anunciado las tecnologías semánticas como el nuevo paradigma que marcará la evolución de Internet en el futuro, en estos momentos hay el consenso de que tienen un grado de madurez adecuado para abordar el mercado. Lo cual es corroborado por la gran cantidad de firmas de capital riesgo que están apostando por estas tecnologías.

No obstante no se espera una “superaplicación”, algo así como un sistema inteligente que todo lo entienda que sirva en todas las situaciones. Se sabe que abordar este reto exigirá un enfoque múltiple con diversas soluciones que se adapten a los problemas concretos.

Esto supone que no habrá una sola solución, sino una gama de soluciones que serán más o menos útiles en función de cada situación. Merece la pena analizar cuales serán los criterios que pueden servir para optar por un enfoque determinado.

Parece lógico que buscar una solución que trate de entender un texto genérico ya sea una noticia o un documento general es algo muy diferente a entender un texto de un tema muy determinado el cual tiene un vocabulario muy concreto, y también esto es muy diferente a entender la información de una empresa que normalmente usará menos términos pero con una gran cantidad de convencionalismos.

En este capítulo consideramos el “ámbito” como un elemento fundamental para buscar soluciones semánticas. En este caso definimos ámbito según la especificidad del contenido (si es muy genérico o si por el contrario es especializado) y la amplitud o número de términos. Generalmente estas variables “especificidad” y “amplitud” son dos términos relacionados entre sí. Así, cuanto más general es el ámbito en el que queremos actuar más amplio es el vocabulario, y a medida que profundizamos en un ámbito concreto, el vocabulario va reduciéndose pero haciéndose más específico.

Podemos hacer el símil entre estas diferentes situaciones y el cráter de un volcán, considerando la profundidad como el grado de especificidad.

En la parte superior (en la zona 1) hay poca profundad y gran amplitud, en esta zona correspondería a que estuviéramos tratando de entender texto de carácter general, lo que significa un vocabulario muy amplio y poca  en las expresiones. Para abordar este problema se recomiendan soluciones de procesado de lenguaje natural. Estas soluciones abarcarían desde el simple análisis estadístico de palabras basado en minería de datos, hasta los métodos más sofisticados de Inteligencia Artificial. En estos casos es necesaria una representación formal de conocimiento que abarque toda la lengua, de hecho una ontología posible sería el propio diccionario de la lengua. Existen empresas que están intentando esta aproximación como Cognition que ha lanzado el mayor mapa semántico de la lengua inglesa, el cual pede ser accedido desde otras aplicaciones y que incluye 10 millones de conexiones semánticas, 4 millones de contextos, 536.000 sentidos de palabras, 75.000 conceptos, 7.500 nodos y 506.000 raíces de palabras.En este ámbito, el error en la interpretación del contenido es todavía habitual dada la gran dificultad que tienen los sistemas informáticos de encontrar los diferentes sentidos en función del contexto

En un nivel de profundidad mayor nos encontraríamos un ámbito en el que nos restringimos a una temática concreta, por ejemplo un sector determinado, por ejemplo el mundo de la salud. En estos casos el número de conceptos es menor pero son más especializados y es necesaria la definición de una ontología más formal. En el caso concreto de la salud existe un gran número de ontologías formales ,y otras herramientas como buscadores que circunscriben sus búsquedas a este ámbito. En general en este caso los resultados son más precisos al ser un ámbito más acotado y la información tener un mayor grado de contextualización

En el nivel 3 nos encontraríamos el ámbito de una empresa determinada. Los sistemas de información de una organización, bases de datos, suelen tener un carácter muy persponalizado, donde los significados no tienen porque coincidir con los que tienen en otras empresas. En estos casos es necesaria creación de una ontología propia específica que tenga en cuenta los convencionalismos propios de cada empresa. En estos casos el grado de error es más pequeño ya que la el contexto está todavía más definido. Una vez creada esta ontología se pueden encontrar muchas utilidades internas como mejorar procesos transaccionales con proveedores o la creación de mashups.

Yo soy de las personas que tiene la suerte de conservar todavía el grupo de amigos de la infancia, tras toda una vida compartiendo experiencias hemos llegado a acuñar nuestros propios términos o al menos darlos un sentido propio. Este sería el nivel 4 o el mayor grado de especificidad, y se mostraría cuando un grupo de personas adoptan una serie de convencionalismos propios. Una persona desconocida podría acabar entendiendo estos convencionalismos gracias al contexto; pero como hemos comentado los ordenadores se manejan peor con contextos y sería necesaria la creación de una ontología formal con todos los significados para que pudieran entender el contenido.

Con este repaso se quiere dejar constancia de la gran dificultad que tenemos ordenadores y seres humanos para entendernos. Sin duda alguna la capacidad innata del hombre para contextualizar información supone una gran diferencia en nuestras maneras de tratar la información. Se puede concluir que no es eficiente tratar de buscar una solución adecuada para todos los problemas, sino que se hace necesario definir ámbitos. Así, en ámbitos más globales se tiende a técnicas de procesamiento del lenguaje con un alto nivel de error, mientras que en aplicaciones sectoriales o de empresa se tiende a la definición de ontologías formales lo que mejora la efectividad.


Tags: , , ,