Selección de tecnologías semánticas: el ámbito
Publicado el Noviembre 5, 2008 por Javier Carbonell
Archivado bajo Futuro de Internet, General, Sociedad de la Información, Tecnologías, Tendencias
No hay duda que el ser humano tiene una capacidad especial para el entendimiento de los lenguajes, para ello cuenta con una máquina, “el cerebro”, con varias zonas especialmente dedicadas a este fin. En cambio cuando tratamos que un sistema de información entienda el sentido de un texto esta labor se convierte en una tarea muy complicada.

Hace ya varios años, con el nacimiento de los grandes computadores, los expertos pronosticaban que los ordenadores serían capaces de entender el lenguaje natural, abstraer conceptos, y hasta disponer de un razonamiento semejante al humano, lo que se vino a englobar bajo el concepto de inteligencia artificial. Varias décadas más tarde, este objetivo no se ha cumplido y no se considera factible por lo menos en un futuro cercano. En estos momentos, intentar que los ordenadores sean capaces de entender, al menos en parte, la información que almacenan puede considerarse como un objetivo más realista para los próximos años.
Tras varios años en los que se han anunciado las tecnologías semánticas como el nuevo paradigma que marcará la evolución de Internet en el futuro, en estos momentos hay el consenso de que tienen un grado de madurez adecuado para abordar el mercado. Lo cual es corroborado por la gran cantidad de firmas de capital riesgo que están apostando por estas tecnologías.
No obstante no se espera una “superaplicación”, algo así como un sistema inteligente que todo lo entienda que sirva en todas las situaciones. Se sabe que abordar este reto exigirá un enfoque múltiple con diversas soluciones que se adapten a los problemas concretos.
Esto supone que no habrá una sola solución, sino una gama de soluciones que serán más o menos útiles en función de cada situación. Merece la pena analizar cuales serán los criterios que pueden servir para optar por un enfoque determinado.
Parece lógico que buscar una solución que trate de entender un texto genérico ya sea una noticia o un documento general es algo muy diferente a entender un texto de un tema muy determinado el cual tiene un vocabulario muy concreto, y también esto es muy diferente a entender la información de una empresa que normalmente usará menos términos pero con una gran cantidad de convencionalismos.
En este capítulo consideramos el “ámbito” como un elemento fundamental para buscar soluciones semánticas. En este caso definimos ámbito según la especificidad del contenido (si es muy genérico o si por el contrario es especializado) y la amplitud o número de términos. Generalmente estas variables “especificidad” y “amplitud” son dos términos relacionados entre sí. Así, cuanto más general es el ámbito en el que queremos actuar más amplio es el vocabulario, y a medida que profundizamos en un ámbito concreto, el vocabulario va reduciéndose pero haciéndose más específico.
Podemos hacer el símil entre estas diferentes situaciones y el cráter de un volcán, considerando la profundidad como el grado de especificidad.

En la parte superior (en la zona 1) hay poca profundad y gran amplitud, en esta zona correspondería a que estuviéramos tratando de entender texto de carácter general, lo que significa un vocabulario muy amplio y poca en las expresiones. Para abordar este problema se recomiendan soluciones de procesado de lenguaje natural. Estas soluciones abarcarían desde el simple análisis estadístico de palabras basado en minería de datos, hasta los métodos más sofisticados de Inteligencia Artificial. En estos casos es necesaria una representación formal de conocimiento que abarque toda la lengua, de hecho una ontología posible sería el propio diccionario de la lengua. Existen empresas que están intentando esta aproximación como Cognition que ha lanzado el mayor mapa semántico de la lengua inglesa, el cual pede ser accedido desde otras aplicaciones y que incluye 10 millones de conexiones semánticas, 4 millones de contextos, 536.000 sentidos de palabras, 75.000 conceptos, 7.500 nodos y 506.000 raíces de palabras.En este ámbito, el error en la interpretación del contenido es todavía habitual dada la gran dificultad que tienen los sistemas informáticos de encontrar los diferentes sentidos en función del contexto
En un nivel de profundidad mayor nos encontraríamos un ámbito en el que nos restringimos a una temática concreta, por ejemplo un sector determinado, por ejemplo el mundo de la salud. En estos casos el número de conceptos es menor pero son más especializados y es necesaria la definición de una ontología más formal. En el caso concreto de la salud existe un gran número de ontologías formales ,y otras herramientas como buscadores que circunscriben sus búsquedas a este ámbito. En general en este caso los resultados son más precisos al ser un ámbito más acotado y la información tener un mayor grado de contextualización
En el nivel 3 nos encontraríamos el ámbito de una empresa determinada. Los sistemas de información de una organización, bases de datos, suelen tener un carácter muy persponalizado, donde los significados no tienen porque coincidir con los que tienen en otras empresas. En estos casos es necesaria creación de una ontología propia específica que tenga en cuenta los convencionalismos propios de cada empresa. En estos casos el grado de error es más pequeño ya que la el contexto está todavía más definido. Una vez creada esta ontología se pueden encontrar muchas utilidades internas como mejorar procesos transaccionales con proveedores o la creación de mashups.
Yo soy de las personas que tiene la suerte de conservar todavía el grupo de amigos de la infancia, tras toda una vida compartiendo experiencias hemos llegado a acuñar nuestros propios términos o al menos darlos un sentido propio. Este sería el nivel 4 o el mayor grado de especificidad, y se mostraría cuando un grupo de personas adoptan una serie de convencionalismos propios. Una persona desconocida podría acabar entendiendo estos convencionalismos gracias al contexto; pero como hemos comentado los ordenadores se manejan peor con contextos y sería necesaria la creación de una ontología formal con todos los significados para que pudieran entender el contenido.
Con este repaso se quiere dejar constancia de la gran dificultad que tenemos ordenadores y seres humanos para entendernos. Sin duda alguna la capacidad innata del hombre para contextualizar información supone una gran diferencia en nuestras maneras de tratar la información. Se puede concluir que no es eficiente tratar de buscar una solución adecuada para todos los problemas, sino que se hace necesario definir ámbitos. Así, en ámbitos más globales se tiende a técnicas de procesamiento del lenguaje con un alto nivel de error, mientras que en aplicaciones sectoriales o de empresa se tiende a la definición de ontologías formales lo que mejora la efectividad.
Tags: ámbito, nlp, procesado lenguaje natural, tecnologías semánticas
Comentarios
Deja una respuesta

(Votos: 2. Media: 4/5) 
