Web Mining or The Wisdom of Crowds
El viernes 4 de Julio tuvo lugar en el Salón de Actos del centro de Telefónica I+D en Madrid la Conferencia “Web Mining or The Wisdom of Crowds”, impartida por Ricardo Baeza-Yates, principal responsable de Yahoo! Research en Barcelona (España) y Santiago (Chile) y una de las figuras más destacadas en el área de Recuperación de información (Information retrieval).
La Charla, muy participativa y dinámica, se centró, a través de un recorrido por la estructura, contenido y registro del Web Mining, en los principales problemas que se presentan a la hora de recuperar los datos que deseamos: desde el propio uso del lenguaje natural como el silencio (sinonimia), el ruido (polisemia), la ambigüedad o las traducciones a/de diferentes idiomas a un análisis en profundidad de la web.
La Web es infinita, es imposible recorrerla en su totalidad y más difícil aun de modelar, representada en un 99% (aunque también se hicieron guiños al 100%) por páginas dinámicas, Ricardo Baeza-Yates recordó que los buscadores se concentran en las mismas sólo en una pequeña parte en comparación con las estáticas, a las que abarcan al completo.
Su organización la explicó a raíz de la existencia de un núcleo conexo, formado por aquellos sites que originan y reciben enlaces; las islas, que serían elementos aislados que pese a su existencia nadie conoce; y lo que denominó in, enlazan al núcleo pero no son correspondidos y out, contrarios a los últimos.
Si tenemos en cuenta que un buscador encuentra aquello que se sitúa en el núcleo y lo que se ha definido como out, existe un gran campo inabarcable en el que se podría estar perdiendo información relevante, lo que sumado a la Arquitectura Software Centralizada, el tamaño de la red, la velocidad de cambio, la duplicación del contenido, el spam, la “Ley del mínimo esfuerzo”, la diversidad y la falta de organización, la recuperación se convierte en una tarea ardua y excesivamente compleja.
No resulta fácil ni tan siquiera explicarla, puede que por esa razón el evento terminase alargándose más de lo previsto y aun así los asistentes nos quedásemos con la sensación de haber recorrido tan sólo unos pasos del camino, aunque amablemente el Sr. Baeza-Yates nos invitó a seguir profundizado en el estudio de la “Information retrieval” a través de sus publicaciones y de algunos libros que consideró de interés como “The Wisdom of Crowds” de James Surowiecki o “La vida social de la Información” de John Seely Brown y Paul Duguid.
Algunas otras ideas/datos que se expusieron:
- La Web es un reflejo de la economía según un estudio realizado sobre las Características de la Web en España en 2005.
- En circunstancias correctas los grupos son inteligentes, el problema es encontrar la palabra correcta. “Todos sabemos más que cualquiera de nosotros” y a su vez, “usando la sabiduría de la gente se encuentra al experto” (¿Quién ha planteado la mejor pregunta?)
- Los buscadores son herramientas de mediación para las descargas, compras, navegación…
- Menos del 40% de las personas mueven la mano para visualizar la siguiente página de resultados (Ley del mínimo esfuerzo)
- No hay información sin contexto.
- La complicación no se encuentra tanto en los hábitos de búsqueda sino en saber lo que la gente quiere encontrar en realidad.
Comentarios
2 Comentarios to “Web Mining or The Wisdom of Crowds”
Deja un comentario








[...] Web Mining or The Wisdom of Crowds [...]
[...] Web Mining or The Wisdom of Crowds [...]