Los empleados deciden en qué idioma publican sus entradas.
Puedes encontrar más contenidos seleccionando el idioma inglés en el enlace superior.

Consecuencias del creciente valor económico del grafo social

1 Malo2 Mejorable3 Normal4 Bueno5 Excelente (Votos: 3. Media: 5,00/5)
Loading ... Loading ...

Artículo escrito por Paulo Villegas

Conociendo el grafo a nuestro alrededor

En el contexto actual en el que la publicidad personalizada parece ser el único (o el principal) modelo de negocio que sostiene los servicios de Internet, los datos de personalización que pueden extraerse de grafos sociales (es decir, las conexiones entre usuarios) y su información asociada se han convertido en un elemento con un valor económico considerable.

Los elementos de alto valor atraen la atención inmediata de negocios, tanto legales como ilegales. Por eso hemos visto ya la aparición de empresas dedicadas al negocio de vender (legalmente) datos recolectados de fuentes públicas. Internamente, las organizaciones con la suerte de tener acceso a interacciones sociales ricas han empezado ya también a hacer uso de ellas, dentro de los límites impuestos por el marco legal correspondiente

Es por tanto una cuestión de tiempo que el cosechado de datos sociales pase a ser también un asunto de los "malos" de Internet (por ejemplo, sería información valiosísima para los generadores de correo basura). Software maligno especialmente dedicado a esa tarea podría estar ya propagándose subrepticiamente [1]. Más aún, se ha argumentado que este tipo de datos no sólo tiene gran valor económico ahora, sino también larga duración, ya que al modelar patrones de interacción entre personas en la vida real está poco sujeto a cambios (es rápido cambiar de nombre de usuario, o incluso de tarjeta de crédito, pero los amigos cambian más despacio). La gran sensibilidad de estos datos debería por tanto llevar a mayor preocupación (su comercio ilegal ha sido denominado como "robo de realidad" [2]).

¿Privacidad? ¿Qué privacidad?

Durante un tiempo esto ha parecido no ser un problema: la opinión general era que a los usuarios de las redes sociales (especialmente a las generaciones de “nativos digitales”) no les preocupaba la privacidad. Pero la realidad empieza a mostrar lo contrario. Espoleada en parte por casos publicados de mala gestión de datos, la preocupación en la opinión pública ha crecido y (probablemente como consecuencia) también en las autoridades [3, 4]. Y las compañías han empezado a tomar nota. Facebook, previamente conocida por ignorar cualquier preocupación con respecto a la privacidad e insistir en que todos los datos deben ser públicos, ha experimentado un cambio recientemente. Ha reconocido públicamente no haber prestado suficiente atención a este aspecto, y durante el último año desplegó nuevas opciones de seguridad, que aunque todavía son complicadas de entender y gestionar, permiten un control mucho mayor de la información publicada [5]. Foursquare también ha sido muy firme en su política sobre control de la privacidad y las medidas que están tomando al respecto [6]. Y Google accedió (en Alemania) a borrar bajo demanda las casas capturadas por su sistema Street View [7] (y prometió destruir todos los datos WiFi recogidos de forma “involuntaria” en el proceso de captura).

Puede que por esta razón, o puede que como un medio para abordar la excesiva oferta de información, parece existir una (todavía naciente) tendencia hacia una mayor fragmentación del grafo social. Podemos observar un incremento de los grupos privados (también Facebook los ha activado hace no demasiado tiempo [8]), al igual que en la vida real la gente tiene distintos círculos de relaciones y no los mezcla necesariamente.

En resumen, habrá siempre gente a la que no le preocupe en absoluto la privacidad. Pero el hecho de que la mayoría de los usuarios actualmente no la considere podría deberse más bien a que no se han parado a pensar sobre el tema [9]. Si algunos empiezan a alarmarse, y se crea una masa crítica que comience a propagar esa inquietud, entonces la situación podría darse la vuelta.

La búsqueda del anonimato

Existe una buena tradición de investigación en el área de seguridad y privacidad sobre procedimientos para controlar los efectos de la publicación de bases de datos de gran tamaño. Es una tarea difícil, como han demostrado acontecimientos como la ruptura del anonimato del conjunto de datos del Netflix prize [10]: como parte de una competición abierta para mejorar su motor de recomendación de películas, Netflix publicó una tabla con datos de alquileres de películas y puntuaciones de un conjunto de sus usuarios. Era completamente anónimo, pero investigadores la cruzaron con otras tablas de datos públicas para demostrar la capacidad de revelar identidades de los usuarios.

Principios tales como k-anonymity [11] buscan asegurar que la identificación permanece imposible mientras al mismo tiempo se permiten servicios que dependen de la disponibilidad de datos personales. El k-anonimato estudia garantizar que en cualquier base de datos pública de múltiples registros, cualquier combinación de información podrá acotar la identidad de los usuarios a no menos de k individuos. Las mismas ideas subyacentes han producido un número de términos y técnicas relacionadas: l-diversity, t-closeness. Tratan de trabajar a través de procedimientos tales como limitaciones estrictas de qué puede hacerse público y perturbaciones de las tablas (añadiendo ruido) previamente a su publicación. En la misma línea, la privacidad diferencial [12] es un concepto que trata de definir las reglas formales a través de las cuales es posible asegurar la preservación de la privacidad.

Pero los datos contenidos en grafos sociales hacen este objetivo especialmente difícil, porque anonimizar grafos de verdad sin destruirlos es un desafío. Además, la minería de grafos y el aprovechamiento de mecanismos conocidos de cohesión social hacen posible descubrir información sobre nodos privados simplemente inspeccionando nodos conectados a ellos que no son tan privados. No es suficiente mantener tus datos personales privados, debes convencer a todos tus amigos que lo hagan también: se pueden inferir hechos sobre personas (algunos de ellos realmente sensibles [13]) simplemente mirando a sus amigos.

Algunos resultados publicados a nivel de investigación muestran la dificultad de lograr anonimato en redes sociales de gran dimensión [14]. Ataques pasivos permiten, simplemente por inspección, usar las conexiones entre unos pocos nodos conocidos de antemano para identificarlos dentro en un grafo con un millón de nodos teóricamente anónimos, y desde ahí descubrir conexiones de nodos adicionales. Con sólo 5 nodos que colaboren puede valer para empezar a comprometer la privacidad del grafo social. Los ataques activos, en los cuales se permite al adversario crear nuevos nodos y conexiones en la red (algo fácil en la mayoría de redes sociales) son incluso más poderosos, ya que pueden dirigirse directamente a voluntad contra los objetivos deseados. Esto hace realmente complicado llegar a un buen compromiso entre privacidad y rendimiento para los algoritmos que explotan información social.

Recompensas potenciales

El beneficio de conseguir este anonimato, sin embargo, puede ser formidable. No solamente para mitigar la preocupación sobre el mal uso de los datos sociales, sino también para permitir nuevos servicios. La recomendación social está creciendo como la siguiente gran alternativa a las recomendaciones basadas en uso de algoritmos masivos, y para que pueda funcionar se necesita que los datos sociales estén disponibles. Métodos para compartir grafos sociales de forma anónima podrían tener enorme valor, y podrían permitir la clase de acuerdos entre propietarios de los datos sociales y proveedores de servicios de terceros que ahora no son posibles debido a restricciones legales.

La teoría de utilidad esperada afirma que la gente usará un servicio (como los que posibilitan los datos de redes sociales), si la utilidad total que obtienen es superior cuando se usa que cuando se descarta. Esta utilidad global debe considerar la pérdida de utilidad generada por los inconvenientes del servicio, modulada por la probabilidad de que ocurran estos inconvenientes. Dado que las personas, en general, tenemos aversión al riesgo, el peso de esa pérdida de utilidad en la decisión final es grande.

Podemos mencionar aquí dos inconvenientes principales:

  • La sobrecarga de información ofrecida por aplicaciones sociales (hay tantos ítems pidiendo nuestra atención que nos desbordan), y
  • las consecuencias percibidas de la amenaza a la privacidad.

La sobrecarga de información podría ser aliviada mediante cierta disminución de la exposición social (como se ha comentado arriba); la pérdida de utilidad debida a amenazas de privacidad ha sido descartada tradicionalmente, en parte porque las probabilidades estimadas de que ocurra son bajas. Pero esto podría cambiar si los fallos de seguridad empiezan a ser explotados (y la teoría económica básica nos dice que si es posible y rentable hacerlo, se hará). Lo que significa que deberíamos estar preparados y tener soluciones listas.

¿Qué hacer?

Cualquier empresa que posea información de grafos sociales y desee explotarla debería empezar a buscar cuanto antes maneras de permitir una explotación apropiada sin impacto en la privacidad. Así, cuando se materialicen las oportunidades de explotación (como se menciona arriba, directamente o mediante acuerdos con terceros), estas no serán bloqueadas por organismos regulatorios o protestas de opinión pública. Durante todo este proceso, es esencial respetar la premisa fundamental de que las personas deberían ser informadas de lo que se está haciendo con sus datos, y mantener la capacidad de rechazar ese tratamiento (tanto mediante consentimiento activo como pasivo, dependiendo del entorno).

En términos prácticos, esto podría resolverse buscando soluciones, tecnologías y algoritmos que puedan al mismo tiempo explotar el grafo para extraer información útil y preservar la privacidad al nivel requerido. Haciendo esto en secuencia (las técnicas de minería de datos son implementadas primero, y sólo entonces buscamos maneras de usarlas sin comprometer la privacidad) puede permitir inicialmente tiempos de desarrollo, pruebas y despliegue más cortos, pero a largo plazo no será óptimo. Ya que el proceso posterior de anonimizar empeorará el rendimiento de la minería de datos más que si estuviera integrado en la solución (y podría incluso hacer el cumplimiento de la privacidad más difícil).

La conclusión es que las restricciones esperadas de privacidad deberían integrase en el diseño tan pronto como sea posible

Un experimento conceptual con pistachos

Supongamos que, tras un gran esfuerzo de investigación, hemos desarrollado un algoritmo capaz de identificar con gran precisión a cualquier persona adicta a los pistachos simplemente por el grado de preferencia por los pistachos de un número de sus contactos (es bien conocido en círculos de investigación que la adicción a los pistachos crea fuertes lazos). Esto son buenas noticias para las heladerías, ya que podrán hacer ahora ofertas especiales a los clientes potenciales basados en sus gustos auténticos (y los pistacho-adictos constituyen una base de clientes especialmente leales). Son también buenas noticias para los adictos a los pistachos, ya que ahora conseguirán ofertas especiales que les ayuden a paliar su adicción a precios ventajosos.

Pero cuando tratamos de desplegar nuestro servicio en Sylvania (como todo el mundo sabe, uno de los mercados de pistachos más grandes del mundo), nos encontramos con un problema: las estrictas políticas sobre la preservación de la privacidad en Sylvania prohíben la identificación de preferencias al nivel de frutos secos específicos. Así que no seremos capaces de distinguir entre las preferencias por pistachos, almendras o avellanas. Lo que echa por tierra la precisión de nuestro gran algoritmo.

Si lo hubiéramos tenido en cuenta desde el principio, podríamos haber desarrollado una técnica alternativa que, trabajando solamente al nivel agregado de frutos secos, pudiera ofrecer un comportamiento mucho mejor que nuestro algoritmo, muy específico pero altamente sensible a la precisión de los datos.

Todo este razonamiento no implica olvidarse acerca de las técnicas actuales de minería de grafos (las cuales funcionan bien, y se pueden mantener cuando la privacidad no es un problema), pero deben seguir buscándose también procedimientos que funcionen mejor cuando existan directivas de cumplimiento de la privacidad más estrictas. Y existirán.

Nota: mi agradecimiento a José Enrique López por sus comentarios al borrador inicial de este texto.

Referencias

  1. Darlene Storm, Malware Aimed at Social Networks May Steal Your Reality, Computerworld, Oct 13, 2010
  2. Y. Altshuler, N. Aharony, Y. Elovici, A. Pentland, and M. Cebrian, Stealing Reality, arXiv:1010.1028v1, Oct 2010
  3. Justyna Pawlak, Google and Facebook to face tougher EU privacy rules, Reuters, Nov 4, 2010
  4. Wyatt Buchanan, Social-networking sites face new privacy battle, San Francisco Chronicle, May 15th, 2011
  5. Derek Thomson, Facebook’s New Privacy Rules Are Simple and Smart, The Atlantic, May 26 2010
  6. Foursquare blog, On foursquare, location & privacy…, Feb 19th, 2010
  7. BBC News, German Street View goes live with enhanced privacy, Nov 2nd, 2010
  8. Mark Zuckerberg, Giving You More Control, Facebook blog, October 6th, 2010
  9. Robert W. Lucky, Zero Privacy, IEEE Spectrum, July 2008
  10. Arvind Narayanan and Vitaly Shmatikov, "Robust De-anonymization of Large Datasets" (How to Break Anonymity of the Netflix Prize Dataset), Feb 5th, arXiv:cs/0610105v2
  11. L. Sweeney, "k-anonymity: a model for protecting privacy," Int. J. Uncertain. Fuzziness Knowl.-Based Syst., vol. 10, no. 5, pp. 557-570, October 2002.
  12. Cynthia Dwork, A Firm Foundation for Private Data Analysis, Communications of the ACM, January 2011
  13. Carter Jernigan, Behram F.T. Mistree, “Gaydar: Facebook friendships expose sexual orientation”, First Monday, Volume 14, Number 10, 5 October 2009
  14. L. Backstrom, C. Dwork, and J. Kleinberg, "Wherefore art thou r3579x?: anonymized social networks, hidden patterns, and structural steganography&quot, in WWW ’07: Proceedings of the 16th international conference on World Wide Web. New York, NY, USA: ACM, 2007, pp. 181-190.

5 ideas de negocio originales

1 Malo2 Mejorable3 Normal4 Bueno5 Excelente (Votos: 2. Media: 5,00/5)
Loading ... Loading ...

simpatigo.gifSimpatigo es un servicio “wiki mapa” para cálculo de rutas, basado en Google Maps. Los marcadores del mapa contienen la información que los propios usuarios han publicado. Tu defines el origen y destino, calculas la ruta y no solo te indica el mejor itinerario sino también la información práctica sobre los puntos de interés por los que vas a pasar. Es una idea híbrida entre la guía de viajes Wikitravel y la representación visual del Google Maps.

treasuremytext.pngTreasuremytext te permite guardar, editar y compartir los mensajes SMS desde una cuenta online. Para ello, basta con que envíes el mensaje al número de teléfono del servicio (en US, CA, UK o NL) y tu SMS quedará archivado para siempre. A través de la interfaz AJAX del servicio podrás ver todos tus mensajes y organizarlos fácilmente. Además, la función TextStream te permite compartir tu vida en tiempo casi real (como en Twitter) con tus amigos. La ventaja de este servicio es la experiencia de uso, que resulta fácil y divertido. También han desarrollado una aplicación nativa para el iPhone, que simplificará aún más la gestión de tus SMS online.

zyb.jpg
Zyb Phonebook va a suponer una revolución del concepto que tenemos hasta ahora de “agenda telefónica”. La información de tus contactos (familia, amigos, compañeros de trabajo, etc.) es la clave para mantener nuestras relaciones personales en buena forma. Mucho se ha hablado del “grafo social“, pero pocas aplicaciones se han desarrollado para hacer que el móvil sea el centro de esa nueva visión de la “comunicación social”. Con Zyb Phonebook podrás saber el lugar donde están tus amigos, su disponibilidad para hablar por teléfono, recibir actualizaciones vía Twitter o servicios similares, ver las fotos que publican casi instantáneamente y, por supuesto, mantener sus datos actualizados cuando cambien.

press-logo-rgb-s.gifBlyk es un operador móvil del Reino Unido cuya oferta comercial es difícil de batir en coste: cero céntimos el minuto. Está dirigido a un público jóven (entre 16 y 24 años) y su modelo de negocio se basa en la publicidad que envían (hasta 6 anuncios diarios) al móvil. Este modelo está teniendo éxito porque ya han alcanzado los 100.000 usuarios, pero además la tasa de respuesta a los anuncios ha superado el 29 por ciento (muy por encima de las cifras habituales en el mundo publicitario).

zopa.gifZopa es un mercado virtual para gente que busca financiación y gente que quiere obtener una rentabilidad por su dinero. Dicho así no parece novedoso, pero es que tanto los que prestan como los que piden prestado son particulares, no hay intervención ninguna de los bancos, funciona como un intercambio P2P. Zopa cobra una comisión a ambas partes y también ofrece seguros de protección opcionales para los que prestan el dinero.

Sistemas sociales

1 Malo2 Mejorable3 Normal4 Bueno5 Excelente (Votos: 3. Media: 3,67/5)
Loading ... Loading ...

Ahora que está de moda todo lo relacionado con los grafos sociales, parece interesante el modelo que muestra David Armano de las comunidades sociales que están aflorando a través de la Web 2.0 y que denomina "sistemas sociales".

Un grafo social consiste en un conjunto de nodos y conexiones que indican nuestras relaciones y puede representar, familias, comunidades de negocio, comunidades de Internet… Conceptualmente es muy útil pero a veces es bastante difícil de visualizar.

La representación de "sistema social" (ver siguiente figura) sitúa al usuario en el centro de un micro-universo alrededor del cual giran los planetas o "sistemas sociales". Siguiendo una analogía con el sistema solar, la distancia entre el Sol (usuario) y los planetas (aplicaciones sociales) depende del nivel de uso.

socialsystems.jpg

Realmente esta forma de ver las cosas tiene como defecto el que no es posible representar las relaciones entre los usuarios. No obstante puede ser interesante para muchos fines como el de la siguiente figura que muestra un modelo de difusión de la información según distintos canales.

socialsystems3.jpg

Social Search: buscadores basados en grafos sociales

1 Malo2 Mejorable3 Normal4 Bueno5 Excelente (No valorado aún)
Loading ... Loading ...

Nada menos que el 42% de todos los ingresos por publicidad en Internet en Estados Unidos se fueron a parar a los buscadores durante el año 2007, principalmente a Google (Datos de IAB consultores). Los otros tipos de servicios con los cuales los internautas consumen una gran cantidad de tiempo como video juegos online y redes sociales se quedan a mucha distancia: 5,1% y 4,6% respectivamente.
Teniendo en cuenta que por ahora es la publicidad el mejor medio de financiación online y a la vista de los datos mostrados, es muy comprensible la gran cantidad de intentos para afinar un poco en la búsqueda de resultados, en lograr algoritmos para dar un poco más al usuario, para tratar de interpretar sus intenciones y arañar un poco de la cuota de mercado al todopoderoso Google.

La gran meta en los buscadores del futuro es ser capaces de interpretar el contenido de la WEB, dando lugar a lo que usualmente se denominan buscadores semánticos. En este sentido son muchos los esfuerzos por lanzar estos buscadores, esta misma semana el buscador ruso Quintura ha lanzado la versión beta de su nuevo buscador semántico.

quintura.jpg

Dada la gran importancia que las redes sociales están adquiriendo, están apareciendo intentos de utilizar la información de estas redes para elaborar el ranking de respuestas en las búsquedas. El concepto es que si el buscador es capaz de navegar en tu red social, los resultados relacionados o producidos por tus amigos o gente afín a ti tendrán prioridad sobre los demás.

El buscador israelí Delver es el último intento en este sentido. Su funcionamiento consiste en que el buscador bucea el lugares como "Facebook", "Youtube", "Linkedln" entre otros para crear el grafo social del usuario. La información del grafo social se combina con la información de una base de datos Web para priorizar los resultados. Por ejemplo, si un usuario introduce la palabra "Málaga", el buscador primero tratará de buscar cuales de sus amigos han estado en esta ciudad.

buscadorsocial2.jpg

Tampoco Google quiere quedarse atrás en sacar partido de las redes sociales y ha lanzado al mercado una API para crear grafos sociales, la idea es desvincular el grafo social de las redes sociales como "Facebook" o "MySpace", de esta manera Google trata de quitar poder a estas redes.

Aunque parece que la idea de mezclar buscadores y grafos sociales puede tener cierto interés para afinar más las búsquedas, desde mi punto de vista el impacto será relativo ya que en la mayoría de las búsquedas no te ofrecerán información relevante. De hecho mucha gente lo puede considerar intrusivo y hasta contrario a la innovación: en muchos casos es más enriquecedora la opinión de un japonés que la de mis amigos, que normalmente será muy parecida a la mía.

Artículo sobre el grafo social en Infonomia

1 Malo2 Mejorable3 Normal4 Bueno5 Excelente (Votos: 2. Media: 3,50/5)
Loading ... Loading ...

El muy recomendable sitio de Infonomia me ha publicado un artículo sobre el grafo social en la sección de colaboradores. Es un intento de explicar que es, las distintas variantes que podrían existir y lo que se podría llegar a hacer con cada una de ellas. Todo ello mezclado con el debate sobre la portabilidad de la información.