Artículo escrito por Paulo Villegas
Conociendo el grafo a nuestro alrededor
En el contexto actual en el que la publicidad personalizada parece ser el único (o el principal) modelo de negocio que sostiene los servicios de Internet, los datos de personalización que pueden extraerse de grafos sociales (es decir, las conexiones entre usuarios) y su información asociada se han convertido en un elemento con un valor económico considerable.
Los elementos de alto valor atraen la atención inmediata de negocios, tanto legales como ilegales. Por eso hemos visto ya la aparición de empresas dedicadas al negocio de vender (legalmente) datos recolectados de fuentes públicas. Internamente, las organizaciones con la suerte de tener acceso a interacciones sociales ricas han empezado ya también a hacer uso de ellas, dentro de los límites impuestos por el marco legal correspondiente
Es por tanto una cuestión de tiempo que el cosechado de datos sociales pase a ser también un asunto de los "malos" de Internet (por ejemplo, sería información valiosísima para los generadores de correo basura). Software maligno especialmente dedicado a esa tarea podría estar ya propagándose subrepticiamente [1]. Más aún, se ha argumentado que este tipo de datos no sólo tiene gran valor económico ahora, sino también larga duración, ya que al modelar patrones de interacción entre personas en la vida real está poco sujeto a cambios (es rápido cambiar de nombre de usuario, o incluso de tarjeta de crédito, pero los amigos cambian más despacio). La gran sensibilidad de estos datos debería por tanto llevar a mayor preocupación (su comercio ilegal ha sido denominado como "robo de realidad" [2]).
¿Privacidad? ¿Qué privacidad?
Durante un tiempo esto ha parecido no ser un problema: la opinión general era que a los usuarios de las redes sociales (especialmente a las generaciones de “nativos digitales”) no les preocupaba la privacidad. Pero la realidad empieza a mostrar lo contrario. Espoleada en parte por casos publicados de mala gestión de datos, la preocupación en la opinión pública ha crecido y (probablemente como consecuencia) también en las autoridades [3, 4]. Y las compañías han empezado a tomar nota. Facebook, previamente conocida por ignorar cualquier preocupación con respecto a la privacidad e insistir en que todos los datos deben ser públicos, ha experimentado un cambio recientemente. Ha reconocido públicamente no haber prestado suficiente atención a este aspecto, y durante el último año desplegó nuevas opciones de seguridad, que aunque todavía son complicadas de entender y gestionar, permiten un control mucho mayor de la información publicada [5]. Foursquare también ha sido muy firme en su política sobre control de la privacidad y las medidas que están tomando al respecto [6]. Y Google accedió (en Alemania) a borrar bajo demanda las casas capturadas por su sistema Street View [7] (y prometió destruir todos los datos WiFi recogidos de forma “involuntaria” en el proceso de captura).
Puede que por esta razón, o puede que como un medio para abordar la excesiva oferta de información, parece existir una (todavía naciente) tendencia hacia una mayor fragmentación del grafo social. Podemos observar un incremento de los grupos privados (también Facebook los ha activado hace no demasiado tiempo [8]), al igual que en la vida real la gente tiene distintos círculos de relaciones y no los mezcla necesariamente.
En resumen, habrá siempre gente a la que no le preocupe en absoluto la privacidad. Pero el hecho de que la mayoría de los usuarios actualmente no la considere podría deberse más bien a que no se han parado a pensar sobre el tema [9]. Si algunos empiezan a alarmarse, y se crea una masa crítica que comience a propagar esa inquietud, entonces la situación podría darse la vuelta.
La búsqueda del anonimato
Existe una buena tradición de investigación en el área de seguridad y privacidad sobre procedimientos para controlar los efectos de la publicación de bases de datos de gran tamaño. Es una tarea difícil, como han demostrado acontecimientos como la ruptura del anonimato del conjunto de datos del Netflix prize [10]: como parte de una competición abierta para mejorar su motor de recomendación de películas, Netflix publicó una tabla con datos de alquileres de películas y puntuaciones de un conjunto de sus usuarios. Era completamente anónimo, pero investigadores la cruzaron con otras tablas de datos públicas para demostrar la capacidad de revelar identidades de los usuarios.
Principios tales como k-anonymity [11] buscan asegurar que la identificación permanece imposible mientras al mismo tiempo se permiten servicios que dependen de la disponibilidad de datos personales. El k-anonimato estudia garantizar que en cualquier base de datos pública de múltiples registros, cualquier combinación de información podrá acotar la identidad de los usuarios a no menos de k individuos. Las mismas ideas subyacentes han producido un número de términos y técnicas relacionadas: l-diversity, t-closeness. Tratan de trabajar a través de procedimientos tales como limitaciones estrictas de qué puede hacerse público y perturbaciones de las tablas (añadiendo ruido) previamente a su publicación. En la misma línea, la privacidad diferencial [12] es un concepto que trata de definir las reglas formales a través de las cuales es posible asegurar la preservación de la privacidad.
Pero los datos contenidos en grafos sociales hacen este objetivo especialmente difícil, porque anonimizar grafos de verdad sin destruirlos es un desafío. Además, la minería de grafos y el aprovechamiento de mecanismos conocidos de cohesión social hacen posible descubrir información sobre nodos privados simplemente inspeccionando nodos conectados a ellos que no son tan privados. No es suficiente mantener tus datos personales privados, debes convencer a todos tus amigos que lo hagan también: se pueden inferir hechos sobre personas (algunos de ellos realmente sensibles [13]) simplemente mirando a sus amigos.
Algunos resultados publicados a nivel de investigación muestran la dificultad de lograr anonimato en redes sociales de gran dimensión [14]. Ataques pasivos permiten, simplemente por inspección, usar las conexiones entre unos pocos nodos conocidos de antemano para identificarlos dentro en un grafo con un millón de nodos teóricamente anónimos, y desde ahí descubrir conexiones de nodos adicionales. Con sólo 5 nodos que colaboren puede valer para empezar a comprometer la privacidad del grafo social. Los ataques activos, en los cuales se permite al adversario crear nuevos nodos y conexiones en la red (algo fácil en la mayoría de redes sociales) son incluso más poderosos, ya que pueden dirigirse directamente a voluntad contra los objetivos deseados. Esto hace realmente complicado llegar a un buen compromiso entre privacidad y rendimiento para los algoritmos que explotan información social.
Recompensas potenciales
El beneficio de conseguir este anonimato, sin embargo, puede ser formidable. No solamente para mitigar la preocupación sobre el mal uso de los datos sociales, sino también para permitir nuevos servicios. La recomendación social está creciendo como la siguiente gran alternativa a las recomendaciones basadas en uso de algoritmos masivos, y para que pueda funcionar se necesita que los datos sociales estén disponibles. Métodos para compartir grafos sociales de forma anónima podrían tener enorme valor, y podrían permitir la clase de acuerdos entre propietarios de los datos sociales y proveedores de servicios de terceros que ahora no son posibles debido a restricciones legales.
La teoría de utilidad esperada afirma que la gente usará un servicio (como los que posibilitan los datos de redes sociales), si la utilidad total que obtienen es superior cuando se usa que cuando se descarta. Esta utilidad global debe considerar la pérdida de utilidad generada por los inconvenientes del servicio, modulada por la probabilidad de que ocurran estos inconvenientes. Dado que las personas, en general, tenemos aversión al riesgo, el peso de esa pérdida de utilidad en la decisión final es grande.
Podemos mencionar aquí dos inconvenientes principales:
- La sobrecarga de información ofrecida por aplicaciones sociales (hay tantos ítems pidiendo nuestra atención que nos desbordan), y
- las consecuencias percibidas de la amenaza a la privacidad.
La sobrecarga de información podría ser aliviada mediante cierta disminución de la exposición social (como se ha comentado arriba); la pérdida de utilidad debida a amenazas de privacidad ha sido descartada tradicionalmente, en parte porque las probabilidades estimadas de que ocurra son bajas. Pero esto podría cambiar si los fallos de seguridad empiezan a ser explotados (y la teoría económica básica nos dice que si es posible y rentable hacerlo, se hará). Lo que significa que deberíamos estar preparados y tener soluciones listas.
¿Qué hacer?
Cualquier empresa que posea información de grafos sociales y desee explotarla debería empezar a buscar cuanto antes maneras de permitir una explotación apropiada sin impacto en la privacidad. Así, cuando se materialicen las oportunidades de explotación (como se menciona arriba, directamente o mediante acuerdos con terceros), estas no serán bloqueadas por organismos regulatorios o protestas de opinión pública. Durante todo este proceso, es esencial respetar la premisa fundamental de que las personas deberían ser informadas de lo que se está haciendo con sus datos, y mantener la capacidad de rechazar ese tratamiento (tanto mediante consentimiento activo como pasivo, dependiendo del entorno).
En términos prácticos, esto podría resolverse buscando soluciones, tecnologías y algoritmos que puedan al mismo tiempo explotar el grafo para extraer información útil y preservar la privacidad al nivel requerido. Haciendo esto en secuencia (las técnicas de minería de datos son implementadas primero, y sólo entonces buscamos maneras de usarlas sin comprometer la privacidad) puede permitir inicialmente tiempos de desarrollo, pruebas y despliegue más cortos, pero a largo plazo no será óptimo. Ya que el proceso posterior de anonimizar empeorará el rendimiento de la minería de datos más que si estuviera integrado en la solución (y podría incluso hacer el cumplimiento de la privacidad más difícil).
La conclusión es que las restricciones esperadas de privacidad deberían integrase en el diseño tan pronto como sea posible
Un experimento conceptual con pistachos
Supongamos que, tras un gran esfuerzo de investigación, hemos desarrollado un algoritmo capaz de identificar con gran precisión a cualquier persona adicta a los pistachos simplemente por el grado de preferencia por los pistachos de un número de sus contactos (es bien conocido en círculos de investigación que la adicción a los pistachos crea fuertes lazos). Esto son buenas noticias para las heladerías, ya que podrán hacer ahora ofertas especiales a los clientes potenciales basados en sus gustos auténticos (y los pistacho-adictos constituyen una base de clientes especialmente leales). Son también buenas noticias para los adictos a los pistachos, ya que ahora conseguirán ofertas especiales que les ayuden a paliar su adicción a precios ventajosos.
Pero cuando tratamos de desplegar nuestro servicio en Sylvania (como todo el mundo sabe, uno de los mercados de pistachos más grandes del mundo), nos encontramos con un problema: las estrictas políticas sobre la preservación de la privacidad en Sylvania prohíben la identificación de preferencias al nivel de frutos secos específicos. Así que no seremos capaces de distinguir entre las preferencias por pistachos, almendras o avellanas. Lo que echa por tierra la precisión de nuestro gran algoritmo.
Si lo hubiéramos tenido en cuenta desde el principio, podríamos haber desarrollado una técnica alternativa que, trabajando solamente al nivel agregado de frutos secos, pudiera ofrecer un comportamiento mucho mejor que nuestro algoritmo, muy específico pero altamente sensible a la precisión de los datos.
Todo este razonamiento no implica olvidarse acerca de las técnicas actuales de minería de grafos (las cuales funcionan bien, y se pueden mantener cuando la privacidad no es un problema), pero deben seguir buscándose también procedimientos que funcionen mejor cuando existan directivas de cumplimiento de la privacidad más estrictas. Y existirán.
Nota: mi agradecimiento a José Enrique López por sus comentarios al borrador inicial de este texto.
Referencias
- Darlene Storm, Malware Aimed at Social Networks May Steal Your Reality, Computerworld, Oct 13, 2010
- Y. Altshuler, N. Aharony, Y. Elovici, A. Pentland, and M. Cebrian, Stealing Reality, arXiv:1010.1028v1, Oct 2010
- Justyna Pawlak, Google and Facebook to face tougher EU privacy rules, Reuters, Nov 4, 2010
- Wyatt Buchanan, Social-networking sites face new privacy battle, San Francisco Chronicle, May 15th, 2011
- Derek Thomson, Facebook’s New Privacy Rules Are Simple and Smart, The Atlantic, May 26 2010
- Foursquare blog, On foursquare, location & privacy…, Feb 19th, 2010
- BBC News, German Street View goes live with enhanced privacy, Nov 2nd, 2010
- Mark Zuckerberg, Giving You More Control, Facebook blog, October 6th, 2010
- Robert W. Lucky, Zero Privacy, IEEE Spectrum, July 2008
- Arvind Narayanan and Vitaly Shmatikov, "Robust De-anonymization of Large Datasets" (How to Break Anonymity of the Netflix Prize Dataset), Feb 5th, arXiv:cs/0610105v2
- L. Sweeney, "k-anonymity: a model for protecting privacy," Int. J. Uncertain. Fuzziness Knowl.-Based Syst., vol. 10, no. 5, pp. 557-570, October 2002.
- Cynthia Dwork, A Firm Foundation for Private Data Analysis, Communications of the ACM, January 2011
- Carter Jernigan, Behram F.T. Mistree, “Gaydar: Facebook friendships expose sexual orientation”, First Monday, Volume 14, Number 10, 5 October 2009
- L. Backstrom, C. Dwork, and J. Kleinberg, "Wherefore art thou r3579x?: anonymized social networks, hidden patterns, and structural steganography", in WWW ’07: Proceedings of the 16th international conference on World Wide Web. New York, NY, USA: ACM, 2007, pp. 181-190.