CMBD: Privacidad vs Open data

open data salud privacidad transparenciaMe ha resultado muy interesante la publicación en la página web de @SaludMadrid de los microdatos del CMBD hospitalarios y ambulatorios, pues desde la perspectiva de “open data” son unos datos muy esperados. Ello me parece una buena iniciativa, si bien, pienso que la forma en la que se ha hecho no es adecuada, puesto considero que en determinadas circunstancias, podría producirse una violación de la seguridad de datos personales.

Los ficheros publicados contienen de forma anónima la información completa de cada registro del CMBD. Entre esta información, además del Servicio y Hospital de Ingreso y diagnóstico al alta entre otras cosas, se incluye información sobre municipio de residencia y código postal, fecha de nacimiento, fecha y hora de llegada al servicio de urgencias, fecha y hora del ingreso hospitalario, fecha y hora del alta, fecha y hora del traslado etc.

Según informa César Pascual, Director General de Coordinación de Asistencia Sanitaria de la Consejería de Salud, la iniciativa se enmarca en la “estrategia de datos abiertos de transparencia” y el siguiente paso será “actualizar en el mismo formato el consumo de fármacos tanto por hospital como por receta”. Parte de la idea de que “…. medir resultados en lugar de actividad resulta complejo con los modelos de evaluación actuales, pero el primer paso es, sin duda, la transparencia: “El futuro está en el open data, y hacia ahí estamos trabajando. Tenemos bases de datos muy amplias pero sólo hacemos públicos algunos indicadores, que no dejan de ser interpretaciones de los datos. Debemos publicar los datos y que el que quiera los interprete””.

De lo anterior se desprende que podría ser una iniciativa open data” amparada por la Ley 37/2007, de reutilización de la información del sector público, entendiendo por reutilización, el uso de documentos que obran en poder de las Administraciones y organismos del sector público, por personas físicas o jurídicas, con fines comerciales o no comerciales. Esta ley sin embargo no es aplicable a los documentos con límites en su acceso por motivos de protección de los datos personales. Prevalece el derecho a la protección de datos de carácter personal frente al de transparencia, a menos que se produzca la disociación de los datos. Cuando la información se facilita de forma disociada, y contuviera elementos suficientes que pudieran permitir la identificación en el proceso de reutilización, queda prohibida la reversión del procedimiento de disociación mediante la adición de nuevos datos obtenidos de otras fuentes.

Por otra parte, el CMBD genera datos incluidos en la estadística pública; la normativa estadística establece la obligatoriedad del secreto estadístico y la limitación en la difusión cuando se atente a la protección del secreto estadístico.

Sin necesidad de entrar en las especificaciones especialmente restrictivas sobre los datos sanitarios contemplados en la Ley 41/2002 de autonomía del paciente y documentación clínica, la LOPD establece claramente que son datos de carácter personal cualquier información concerniente a personas físicas identificadas o identificables; no siendo necesario el consentimiento informado si se comunican datos tras proceso de disociación, entendido este como el tratamiento de datos personales de modo que la información que se obtenga no pueda asociarse a persona identificada o identificable.

El RGPD establece igualmente que el principio de protección de datos debe aplicarse a toda la información de una persona física identificada o identificable. No hace referencia a datos disociados, y establece que los principios de protección de datos no deben aplicarse a la información anónima, ni a los datos convertidos en anónimos de forma que el interesado no sea identificable, o deje de serlo.

Introduce no obstante el concepto de seudonimización entendido como el tratamiento de datos personales de manera tal que ya no puedan atribuirse a un interesado sin utilizar información adicional, siempre que dicha información adicional figure por separado y esté sujeta a medidas técnicas y organizativas destinadas a garantizar que los datos personales no se atribuyan a una persona física identificada o identificable. Los datos personales seudonimizados, que cabría atribuir a una persona física mediante la utilización de información adicional, deben considerarse información sobre una persona física identificable.

Podríamos pues considerar que los datos del CMBD de la Comunidad de Madrid son datos seudonimizados y por tanto sometidos al RGPD. Podrían ser utilizados en las circunstancias específicas que marca el RGPD como es la investigación, pero no ser susceptibles de distribuirse de forma generalizada, aunque sean datos anónimos.

Se ha indicado igualmente que la publicación de los datos del CMBD es una medida de transparencia. La Ley de transparencia contempla el equilibrio entre la protección de datos y la transparencia: en la medida en que la información afecte directamente a la organización o actividad pública del órgano prevalecerá el acceso, mientras que, por otro, se protegen los datos que la normativa califica como especialmente protegidos, para cuyo acceso se requerirá, con carácter general, el consentimiento de su titular. Establece límites claros tanto en cuanto al derecho de acceso por parte de los ciudadanos, como a la publicidad activa por parte de los organismos públicos;  cuando la información contuviera datos especialmente protegidos, la publicidad sólo se llevará a cabo previa disociación de los mismos.

En base a lo anterior, podríamos concluir que se ha procedido a publicar datos sin identificación personal, que cabrían en el concepto de datos seudonimizado. Al no establecer ninguna restricción en cuanto a mínimo ámbito geográfico de difusión, las personas serían fácilmente identificables en municipios pequeños, cual es el caso de los 99 municipios de la Comunidad de Madrid con población menor de 5000 habitantes.

De hecho, en la distribución estadística sobre datos tales como mortalidad, interrupción voluntaria del embarazo o incidencia de enfermedades, tradicionalmente se han establecido límites en cuanto a tamaño de la población, por debajo de los cuales no se distribuyen datos individuales aunque estos fuesen anónimos; además, había criterios generales del tipo que no hubiese ningún ámbito de análisis definido en la que en una tabulación hubiese elementos que permitiesen identificar a una persona.

Por otra parte, el paradigma de anonimización y establecimiento de límites territoriales en su distribución, ha quedado obsoleto, pues con recursos, tratamiento adecuado e información mínima,  es posible identificar con alta probabilidad a personas concretas en ficheros anónimos al cruzarlos con otros ficheros en los que sí figure la identificación. Los datos publicados sobre el CMBD, contienen datos clave para estos propósitos como fechas y lugares. Una revisión sistemática en 2011 estimaba que en un 34% de los registros de ficheros sanitarios se podría reidentificar a la persona, si bien se trataba de estudios a pequeña escala o en los que los datos no habían sido disociados con los estándares adecuados.

Lamentablemente, el tiempo ha confirmado la potencia de las técnicas de re-identificación, alcanzándose unos niveles muy elevados de identificación de las personas, en determinadas circunstancias próximos al 100%.

En definitiva, es preciso no confundir las iniciativas de open data (uso de los datos con fines comerciales o no), de las de transparencia de la actividad pública y acceso de las personas a la información pública. Además, hay que utilizar las técnicas más avanzadas en los procesos de disociación, completándolas con técnicas de transformación de datos (synthetic data); pero sobretodo establecer procedimientos de tratamiento de datos con altos estándares éticos y aplicando (por supuesto) el Reglamento General de Protección de Datos, que hoy entra en vigor.

Anuncios

Estadísticas longitudinales de base poblacional en salud

RGPD Salud Investigacion Proteccion de datosLa idea inicial para este artículo ha sido tomada de Francisco Viciana: “Estadísticas longitudinales de población. El desarrollo de un nuevo sistema de producción estadística”.

Las estadísticas sanitarias se han desarrollaron históricamente con los mismo planteamientos que el resto de la estadística pública: captura, explotación y difusión de datos producidos por una fuente concreta de información, asociada a un ámbito social o incluso organizativo concreto (ejemplo hospitalario, salud pública etc), referida a un periodo concreto de tiempo a modo de foto fija y con la característica de dato oficial, no modificable aunque se produjesen actualizaciones o mejoras en la calidad de los datos.

De esta forma se podía realizar un análisis exhaustivo de una fuente, pero no se podía enriquecer este análisis con otra fuente distinta con la que pudiera estar relacionada, salvo a nivel ecológico, con el grupo como unidad de análisis; este tipo de análisis como es bien conocido, está sometido a un alto riesgo de sesgo. El análisis tenía limitaciones para tratar datos de distintos sectores, clave por ejemplo para la acción intersectorial en salud, o dentro del sector salud, para el análisis que incluyese atención primaria y hospitales.

Con el paso al mundo digital, se reprodujo el esquema analógico, se crearon “silos de información” aislados, reproduciéndose el esquema tradicional de la producción estadística (corte transversal, explotación monográfica aislada, difusión en tablas y posteriormente en ficheros anonimizados, oficialidad, periodicidad y cierre, etc).

El gran cambio se produjo con las posibilidades de conexión de registros, realizándose la unión de distintas fuentes a nivel de la persona, no del grupo; el instrumento que ha permitido en el ámbito sanitario hacer estas conexiones ha sido la base de datos de usuarios, uno de los pilares de las estrategias de digitalización. Así pues se ha recorrido un camino de conexión de registros, cuyo antecedente más relevante lo encontramos en los países nórdicos que disponían de un número único de identificación personal de toda la población desde la década de 1940, y que les ha ayudado en la toma de decisiones y permitido grandes avances en la investigación en salud pública y servicios de salud.

Una vez conectados los registros, podemos relacionar los estados de una persona en distintas dimensiones, pudiéndose establecer las relaciones que existen entre esos estados; por ejemplo prevalencia de enfermedades crónicas, su relación con necesidades asistenciales de distinto tipo y consumo de recursos. Se trata de una foto fija, análisis transversal que supera los límites de los “silos de información” al  permitir el análisis simultaneo e intersectorial de distintas fuentes. Estas conexiones han supuesto un gran avance, y para su establecimiento se ha necesita realizar grandes esfuerzos, al no estar contempladas estas conexiones en el diseño de los sistemas de información.

Sabemos no obstante, que lo que ocurre en un punto de la biografía de una persona está condicionado por eventos ocurridos con anterioridad y que a su vez va a condicionar lo que ocurra en el futuro. Es por ello por lo que surgieron las estadísticas longitudinales a nivel poblacional, en las que sobre la trayectoria vital de una persona se pueden ir colocando eventos registrados en fuentes distintas; además de existir bastantes iniciativas a nivel internacional, hay experiencias en los órganos estadísticos, tanto en el INE (Estudio Demográfico Longitudinal), como el Instituto Vasco de Estadística (Registro de Población) e IECA (Base de Datos Longitudinal de Población de Andalucíade). Esto supone un paso importante respecto a las estadísticas transversales, dado que nos permite establecer las relaciones entre un evento actual y otro acaecido previamente en su trayectoria vital, así como predecir el tipo de eventos que pudieran ocurrir en el futuro, pasando de la estática de una foto fija, a la dinámica de una película.

Los países que fueron pioneros en la conexión de registros poblacionales lo han sido igualmente al transformarlos en registros longitudinales; estos estudios son de utilidad en la evaluación de impacto de intervenciones clínicas, salud pública, establecimiento de previsiones de gasto sanitario para grupos de pacientes concretos o ámbito social; en algunos países estos registros longitudinales son considerados como un elemento de la infraestructura de investigación.

El completar o pasar del análisis transversal al longitudinal presenta múltiples retos. El primero de ellos tiene que ver con la conexión de registros, paso previo en el que surgen dificultades al no estar contemplada esta fusión en el diseño de los sistemas de información que los generan, lo cual conlleva enormes problemas en la extracción, transformación y carga de datos; otros problemas a tener en cuenta son el gran volumen de datos a manejar y la calidad de los mismos, desconocida para algunas de las fuentes de datos. El siguiente reto tiene que ver con la transformación de registros fusionados orientados a una explotación transversal en registros longitudinales, lo cual nos llevará a replantear los sistemas de información operacionales de los que provienen; finalmente el propio análisis longitudinal de bases de datos poblacionales supone unos abordajes metodológicos con los que no estamos familiarizados.

Estadísticas de Redes Sociales y Salud

OLYMPUS DIGITAL CAMERAEs un hecho evidente que a medida que aumenta el uso de las redes sociales aumenta su uso en relación con la salud. Igualmente aumentan los estudios realizados por consultoras, empresas de marketing, laboratorios (en ocasiones bajo el paraguas de institutos o fundaciones) y administraciones públicas. A pesar de ello no resulta fácil una cuantificación del fenómeno dada la diversidad de fuentes y su distinta metodología.

En general las definiciones usadas de lo que es un usuario de Internet o red social no son comparables, y utilizan una población de edad distinta en función del aspecto que se quiera destacar. La forma de obtención de los datos es igualmente desigual (on line, telefónicamente, en la calle etc) y afecta igualmente a los resultados. La presentación de los datos tampoco es neutra según lo que se quiera magnificar (número absoluto, porcentaje, referencia poblacional etc). Es importante igualmente la transparencia en cuanto a la financiación del trabajo.

Para el análisis de las redes sociales en relación con la salud en nuestro medio, un marco de referencia obligado es el que nos dan tres grandes encuestas nacionales, que dan información de contexto y que podremos completar con los resultados en general más específicos de otro tipo de estudios. Se trata de:

  • Los ciudadanos ante la e-sanidad, estudio de Red.es realizado en julio de 2011 en mayores de 16 años mediante encuesta telefónica a 5.500 personas.
  • El Barómetro sanitario del CIS y Ministerio de Sanidad, Servicios Sociales e Igualdad realizado entre marzo y noviembre de 2012 en mayores de 18 años mediante rutas aleatorias a 7.800 personas, y
  • Barómetro CIS de mayo de 2013 en mayores de 18 años mediante rutas aleatorias a 2.500 personas.

Uso de Internet y redes sociales.

La información más reciente la tenemos con el Barómetro del CIS, referido a la población mayor de 18 años, indicándonos que de esta población, el 67,2% había utilizado Internet en los últimos 12 meses, el 58% usaba Internet para buscar información en Internet y el 39% usaba las redes sociales.

La información más completa sin embargo es la que nos da el estudio de Red.es (datos no comparables) en el que en la población estudiada el 62% era usuaria habitual de Internet, el 52% buscaba allí información y el 21% usaba redes sociales. Los servicios más usado entre los usuarios de Internet fueron: búsqueda de información (83%) y correo electrónico (66%), descendiendo considerablemente para el uso de redes sociales (34%) y siendo marginal para la gestión de un de blog o página web personal (0.7%).

Uso de Internet y salud.

La principal fuente de información que usa la población sobre salud son los profesionales sanitarios (médicos y otros profesionales 88% y farmacéuticos 62%). Los medios de comunicación tradicionales y familiares y amigos ocupan una posición intermedia (54% y 49%), mientras que Internet ocupa la última posición ( 30%).

Las fuentes de mayor confianza son los profesionales sanitarios (8.4 y 7,4). Los medios de comunicación y el entorno personal ofrecen una confianza limitada (no llegan a 5) mientras que Internet es lo menos valorado (3.8, mayor entre los que lo usan, 4.4, frente a los que no lo usan, 2.4)

El Barómetro Sanitario de 2012 indicaba igualmente que cuando se toma un medicamento, la principal fuente de información son los profesionales sanitarios (médico para el 88%, farmacéutico el 36% y enfermero el 10%) y la información del prospecto (30%). Familiares o amigos, Internet o autoridades sanitarias no llegan cada uno al 4%. Internet no ofrece confianza para la compra de medicamentos: el 97% no los ha comprado nunca allí.

Volviendo al estudio de Red.es, el uso de Internet para obtener información sobre temas de salud es menor en el medio rural, mayor en mujeres que en hombres, y muy desigual por edad, con un uso del 44% entre los 16 y 44 años y del 5% en los mayores de 65. Las personas que dicen tener un buen nivel de salud (jóvenes) confían más en esta información (3.9) que los que tienen un peor estado de salud (mayores) (2.3). Hablamos de un perfil caracterizado por mujeres de 35 a 49 años.

Los internautas buscan fundamentalmente información sobre enfermedades (40%) seguido a bastante distancia por información sobre nutrición, alimentación y estilos de vida e información sobre medicamentos (16%).. El menor interés lo ocupan la información sobre instituciones y centros sanitarios, prevención y promoción de la salud y medicinas alternativas (menor del 4% cada categoría). Las mujeres usuarias son mayores para cada categoría, y especialmente en las medicinas alternativas.

¿Donde se busca información sobre salud?.

La información sobre salud es buscada mayoritariamente (59%) en portales no sanitarios relacionadas con empresas de productos de alimentación o deporte, canales de televisión, etc. Prima la confianza en el producto más que la confianza en la información sanitaria.

Los portales de instituciones y centros sanitarios públicos y las de publicaciones científicas sanitarias son consultados por el 41,4% y 38,1% respectivamente, mientras que el nivel de uso es más bajo en webs de empresas e instituciones privadas (22%), asociaciones de pacientes (17%) y redes sociales (13%).

El nivel de uso no va asociado a la confianza que se tiene en la fuente, inspirando mucha o bastante confianza los portales de instituciones y centros sanitarios públicos y los de publicaciones científicas sanitarias (el 45,9% y 45,8%). La confianza baja hasta valores próximos al 30% para los portales de empresas e instituciones privadas y los de empresas no sanitarias, hasta el 25% para las asociaciones de pacientes, otorgándose el menor nivel de confianza a las redes sociales (7%).

Aunque el 17% de los usuarios no encuentran barrearas para el uso de información sanitaria en Internet, para el 54% de los usuarios la principal barrera es el desconocimiento de la fiabilidad de la información que se consulta, mientras que para el 29% es el riesgo de una interpretación errónea de la información.

Están más preocupados por la calidad y uso correcto de la información los internautas de edad media baja, con niveles de estudios y clase social elevados, en definitiva los mejores conocedores del medio.

Videojuegos y aplicaciones para moviles.

El estudio de Red.es aborda otros temas de salud electrónica, de los que hemos seleccionado los más relacionados con actividades sociales en red: Videojuegos y aplicaciones.

El 50% de la población conoce la existencia de videojuegos para el cuidado de la salud o usos terapéuticos, mientras que el 12% conocía la existencia de aplicaciones para móviles par aguardar o gestionar información sobre la salud. El conocimiento es mayor en los más jóvenes y en los de mayor nivel de estudios y clase social .

El uso de estos dispositivos relacionados con la salud ha sido del 16% para los videojuegos y el 2.2% para los programas para moviles, aunque su valoración acerca de su utilidad para el cuidado de la salud es baja: son considerados poco o nada útiles los videojuegos para el 18% y las aplicaciones móviles para el 16 %. Comparativamente, la teleasistencia es considerada poco o nada útil sólo para 1%.  Son considerados más útiles por las personas jóvenes, sanas y usuarios de estas herramientas.

Redes Sociales.

El 4% de la población usa las redes sociales como fuente de información y consulta sobre salud, siendo Wikipedia la más usada (72%), seguida de Factbook (35%), Youtube (31%) y Twitter (13%).
La edad de los usuarios es de 25 a 49 años, y Wikipedia es la que dá más confianza: con mucha o bastante confianza para 36%.
El motivo fundamental de uso es aclarar dudas sobre algún tema específico y recibir consejo y comprensión de personas con el mismo problema, especialmente en las personas que no gozan de buena salud; el porcentaje sobre autocuidados es pequeño

Relación médico – paciente e Internet.

El 65% de los usuarios de Internet búsca información sobre salud en internet antes de la cita médica (30%) o después (55%). De estos, el 21% comparte la información con el médico.
El 76% de los que buscan información considera que el hecho de buscar información por su cuenta no influye en la relación médico paciente, mientras que el 16% cree que mejora y el 5% que empeora.

Los pacientes crónicos dependientes, así como las personas que ejercen el rol de cuidadores son quienes más amplían la información sanitaria en la red tras la asistencia a una consulta médica.

En cuanto a otras formas de relacionarse con su médico, al 73% de los internautas les gustaría que su médico les recomendase sitios de internet relacionados con su problema de salud, el 72% valoraría positivamente que su medico tuviese un blog o web profesional sobre consejos sanitarios y el 63% que se pudiera comunicar por correo electrónico. Sin embargo el 51% está en contra de utilizar las redes sociales para interactuar con su medico. Los internautas más jóvenes y con mejor salud están más predispuestos a introducir estas formas de comunicación

De estos datos se desprende que el uso de Internet y redes sociales por la población no está incorporado de forma generalizada en la atención sanitaria aunque el número de usuarios es ya suficientemente importante como para que exista una casuística y variedad de utilidades importante.

Internet y las redes sociales se perfilan como un recurso más en la atención sanitaria y ofrece oportunidades de comunicación entre pacientes y estos con los profesionales sanitarios.

Se vislumbra igualmente un nuevo escenario de desigualdades en salud, no solo por la brecha digital asociada a la edad sino al nivel educativo y social, con desigualdad no sólo en el acceso sino a la valoración correcta de la información.

Gobierno Abierto, Transparencia y Open Data

La semana pasada he coordinado el curso “Modernización de la gestión pública local: los portales de transparencia” organizado por el INAP en colaboración con la Diputación Provincial de Cádiz. El objetivo del curso era “Adquirir los conocimientos teóricos y prácticos con una perspectiva nacional e internacional que permitan aplicar eficazmente las nuevas leyes de información y transparencia que se están elaborando en nuestro país, mediante presentaciones teóricas y prácticas, debates y trabajos en grupo”.

La mitad de los alumnos procedían de distintos departamentos de la Diputación de Cádiz y la otra mitad eran mayoritariamente Secretarios e Interventores de municipios gaditanos. Como en tantas otras ocasiones, ha sido un placer compartir inquietudes y debatir temas de modernización de la administración pública con profesionales altamente cualificados y comprometidos con el servicio público, que desarrollan su trabajo en situaciones especialmente complicadas como son las derivadas de la situación económica de la administración local o las dificultades propias del ámbito político municipal.

El primer día del curso traté el tema del gobierno abierto; el material documental que les recomendé fue el siguiente:

Les recomendé estos videos:

Mi presentación abordó inicialmente los tres elementos que considero que están propiciando el avance sobre gobierno abierto: El desarrollo de la Web 2.0, la evolución de la administración pública y el debate y movimientos cívicos sobre la crisis de la democracia. Esta es la presentación del inicio y la parte referida a la web 2.0:

En esta presentación se tratan las reformas de la administración pública y la crisis de la democracia:

Posteriormente traté los aspectos conceptuales del gobierno abierto así como sus elementos: Transparencia, participación y colaboración.

Finalmente traté los pasos a dar en el desarrollo del gobierno abierto, algunos planteamientos que se han hecho para evaluar la madurez de las iniciativas de gobierno abierto, revisión de experiencias más destacadas y recursos para estar bien informados sobre este tema:

Los aspectos relacionados con la Ley de Transparencia fueron tratados por Emilio Guichot Reina, Profesor de Derecho Administrativo de la Universidad de Sevilla; Severiano Fernández Ramos, Catedrático de Derecho Administrativo de la  Universidad de Cádiz trató sobre Transparencia y Admon Local; Manuel Sánchez de Diego, Profesor de Derecho Constitucional de la Universidad Complutense de Madrid y miembro de Coalición pro acceso habló sobre Transparencia y sociedad, mientras que Open Data fue tratado por Olga Quirós, Vicesecretaria General ASEDIE Asociación Multisectorial de la Información

En la parte final del curso los alumnos revisaron el nivel de transparencia de sus intituciones usando los criterios de evaluación de Transparencia Internacional y revisaron los portales de open Data más destacados.