CMBD: Privacidad vs Open data

open data salud privacidad transparenciaMe ha resultado muy interesante la publicación en la página web de @SaludMadrid de los microdatos del CMBD hospitalarios y ambulatorios, pues desde la perspectiva de “open data” son unos datos muy esperados. Ello me parece una buena iniciativa, si bien, pienso que la forma en la que se ha hecho no es adecuada, puesto considero que en determinadas circunstancias, podría producirse una violación de la seguridad de datos personales.

Los ficheros publicados contienen de forma anónima la información completa de cada registro del CMBD. Entre esta información, además del Servicio y Hospital de Ingreso y diagnóstico al alta entre otras cosas, se incluye información sobre municipio de residencia y código postal, fecha de nacimiento, fecha y hora de llegada al servicio de urgencias, fecha y hora del ingreso hospitalario, fecha y hora del alta, fecha y hora del traslado etc.

Según informa César Pascual, Director General de Coordinación de Asistencia Sanitaria de la Consejería de Salud, la iniciativa se enmarca en la “estrategia de datos abiertos de transparencia” y el siguiente paso será “actualizar en el mismo formato el consumo de fármacos tanto por hospital como por receta”. Parte de la idea de que “…. medir resultados en lugar de actividad resulta complejo con los modelos de evaluación actuales, pero el primer paso es, sin duda, la transparencia: “El futuro está en el open data, y hacia ahí estamos trabajando. Tenemos bases de datos muy amplias pero sólo hacemos públicos algunos indicadores, que no dejan de ser interpretaciones de los datos. Debemos publicar los datos y que el que quiera los interprete””.

De lo anterior se desprende que podría ser una iniciativa open data” amparada por la Ley 37/2007, de reutilización de la información del sector público, entendiendo por reutilización, el uso de documentos que obran en poder de las Administraciones y organismos del sector público, por personas físicas o jurídicas, con fines comerciales o no comerciales. Esta ley sin embargo no es aplicable a los documentos con límites en su acceso por motivos de protección de los datos personales. Prevalece el derecho a la protección de datos de carácter personal frente al de transparencia, a menos que se produzca la disociación de los datos. Cuando la información se facilita de forma disociada, y contuviera elementos suficientes que pudieran permitir la identificación en el proceso de reutilización, queda prohibida la reversión del procedimiento de disociación mediante la adición de nuevos datos obtenidos de otras fuentes.

Por otra parte, el CMBD genera datos incluidos en la estadística pública; la normativa estadística establece la obligatoriedad del secreto estadístico y la limitación en la difusión cuando se atente a la protección del secreto estadístico.

Sin necesidad de entrar en las especificaciones especialmente restrictivas sobre los datos sanitarios contemplados en la Ley 41/2002 de autonomía del paciente y documentación clínica, la LOPD establece claramente que son datos de carácter personal cualquier información concerniente a personas físicas identificadas o identificables; no siendo necesario el consentimiento informado si se comunican datos tras proceso de disociación, entendido este como el tratamiento de datos personales de modo que la información que se obtenga no pueda asociarse a persona identificada o identificable.

El RGPD establece igualmente que el principio de protección de datos debe aplicarse a toda la información de una persona física identificada o identificable. No hace referencia a datos disociados, y establece que los principios de protección de datos no deben aplicarse a la información anónima, ni a los datos convertidos en anónimos de forma que el interesado no sea identificable, o deje de serlo.

Introduce no obstante el concepto de seudonimización entendido como el tratamiento de datos personales de manera tal que ya no puedan atribuirse a un interesado sin utilizar información adicional, siempre que dicha información adicional figure por separado y esté sujeta a medidas técnicas y organizativas destinadas a garantizar que los datos personales no se atribuyan a una persona física identificada o identificable. Los datos personales seudonimizados, que cabría atribuir a una persona física mediante la utilización de información adicional, deben considerarse información sobre una persona física identificable.

Podríamos pues considerar que los datos del CMBD de la Comunidad de Madrid son datos seudonimizados y por tanto sometidos al RGPD. Podrían ser utilizados en las circunstancias específicas que marca el RGPD como es la investigación, pero no ser susceptibles de distribuirse de forma generalizada, aunque sean datos anónimos.

Se ha indicado igualmente que la publicación de los datos del CMBD es una medida de transparencia. La Ley de transparencia contempla el equilibrio entre la protección de datos y la transparencia: en la medida en que la información afecte directamente a la organización o actividad pública del órgano prevalecerá el acceso, mientras que, por otro, se protegen los datos que la normativa califica como especialmente protegidos, para cuyo acceso se requerirá, con carácter general, el consentimiento de su titular. Establece límites claros tanto en cuanto al derecho de acceso por parte de los ciudadanos, como a la publicidad activa por parte de los organismos públicos;  cuando la información contuviera datos especialmente protegidos, la publicidad sólo se llevará a cabo previa disociación de los mismos.

En base a lo anterior, podríamos concluir que se ha procedido a publicar datos sin identificación personal, que cabrían en el concepto de datos seudonimizado. Al no establecer ninguna restricción en cuanto a mínimo ámbito geográfico de difusión, las personas serían fácilmente identificables en municipios pequeños, cual es el caso de los 99 municipios de la Comunidad de Madrid con población menor de 5000 habitantes.

De hecho, en la distribución estadística sobre datos tales como mortalidad, interrupción voluntaria del embarazo o incidencia de enfermedades, tradicionalmente se han establecido límites en cuanto a tamaño de la población, por debajo de los cuales no se distribuyen datos individuales aunque estos fuesen anónimos; además, había criterios generales del tipo que no hubiese ningún ámbito de análisis definido en la que en una tabulación hubiese elementos que permitiesen identificar a una persona.

Por otra parte, el paradigma de anonimización y establecimiento de límites territoriales en su distribución, ha quedado obsoleto, pues con recursos, tratamiento adecuado e información mínima,  es posible identificar con alta probabilidad a personas concretas en ficheros anónimos al cruzarlos con otros ficheros en los que sí figure la identificación. Los datos publicados sobre el CMBD, contienen datos clave para estos propósitos como fechas y lugares. Una revisión sistemática en 2011 estimaba que en un 34% de los registros de ficheros sanitarios se podría reidentificar a la persona, si bien se trataba de estudios a pequeña escala o en los que los datos no habían sido disociados con los estándares adecuados.

Lamentablemente, el tiempo ha confirmado la potencia de las técnicas de re-identificación, alcanzándose unos niveles muy elevados de identificación de las personas, en determinadas circunstancias próximos al 100%.

En definitiva, es preciso no confundir las iniciativas de open data (uso de los datos con fines comerciales o no), de las de transparencia de la actividad pública y acceso de las personas a la información pública. Además, hay que utilizar las técnicas más avanzadas en los procesos de disociación, completándolas con técnicas de transformación de datos (synthetic data); pero sobretodo establecer procedimientos de tratamiento de datos con altos estándares éticos y aplicando (por supuesto) el Reglamento General de Protección de Datos, que hoy entra en vigor.

Anuncios

One response to “CMBD: Privacidad vs Open data

  1. JGL

    He revisado las limitaciones que ponen en USA en la difusión de datos sanitarios. Como criterio general no dan microdatos desagregados por debajo del nivel Estado, por código postal menor de 20.000 habitantes o agrupaciones de al menos tres códigos postales que compartan los tres primeros dígitos y agrupen una población superior a 20.000 personas. La mayor especificación de fecha es el año, nunca més y día.
    Más información aquí: https://www.law.cornell.edu/cfr/text/45/164.514

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s