CMBD: Privacidad vs Open data

open data salud privacidad transparenciaMe ha resultado muy interesante la publicación en la página web de @SaludMadrid de los microdatos del CMBD hospitalarios y ambulatorios, pues desde la perspectiva de “open data” son unos datos muy esperados. Ello me parece una buena iniciativa, si bien, pienso que la forma en la que se ha hecho no es adecuada, puesto considero que en determinadas circunstancias, podría producirse una violación de la seguridad de datos personales.

Los ficheros publicados contienen de forma anónima la información completa de cada registro del CMBD. Entre esta información, además del Servicio y Hospital de Ingreso y diagnóstico al alta entre otras cosas, se incluye información sobre municipio de residencia y código postal, fecha de nacimiento, fecha y hora de llegada al servicio de urgencias, fecha y hora del ingreso hospitalario, fecha y hora del alta, fecha y hora del traslado etc.

Según informa César Pascual, Director General de Coordinación de Asistencia Sanitaria de la Consejería de Salud, la iniciativa se enmarca en la “estrategia de datos abiertos de transparencia” y el siguiente paso será “actualizar en el mismo formato el consumo de fármacos tanto por hospital como por receta”. Parte de la idea de que “…. medir resultados en lugar de actividad resulta complejo con los modelos de evaluación actuales, pero el primer paso es, sin duda, la transparencia: “El futuro está en el open data, y hacia ahí estamos trabajando. Tenemos bases de datos muy amplias pero sólo hacemos públicos algunos indicadores, que no dejan de ser interpretaciones de los datos. Debemos publicar los datos y que el que quiera los interprete””.

De lo anterior se desprende que podría ser una iniciativa open data” amparada por la Ley 37/2007, de reutilización de la información del sector público, entendiendo por reutilización, el uso de documentos que obran en poder de las Administraciones y organismos del sector público, por personas físicas o jurídicas, con fines comerciales o no comerciales. Esta ley sin embargo no es aplicable a los documentos con límites en su acceso por motivos de protección de los datos personales. Prevalece el derecho a la protección de datos de carácter personal frente al de transparencia, a menos que se produzca la disociación de los datos. Cuando la información se facilita de forma disociada, y contuviera elementos suficientes que pudieran permitir la identificación en el proceso de reutilización, queda prohibida la reversión del procedimiento de disociación mediante la adición de nuevos datos obtenidos de otras fuentes.

Por otra parte, el CMBD genera datos incluidos en la estadística pública; la normativa estadística establece la obligatoriedad del secreto estadístico y la limitación en la difusión cuando se atente a la protección del secreto estadístico.

Sin necesidad de entrar en las especificaciones especialmente restrictivas sobre los datos sanitarios contemplados en la Ley 41/2002 de autonomía del paciente y documentación clínica, la LOPD establece claramente que son datos de carácter personal cualquier información concerniente a personas físicas identificadas o identificables; no siendo necesario el consentimiento informado si se comunican datos tras proceso de disociación, entendido este como el tratamiento de datos personales de modo que la información que se obtenga no pueda asociarse a persona identificada o identificable.

El RGPD establece igualmente que el principio de protección de datos debe aplicarse a toda la información de una persona física identificada o identificable. No hace referencia a datos disociados, y establece que los principios de protección de datos no deben aplicarse a la información anónima, ni a los datos convertidos en anónimos de forma que el interesado no sea identificable, o deje de serlo.

Introduce no obstante el concepto de seudonimización entendido como el tratamiento de datos personales de manera tal que ya no puedan atribuirse a un interesado sin utilizar información adicional, siempre que dicha información adicional figure por separado y esté sujeta a medidas técnicas y organizativas destinadas a garantizar que los datos personales no se atribuyan a una persona física identificada o identificable. Los datos personales seudonimizados, que cabría atribuir a una persona física mediante la utilización de información adicional, deben considerarse información sobre una persona física identificable.

Podríamos pues considerar que los datos del CMBD de la Comunidad de Madrid son datos seudonimizados y por tanto sometidos al RGPD. Podrían ser utilizados en las circunstancias específicas que marca el RGPD como es la investigación, pero no ser susceptibles de distribuirse de forma generalizada, aunque sean datos anónimos.

Se ha indicado igualmente que la publicación de los datos del CMBD es una medida de transparencia. La Ley de transparencia contempla el equilibrio entre la protección de datos y la transparencia: en la medida en que la información afecte directamente a la organización o actividad pública del órgano prevalecerá el acceso, mientras que, por otro, se protegen los datos que la normativa califica como especialmente protegidos, para cuyo acceso se requerirá, con carácter general, el consentimiento de su titular. Establece límites claros tanto en cuanto al derecho de acceso por parte de los ciudadanos, como a la publicidad activa por parte de los organismos públicos;  cuando la información contuviera datos especialmente protegidos, la publicidad sólo se llevará a cabo previa disociación de los mismos.

En base a lo anterior, podríamos concluir que se ha procedido a publicar datos sin identificación personal, que cabrían en el concepto de datos seudonimizado. Al no establecer ninguna restricción en cuanto a mínimo ámbito geográfico de difusión, las personas serían fácilmente identificables en municipios pequeños, cual es el caso de los 99 municipios de la Comunidad de Madrid con población menor de 5000 habitantes.

De hecho, en la distribución estadística sobre datos tales como mortalidad, interrupción voluntaria del embarazo o incidencia de enfermedades, tradicionalmente se han establecido límites en cuanto a tamaño de la población, por debajo de los cuales no se distribuyen datos individuales aunque estos fuesen anónimos; además, había criterios generales del tipo que no hubiese ningún ámbito de análisis definido en la que en una tabulación hubiese elementos que permitiesen identificar a una persona.

Por otra parte, el paradigma de anonimización y establecimiento de límites territoriales en su distribución, ha quedado obsoleto, pues con recursos, tratamiento adecuado e información mínima,  es posible identificar con alta probabilidad a personas concretas en ficheros anónimos al cruzarlos con otros ficheros en los que sí figure la identificación. Los datos publicados sobre el CMBD, contienen datos clave para estos propósitos como fechas y lugares. Una revisión sistemática en 2011 estimaba que en un 34% de los registros de ficheros sanitarios se podría reidentificar a la persona, si bien se trataba de estudios a pequeña escala o en los que los datos no habían sido disociados con los estándares adecuados.

Lamentablemente, el tiempo ha confirmado la potencia de las técnicas de re-identificación, alcanzándose unos niveles muy elevados de identificación de las personas, en determinadas circunstancias próximos al 100%.

En definitiva, es preciso no confundir las iniciativas de open data (uso de los datos con fines comerciales o no), de las de transparencia de la actividad pública y acceso de las personas a la información pública. Además, hay que utilizar las técnicas más avanzadas en los procesos de disociación, completándolas con técnicas de transformación de datos (synthetic data); pero sobretodo establecer procedimientos de tratamiento de datos con altos estándares éticos y aplicando (por supuesto) el Reglamento General de Protección de Datos, que hoy entra en vigor.

3 respuestas a “CMBD: Privacidad vs Open data

  1. JGL

    He revisado las limitaciones que ponen en USA en la difusión de datos sanitarios. Como criterio general no dan microdatos desagregados por debajo del nivel Estado, por código postal menor de 20.000 habitantes o agrupaciones de al menos tres códigos postales que compartan los tres primeros dígitos y agrupen una población superior a 20.000 personas. La mayor especificación de fecha es el año, nunca més y día.
    Más información aquí: https://www.law.cornell.edu/cfr/text/45/164.514

  2. JGL

    Los datos anonimizados del CMBD han sido eliminados del portal de la Consejería de Salud de la Comunidad de Madrid.
    Igualmente ha ocurrido en Australia, que ha eliminado del portal open data los datos de salud que estaban debidamente anonimizados, pero que investigadores de la Univeridad de Melbourne consiguieron re-identificar.
    https://pursuit.unimelb.edu.au/articles/the-simple-process-of-re-identifying-patients-in-public-health-records
    Otros estudios han mostrado la probabilidad de re-identificar pacientes en altas hospitalarias de-identificadas en los estados de Washington, Maine y Vermont:
    https://techscience.org/a/2018100901/
    Ya en el año 2011, una revisión sistemática concluyó que el porcentaje de reidentificación en los estudios publicados era del 34% entre los datos sanitarios (en la actualidad hay métodos más adecuados para la de-identificación, pero también más recursos técnicos y metodológicos para la re-identificación)
    https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5110051/#bib18
    No se trata de un asunto fácil, y es preciso hallar el equilibrio que salvaguarde los derechos de las personas y permite el uso de los datos en investigacion:
    https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5110051/
    Una revisión de alcance reciente, pone de manifiesto la creciente importancia de este tema
    https://www.ncbi.nlm.nih.gov/pubmed/31152528

  3. JGL

    Tomado de “Synthea: An approach, method, and software mechanism for generating synthetic patients and the synthetic electronic health care record”:
    . https://academic.oup.com/jamia/article/25/3/230/4098271
    “Anonymized EHRs are bought and sold by a range of government,5,6 commercial corporate, insurance,7 and clinical groups.7–10 The use of real patient records, even those that have been anonymized, comes with issues of privacy, confidentiality, and consent. For instance, there is an especially high risk of harm from public disclosure and identification of individuals resulting from the release or use of anonymized health records, and multiple examples of re-identification of these records have already been observed and publicized.5,11–15)
    5 Sweeney L, Abu A, Winn J. Identifying Participants in the Personal Genome Project by Name . Harvard University: Data Privacy Lab; 2013. http://dataprivacylab.org/projects/pgp/1021-1.pdf. Accessed July 25, 2017.
    6 Hoeksma J. The NHS’ care.data scheme: What are the risks to privacy? Brit Med J. 2014;348:g1547.
    7 Tanner A. This little-known firm is getting rich off your medical data. Fortune . 2016. http://fortune.com/2016/02/09/ims-health-privacy-medical-data/. Accessed July 25, 2017.

    8 Frenkel J. Doctors selling medical records. Herald Sun . May 25, 2005.

    9 Peel D. Personal health data is for sale. Health Privacy Summit. Slides and talking points; 2012. http://goo.gl/bprN1B. Accessed July 25, 2017.

    10 Tate R, Beloff N, Al-Radwan B, et al. Exploiting the potential of large databases of electronic health records for research using rapid search algorithms and an intuitive query interface. J Am Inform Assoc. 2014;212:292–98.
    Google ScholarCrossref
    11 Ross Anderson. Under threat: patient confidentiality and NHS computing. Drugs and Alcohol Today . 2006;64:13–17.
    Google ScholarCrossref
    12 Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization (August 13, 2009). UCLA Law Rev. 2010;57:1701, U of Colorado Law Legal Studies Research Paper No. 9–12. Available at SSRN: https://ssrn.com/abstract=1450006.
    13 El Emam K, Jonker E, Arbuckle L, Malin B. A systematic review of re-identification attacks on health data. PLOS One . 2011; 6(12):e28071. https://doi.org/10.1371/journal.pone.0028071.
    Google ScholarCrossrefPubMed
    14 Gymrek M, McGuire A, Golan D, Halperin E, Erlich Y. Identifying personal genomes by surname inference. Science. 2013;v339:6117.

    15 McLachlan S, Dube K, Gallagher T. Using the CareMap with health incidents statistics for generating the realistic synthetic electronic healthcare record. 2016 IEEE International Conference on Healthcare Informatics (ICHI), 2016, (pp. 439–48). Chicago, IL. doi: 10.1109/ICHI.2016.83.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s