Estadísticas longitudinales de base poblacional en salud

RGPD Salud Investigacion Proteccion de datosLa idea inicial para este artículo ha sido tomada de Francisco Viciana: “Estadísticas longitudinales de población. El desarrollo de un nuevo sistema de producción estadística”.

Las estadísticas sanitarias se han desarrollaron históricamente con los mismo planteamientos que el resto de la estadística pública: captura, explotación y difusión de datos producidos por una fuente concreta de información, asociada a un ámbito social o incluso organizativo concreto (ejemplo hospitalario, salud pública etc), referida a un periodo concreto de tiempo a modo de foto fija y con la característica de dato oficial, no modificable aunque se produjesen actualizaciones o mejoras en la calidad de los datos.

De esta forma se podía realizar un análisis exhaustivo de una fuente, pero no se podía enriquecer este análisis con otra fuente distinta con la que pudiera estar relacionada, salvo a nivel ecológico, con el grupo como unidad de análisis; este tipo de análisis como es bien conocido, está sometido a un alto riesgo de sesgo. El análisis tenía limitaciones para tratar datos de distintos sectores, clave por ejemplo para la acción intersectorial en salud, o dentro del sector salud, para el análisis que incluyese atención primaria y hospitales.

Con el paso al mundo digital, se reprodujo el esquema analógico, se crearon “silos de información” aislados, reproduciéndose el esquema tradicional de la producción estadística (corte transversal, explotación monográfica aislada, difusión en tablas y posteriormente en ficheros anonimizados, oficialidad, periodicidad y cierre, etc).

El gran cambio se produjo con las posibilidades de conexión de registros, realizándose la unión de distintas fuentes a nivel de la persona, no del grupo; el instrumento que ha permitido en el ámbito sanitario hacer estas conexiones ha sido la base de datos de usuarios, uno de los pilares de las estrategias de digitalización. Así pues se ha recorrido un camino de conexión de registros, cuyo antecedente más relevante lo encontramos en los países nórdicos que disponían de un número único de identificación personal de toda la población desde la década de 1940, y que les ha ayudado en la toma de decisiones y permitido grandes avances en la investigación en salud pública y servicios de salud.

Una vez conectados los registros, podemos relacionar los estados de una persona en distintas dimensiones, pudiéndose establecer las relaciones que existen entre esos estados; por ejemplo prevalencia de enfermedades crónicas, su relación con necesidades asistenciales de distinto tipo y consumo de recursos. Se trata de una foto fija, análisis transversal que supera los límites de los “silos de información” al  permitir el análisis simultaneo e intersectorial de distintas fuentes. Estas conexiones han supuesto un gran avance, y para su establecimiento se ha necesita realizar grandes esfuerzos, al no estar contempladas estas conexiones en el diseño de los sistemas de información.

Sabemos no obstante, que lo que ocurre en un punto de la biografía de una persona está condicionado por eventos ocurridos con anterioridad y que a su vez va a condicionar lo que ocurra en el futuro. Es por ello por lo que surgieron las estadísticas longitudinales a nivel poblacional, en las que sobre la trayectoria vital de una persona se pueden ir colocando eventos registrados en fuentes distintas; además de existir bastantes iniciativas a nivel internacional, hay experiencias en los órganos estadísticos, tanto en el INE (Estudio Demográfico Longitudinal), como el Instituto Vasco de Estadística (Registro de Población) e IECA (Base de Datos Longitudinal de Población de Andalucíade). Esto supone un paso importante respecto a las estadísticas transversales, dado que nos permite establecer las relaciones entre un evento actual y otro acaecido previamente en su trayectoria vital, así como predecir el tipo de eventos que pudieran ocurrir en el futuro, pasando de la estática de una foto fija, a la dinámica de una película.

Los países que fueron pioneros en la conexión de registros poblacionales lo han sido igualmente al transformarlos en registros longitudinales; estos estudios son de utilidad en la evaluación de impacto de intervenciones clínicas, salud pública, establecimiento de previsiones de gasto sanitario para grupos de pacientes concretos o ámbito social; en algunos países estos registros longitudinales son considerados como un elemento de la infraestructura de investigación.

El completar o pasar del análisis transversal al longitudinal presenta múltiples retos. El primero de ellos tiene que ver con la conexión de registros, paso previo en el que surgen dificultades al no estar contemplada esta fusión en el diseño de los sistemas de información que los generan, lo cual conlleva enormes problemas en la extracción, transformación y carga de datos; otros problemas a tener en cuenta son el gran volumen de datos a manejar y la calidad de los mismos, desconocida para algunas de las fuentes de datos. El siguiente reto tiene que ver con la transformación de registros fusionados orientados a una explotación transversal en registros longitudinales, lo cual nos llevará a replantear los sistemas de información operacionales de los que provienen; finalmente el propio análisis longitudinal de bases de datos poblacionales supone unos abordajes metodológicos con los que no estamos familiarizados.

Anuncios

Reglamento General de Protección de Datos (RGPD), Salud e Investigación.

RGPD Proteccion de datos Salud InvestigacionEl nuevo Reglamento General de Protección de Datos (RGPD) será de obligado cumplimiento en los 28 Estados miembros de la Unión Europea el 25 de mayo de 2018; los ficheros actualmente declarados a la APD, dispondrán de 2 años a partir de esa fecha para adaptarse. El tratamiento de datos debe ser equivalente en todos los estados miembros, que aunque introduzcan ciertas particularidades, no pueden hacer modificaciones substanciales sobre lo incluido en el Reglamento.

En España, se adapta el ordenamiento jurídico español al RGPD en el borrador del Anteproyecto de Ley Orgánica de Protección de Datos de Carácter Personal. Aborda temas como: el consentimiento explícito, consentimiento de los menores a partir de 13 años, acceso a datos de personas fallecidas, licitud de tratamiento de datos en ciertos ámbitos económicos, transparencia para el interesado, derecho a portabilidad con ciertas limitaciones respecto a los datos inferidos, amplia los supuestos en los que debe de haber un Delegado de Protección de Datos,  especifica ciertas situaciones en las que es necesaria la Evaluación de Impacto  y establece el régimen sancionador. Indica igualmente que se podrá hacer tratamiento de datos en cumplimiento de una misión de interés público o ejercicio de poderes públicos, cuando derive de una competencia atribuida por la ley. No hace ninguna mención a salud o investigación; en consecuencia, los análisis sobre estos temas hechos en otros países son válidos para España, salvo que la legislación sectorial indique otra cosa.

 Aunque el RGPD introduce importantes novedades, algunos analistas consideran que su impacto no será tan oneroso como en principio se suponía; aun así, las organizaciones que procesan datos de salud tendrán que revisar en profundidad sus políticas, procedimientos y prácticas existentes para asegurar el cumplimiento.

Aspectos generales

Estos son los aspectos de ámbito general más destacados:

  1. Las organizaciones están obligadas a demostrar que cumplen con el nuevo Reglamento. Eso exigirá introducir cambios importantes en sus procedimientos de control.
  2. Establece la obligación de notificar las brechas de seguridad y cuando hay que informar a los interesados.
  3. Derecho a la portabilidad de los datos personales, generalmente gratuitamente.
  4. Obligación de llevar un registro del tratamiento de datos (desaparece la obligación de declarar el fichero a la APD).
  5. Todos los organismos públicos deben tener (en plantilla o contrato de servicios) un Delegado de Protección de Datos.
  6. La Evaluación de Impacto de Protección de Datos, obligatorio para procesamientos de alto riesgo, en los que se incluyen los datos de salud
  7. La protección de datos debe abordarse en todos los procesos de información, con seguridad inherente a los propios sistemas de información, protección por diseño.
  8. Establece medidas de transparencia y rendición de cuentas.
  9. Reglas más estrictas, en las que el consentimiento es la base para el procesamiento de datos.

En cuanto al alcance del RGPD, es una novedad que no incluye a las personas fallecidas, e incluye expresamente los datos sometidos a pseudonimización (tratamiento de datos personales de manera tal que ya no puedan atribuirse a un interesado sin utilizar información adicional, siempre que dicha información adicional figure por separado y esté sujeta a medidas técnicas y organizativas destinadas a garantizar que los datos personales no se atribuyan a una persona física identificada o identificable).

En cuanto a la estructura de los sistemas de protección de datos, nos encontramos con:

  • Supervisor Europeo de Protección de Datos
  • El Comité Europeo de Protección de Datos (Artículo 68).
  • Autoridad de control (nacional o subnacional) (Artículo 51).
  • Delegado de protección de datos (Artículo 37).
  • Encargado de tratamiento (Artículo 28)

El Delegado de protección de datos se convierte en la figura central del sistema de protección de datos, designado por los responsables y encargados del tratamiento, es una figura independiente con conocimientos especializados en Derecho y protección de datos, que rendirá cuentas al nivel jerárquico superior al del responsable o encargado. Es el referente para la dirección de la institución, usuarios, autoridades de control, responsable del tratamiento y encargado de tratamiento). Tiene que informar, asesorar, supervisar, además de cooperar con la autoridad de control. Específicamente  ha de asesorar en su ejecución de la evaluación de impacto y supervisar su cumplimiento.

El tratamiento de los datos de salud entre otros, debe estar sometido a una Evaluación de impacto relativa a la protección de datos (Artículo 35). Será realizado por el responsable del tratamiento, antes del tratamiento; una única evaluación podrá incluir una serie de operaciones de tratamiento similares que entrañen altos riesgos similares. Esta evaluación debe contemplar al menos:

  1. Una descripción sistemática de las operaciones de tratamiento previstas y de los fines del tratamiento, inclusive, cuando proceda, el interés legítimo perseguido por el responsable del tratamiento;
  2. Una evaluación de la necesidad y la proporcionalidad de las operaciones de tratamiento con respecto a su finalidad;
  3. Una evaluación de los riesgos para los derechos y libertades de los interesados, y
  4. Las medidas previstas para afrontar los riesgos, incluidas garantías, medidas de seguridad y mecanismos que garanticen la protección de datos personales, y a demostrar la conformidad con el RGPD, teniendo en cuenta los derechos e intereses legítimos de los interesados y de otras personas afectadas.

Se refuerza la exigencia de consentimiento, mediante una declaración o una acción positiva no pudiendo deducirse del silencio o de la inacción, estableciendo la obligación de disponer de sistemas de registro del consentimiento. Además se introduce la exigencia del consentimiento para la oferta directa a niños de servicios de la sociedad de la información (internet), que será válido para mayores de 14 años, mientras que para menores de 14 años se necesitará el consentimiento del padre o tutor.

RGPD y  Salud.

El RGPD despeja cualquier duda acerca del tratamiento de datos sanitarios en funciones de auditoría, incluida en los usos legítimos de los datos. Contempla igualmente el tratamiento de estos datos para protección social (53).

Respecto a su uso secundario para investigación, queda igualmente claro la legitimidad de su uso, incluidos biobancos y big data, dado que permite un amplio consentimiento a “determinadas áreas de investigación cuando de conformidad con las normas éticas reconocidas” ( 33). Las normas éticas reconocidas implican que tenga que ser aprobado por un comité de ética de investigación, aprobación necesaria pero no vinculante para el delegado de protección de datos y encargado del tratamiento. El término investigación se considera de una forma amplia, incluyendo la investigación privada, desarrollo tecnológico, demostración, etc. El RGPD sí que es previsible tendrá impacto en la gestión de los datos personales en proyectos de investigación.

Los investigadores del Reino Unido consideran que el uso de los datos de salud a efectos de investigación no tiene limitaciones en el ámbito público al responder al interés general, pero las tendría en el uso de datos sanitarios a efectos de investigación a realizar por parte del sector privado. Igualmente, investigadores de proyectos o asociaciones profesionales europeas, consideran que no es necesario obtener el consentimiento expreso de cada una de las personas incluidas en una base de datos para utilizar estas bases de datos con fines de investigación.

Los datos de salud se incluyen entre las categorías especiales de datos personales (Artículo 9). En el considerando (35), se indica que en los datos personales relativos a la salud se deben incluir todos los datos relativos al estado de salud del interesado que dan información sobre su estado de salud física o mental pasado, presente o futuro. Específicamente hace mención a datos genéticos, todo número, símbolo o dato asignado a una persona física que la identifique de manera unívoca a efectos sanitarios, independientemente de su fuente, por ejemplo un médico u otro profesional sanitario, un hospital, un dispositivo médico, o una prueba diagnóstica in vitro. Aunque no es un dato sanitario, el RGPD contempla también los datos biométricos.

En el (45) se indica que cuando se realice un tratamiento de datos en cumplimiento de una obligación legal aplicable al responsable del tratamiento, o si es necesario para el cumplimiento de una misión realizada en interés público o en el ejercicio de poderes públicos, el tratamiento debe tener una base legal. Una norma puede ser suficiente como base para varias operaciones de este tratamiento de datos. Se indican como de interés público los fines sanitarios como la salud pública, la protección social y la gestión de los servicios de sanidad, de Derecho privado, como una asociación profesional.

El tratamiento de datos personales también debe considerarse lícito (46) cuando sea necesario para proteger un interés esencial para la vida del interesado o la de otra persona física. Ciertos tipos de tratamiento pueden responder tanto a motivos importantes de interés público como a los intereses vitales del interesado, como por ejemplo cuando el tratamiento es necesario para fines humanitarios, incluido el control de epidemias y su propagación, o en situaciones de emergencia humanitaria, sobre todo en caso de catástrofes naturales o de origen humano.

El tratamiento de datos personales con fines distintos de aquellos para los que hayan sido recogidos inicialmente solo debe permitirse cuando sea compatible con los fines de su recogida inicial (50). Las operaciones de tratamiento ulterior con fines de archivo en interés público, fines de investigación científica e histórica o fines estadísticos deben considerarse operaciones de tratamiento lícitas compatibles. Con objeto de determinar si el fin del tratamiento ulterior es compatible con el fin de la recogida inicial de los datos personales, el responsable del tratamiento, debe tener en cuenta, entre otras cosas, cualquier relación entre estos fines y los fines del tratamiento ulterior previsto, el contexto en el que se recogieron los datos, en particular las expectativas razonables del interesado basadas en su relación con el responsable en cuanto a su uso posterior, la naturaleza de los datos personales, las consecuencias para los interesados del tratamiento ulterior previsto y la existencia de garantías adecuadas tanto en la operación de tratamiento original como en la operación de tratamiento ulterior prevista. Con todo, debe prohibirse esa transmisión en interés legítimo del responsable o el tratamiento ulterior de datos personales si el tratamiento no es compatible con una obligación de secreto legal, profesional o vinculante por otro concepto.

Se autorizan excepciones (52) a la prohibición de tratar categorías especiales de datos personales sin consentimiento expreso cuando exista una base legal y siempre que se den las garantías apropiadas, a fin de proteger datos personales y otros derechos fundamentales, cuando sea en interés público, en particular el tratamiento de datos personales en el ámbito de la legislación laboral, la legislación sobre protección social, incluidas las pensiones y con fines de seguridad, supervisión y alerta sanitaria, la prevención o control de enfermedades transmisibles y otras amenazas graves para la salud. Tal excepción es posible para fines en el ámbito de la salud, incluidas la sanidad pública y la gestión de los servicios de asistencia sanitaria, especialmente con el fin de garantizar la calidad y la rentabilidad de los procedimientos utilizados para resolver las reclamaciones de prestaciones y de servicios en el régimen del seguro de enfermedad, o con fines de archivo en interés público, fines de investigación científica e histórica o fines estadísticos. Debe autorizarse asimismo a título excepcional el tratamiento de dichos datos personales cuando sea necesario para la formulación, el ejercicio o la defensa de reclamaciones, ya sea por un procedimiento judicial o un procedimiento administrativo o extrajudicial.

Las categorías especiales de datos personales que merecen mayor protección únicamente deben tratarse con fines relacionados con la salud (53) cuando sea necesario para lograr dichos fines en beneficio de las personas físicas y de la sociedad en su conjunto, en particular en el contexto de la gestión de los servicios y sistemas sanitarios o de protección social, incluido el tratamiento de esos datos por las autoridades gestoras de la sanidad y las autoridades sanitarias nacionales centrales con fines de control de calidad, gestión de la información y supervisión general nacional y local del sistema sanitario o de protección social, y garantía de la continuidad de la asistencia sanitaria o la protección social y la asistencia sanitaria transfronteriza o fines de seguridad, supervisión y alerta sanitaria, o con fines de archivo en interés público, fines de investigación científica o histórica o fines estadísticos, basados en el Derecho de la Unión o del Estado miembro que ha de cumplir un objetivo de interés público, así como para estudios realizados en interés público en el ámbito de la salud pública. Por tanto, el presente Reglamento debe establecer condiciones armonizadas para el tratamiento de categorías especiales de datos personales relativos a la salud, en relación con necesidades específicas, en particular si el tratamiento de esos datos lo realizan, con fines relacionados con la salud, personas sujetas a la obligación legal de secreto profesional. El Derecho de la Unión o de los Estados miembros debe establecer medidas específicas y adecuadas para proteger los derechos fundamentales y los datos personales de las personas físicas. Los Estados miembros deben estar facultados para mantener o introducir otras condiciones, incluidas limitaciones, con respecto al tratamiento de datos genéticos, datos biométricos o datos relativos a la salud. No obstante, esto no ha de suponer un obstáculo para la libre circulación de datos personales dentro de la Unión cuando tales condiciones se apliquen al tratamiento transfronterizo de esos datos.

El tratamiento de categorías especiales de datos personales, sin el consentimiento del interesado (54), puede ser necesario por razones de interés público en el ámbito de la salud pública. Ese tratamiento debe estar sujeto a medidas adecuadas y específicas a fin de proteger los derechos y libertades de las personas físicas. En ese contexto, «salud pública» debe interpretarse en la definición del Reglamento (CE) n.o 1338/2008 del Parlamento Europeo y del Consejo ( 1 ), es decir, todos los elementos relacionados con la salud, concretamente el estado de salud, con inclusión de la morbilidad y la discapacidad, los determinantes que influyen en dicho estado de salud, las necesidades de asistencia sanitaria, los recursos asignados a la asistencia sanitaria, la puesta a disposición de asistencia sanitaria y el acceso universal a ella, así como los gastos y la financiación de la asistencia sanitaria, y las causas de mortalidad. Este tratamiento de datos relativos a la salud por razones de interés público no debe dar lugar a que terceros, como empresarios, compañías de seguros o entidades bancarias, traten los datos personales con otros fines.

El interesado debe tener derecho a no ser objeto de una decisión, que puede incluir una medida, que evalúe aspectos personales relativos a él, y que se base únicamente en el tratamiento automatizado y produzca efectos jurídicos en él o le afecte significativamente de modo similar, como la denegación automática de una solicitud de crédito en línea o los servicios de contratación en red en los que no medie intervención humana alguna (71). Este tipo de tratamiento incluye la elaboración de perfiles consistente en cualquier forma de tratamiento de los datos personales que evalúe aspectos personales relativos a una persona física, en particular para analizar o predecir aspectos relacionados con el rendimiento en el trabajo, la situación económica, la salud, las preferencias o intereses personales, la fiabilidad o el comportamiento, la situación o los movimientos del interesado, en la medida en que produzca efectos jurídicos en él o le afecte significativamente de modo similar

Combinando información procedente de registros (157), los investigadores pueden obtener nuevos conocimientos de gran valor sobre condiciones médicas extendidas, como las enfermedades cardiovasculares, el cáncer y la depresión. Partiendo de registros, los resultados de las investigaciones pueden ser más sólidos, ya que se basan en una población mayor. Para facilitar la investigación científica, los datos personales pueden tratarse con fines científicos, a reserva de condiciones y garantías adecuadas establecidas en el Derecho de la Unión o de los Estados miembros.

El presente Reglamento también debe aplicarse al tratamiento datos personales que se realice con fines de investigación científica (159). El tratamiento de datos personales con fines de investigación científica debe interpretarse, a efectos del presente Reglamento, de manera amplia, que incluya, por ejemplo, el desarrollo tecnológico y la demostración, la investigación fundamental, la investigación aplicada y la investigación financiada por el sector privado. Además, debe tener en cuenta el objetivo de la Unión establecido en el artículo 179, apartado 1, del TFUE de realizar un espacio europeo de investigación. Entre los fines de investigación científica también se deben incluir los estudios realizados en interés público en el ámbito de la salud pública.

Conexión de bases de datos de salud

datawarehouse saludLa digitalización de los datos relacionada con la salud, ha dado un gran impulso al uso secundario de estos datos con fines distintos a los de prestar atención directa a los pacientes. Este uso secundario incluye el uso de datos de salud para gestión, análisis, investigación, evaluación, calidad, salud pública, facturación, acreditación y certificación entre otros. El uso de estos datos crea nuevas oportunidades y a su vez nuevos desafíos tecnológicos, organizativos, éticos y sociales.

Hay múltiples proyectos para facilitar este uso secundario en sistemas sanitarios de características muy diversa; en esencia se trata de crear bases de datos poblacionales con la información sanitaria relevante y estructurada de cada persona con fines de investigación, gestión o facilitar el que se comparta la información resumida del paciente para facilitar la coordinación asistencial o acceda a la misma por propio paciente.

Algunos de los proyectos son parciales en cuanto al territorio o corresponden a proyectos de investigación en red. Estas son algunas de las iniciativas de ámbito nacional:

En USA, los NIH cuentan con iniciativas como la base de datos clínica para investigaciónconexión de registros en el NCHS que incluye múltiples bases de datos de los NIH.

En Francia, la base de datos SNIIRAM incluye información de la bases de datos de la seguridad social, reembolso de gastos, consumo de fármacos, altas hospitalarias y mortalidad; dada su complejidad, se ha creado una muestra más fácil de manejar con una cohorte de 20 años con los datos de seguridad social de 780.000 personas.

En Inglaterra, tras la experiencia del proyecto cara.data,  las bases de datos centralizadas para uso secundario están gestionadas por NHS Digital.

Los países nórdicos tienen una larga trayectoria en la conexión de registros, experiencia generada básicamente a partir de los registros específicos y los de actividad hospitalaria, a los que partiendo de un identificador común, se han ido conectando con datos de urgencias, consumo de medicamentos, atención primaria, mortalidad y múltiples encuestas y registros.

En cuanto a las soluciones tecnológicas hay distintos planteamientos, entre los que encontramos datawarehouse único, conexión de data mart o incluso registros independientes federados. Igualmente son distintas las estrategias de gobernanza, de accesibilidad y seguridad, las cuales deberán ser equivalentes en los 28 Estados miembros de la Unión Europea el 25 de mayo de 2018 con la entrada en vigor del nuevo  Reglamento General de Protección de Datos (RGPD).

Actualización 07/11/2017 sobre enlace de registros sanitarios y de población:

El proceso de digitalización, los avances en tecnologías de la información y métodos estadísticos han supuesto un gran avance en el uso secundario de datos sanitarios, tanto con finalidad de investigación como de gestión.

La conexión de distintos registros a nivel de cada persona, aumenta de una forma importante las capacidades del análisis de la información, al permitir unir datos de una persona existentes en registros y sistemas de información diversos; esto comporta importantes desafíos éticos, sociales o legales que no vamos a abordar aquí, pues nos centraremos en los aspectos técnicos de la conexión entre registros sanitarios y registros del ámbito de la estadística pública.

El enlace de cada registro individual se puede realizar con métodos determinísticos o probabilísticos. Con los métodos determinísticos el enlace se produce si coinciden plenamente el identificador o un grupo de identificadores entre las bases de datos. Con los métodos probabilísticos se calcula la probabilidad de que dos registros pertenezcan a la misma unidad de identificación, utilizando varias partes de información.

Algunos países cuentan con un identificador único de cada persona desde su nacimiento. Es el caso de Dinamarca con el Civil Personal Register o Suecia con el Personal Identity Number; de esta forma se facilitan los cruces entre los registros sanitarios y los de población. En el registro danés se estima un subregistro del 0.3%, mientras que en el sueco, el subregistro es menor del 0.1% de los nacidos, y la sobreestimación del 0.1% en personas de países nórdicos y del 4-8% de personas de otros orígenes.

En ausencia de un identificador único de propósito general, es importante al menos disponer de un identificador único a efectos sanitarios. Su propia existencia y amplitud de cobertura va a estar condicionado por aspectos legales, y además, por la propia configuración del sistema sanitario de cada país.

En Canadá se dispone de un identificador sanitario único por provincia, el Health Insurance Numbers (HINs). Usando una conexión de registros con una aproximación determinista jerárquica, obtuvieron los mismos resultados de conexión a nivel provincial entre el censo y registro de altas hospitalarias, usando el HIN o la fecha de nacimiento, el sexo y el código postal. El 80% de las altas hospitalarias fueron enlazadas con sus datos censales; los mejores resultados se obtuvieron en las personas de mayor edad y bajos ingresos y los peores en las edades más tempranas.

En Australia, The Population Health Research Network (PHRN) es la infraestructura de conexión de registros, usando el  Medicare number in Australia o la combinación de nombre, dirección postal, fecha de nacimiento y sexo. La conexión probabilística da unos falsos positivos menores del 0.5%.

En el Reino Unido, la conexión de la muestra del Longitudinal Study y el National Health Service Central Register (NHSCR) ha mostrado la calidad de los datos de los registros sanitarios; el 95,7% de la población censada aparecía en el mismo ámbito geográfico que la población de los registros sanitarios, en los que no aparecía el 0,5% de la población censal.

En Francia, están conectadas con un identificador común las bases de datos incluidas en el Système national d’information inter-régimes de l’assurance maladie SNIIR-AM; la conexión con otros ficheros de pacientes debe ser probabilística. Los estudios de validación de conexión de registros sanitarios con poblacionales en USA, muestran cómo es posible la conexión incluso con información incompleta, siendo en estos casos preferible la conexión probabilística que da buenos resultados.

La comparación de ambos métodos de enlace da unos resultados similares, aunque el probabilístico es el más adaptado para su uso general, especialmente si se trata de grandes bases de datos.

Desafios éticos del Big data

Hal-9000-eye

(Este artículo fué publicado inicialmente en el blog El imposible intermedio, un blog de derivas (bio)éticas entre soluciones imposibles y tal vez perfectas a propuestas intermedias y quizás posibles. En ese blog se publican contenidos elaborados por los alumnos del Experto en Bioética de la Escuela Andaluza de Salud Pública)

Tengo miedo… Tengo miedo Dave… Dave… mi cabeza se va. 

Podrían ser las últimas palabras de alguien en su lecho de muerte, pero no, son las palabras del ordenador HAL 9000 de la nave Discovery en su viaje a Júpiter, inmediatamente antes de ….dejar de funcionar.

Estoy hablando de 2001 Una odisea en el espacio, excelentemente analizada en el blog Cine y Psicología, referente en el cine en el que la rebelión de las máquinas adquiere protagonismo. En el año del estreno de la película, 1968, las máquinas no eran sentidas como una amenaza para la humanidad, atemorizada por los efectos de un posible desastre nuclear. Fue precisamente por aquella época cuando se desarrollaron tanto la bioética como la evaluación de tecnologías sanitarias, disciplinas que no tenían entre sus prioridades analizar la efectividad de incorporación de robots en la atención sanitaria o el análisis ético de las decisiones de máquinas como Hal 9000; para ambas disciplinas, algoritmos y máquinas complejas son hoy materia de estudio.

En su momento Hal 9000 era un producto de la ciencia ficción; pero ¿Que sería necesario para que Hal 9000 pudiera ser una realidad?

En principio sería necesario que las máquinas tuviesen capacidad de generar e intercambiar autónomamente datos entre ellas, mediante conexión de internet; es lo que hoy llamamos el internet de las cosas. En segundo lugar, sería necesario el almacenamiento, procesamiento y análisis de grandes volúmenes de datos que analizados con los algoritmos adecuados, nos pudieran ayudar a tomar decisiones; es lo que llamamos big data. En tercer lugar, sería necesario que las máquinas fuesen capaces de percibir lo que ocurre en su entorno y llevar a cabo acciones para maximizar sus posibilidades de éxito en alcanzar su objetivo, tomando decisiones con la información de contexto y los algoritmos que se les suministremos; es lo que llamamos machine learning.

Estos tres elemento son ya una realidad, no una historia de ciencia ficción, y es previsible que tengan un gran impacto en el ámbito sanitario, con especial incidencia en lo relacionado con el pronóstico, el diagnóstico por imagen y anatomía patológica y la precisión en el diagnóstico clínico. Para que el avance tecnológico pueda ser posible, es necesario en estos momentos avanzar en el big data; es preciso conseguir los datos suministrados generosamente ¿? por millones de pacientes, para a partir de ellos, construir algoritmos que hipotéticamente redundarán en beneficio de los propios pacientes. Así pues, cada vez utilizaremos más algoritmos para automatizar decisiones sanitarias, y como alguien ha indicado,  es necesario que sus resoluciones no solo sean correctas, sino también justas.

Las decisiones que se tomen hoy, tendrán consecuencias distintas según los valores morales de los que partamos.Es por ello por lo que surge la necesidad del análisis ético del impacto del big data en todos los ámbitos sociales, y especialmente en el sanitario. Por una parte hay que abordar los desafíos en la prestación de atención a los pacientes que pueden surgir en la gestión de la información de la historia clínica electrónica; pero estos son de pequeño calado en comparación con los derivados del previsible uso de estas bases de datos para generar nuevo conocimiento, generar algoritmos de ayuda a la toma de decisiones y su incorporación a procesos automatizados.

Se han publicado varios documento de interés al respecto. Entre ellos, y no exclusivos,  tenemos el Documento sobre bioética y Big Data de salud: explotación y comercialización de los datos. Este documento del Grupo de Opinión del Observatori de Bioètica i Dret de la Universitat de Barcelona, se elaboró para dar respuesta al proyecto VISC+ (Más Valor a la Información de Salud en Cataluña), y analiza los problemas derivados de: 1) las posibles vulneraciones de los derechos de los ciudadanos y 2) la falta de transparencia y debate público informado, en una cuestión en la que subyace el tráfico de datos personales, reutilizados con fines distintos al tratamiento médico directamente  recibido por el paciente de los usuarios de la sanidad pública. Sus recomendaciones no obstante son más amplias, y abordan desde aspectos culturales, a las limitaciones de la anonimización de los datos, la colaboración público-privado o los procesos de información y debate ciudadano en la toma de decisiones por parte de los poderes públicos.

Otro documento interesante es Perspectives on Big Data, Ethics, and Society  del Council for Big Data Ethics and Society, resume los encuentros y discusiones que este grupo ha llevado a cabo en los dos últimos años. El documento describe los problemas éticos planteados por la agregación de datos biomédicos y su reutilización, en aspectos cómo privacidad, consentimiento informado, profesionalismo, relaciones de poder y gobierno ético de las plataformas Big Data. Establece recomendaciones a nivel político, formativo y de desarrollo de cultura ética, así como líneas de investigación para responder a preguntas concretas.

De gran interés es el Preliminary Draft Report of the International Bioethics Committee of UNESCO  (IBC) on Big data and Health. El informe detalla los desafíos que supone el big data en aspectos como:

  • Autonomía: Los mecanismos tradicionales de consentimiento informado y disociación o anonimización de datos, parecen insuficientes para garantizar la autonomía de las personas.
  • Privacidad y Confidencialidad: Las personas son cada vez más trasparentes, mientras que el entorno tecnológico es cada vez más opaco, especialmente respecto a sus algoritmos.
  • Propiedad de los datos: Una de las cuestiones tratadas en el documento del grupo de la Universidad de Barcelona arriba citado.
  • Justicia: Brecha digital, Beneficios compartidos, No discriminación, Sostenibilidad energética y medioambiental.
  • Investigación: Investigación con datos sanitarios en el ámbito tecnológico, uso de datos sin finalidad comercial en el ámbito universitario que acaban en el sector empresarial, reidentificación de datos anonimizados.

El artículo Are Research Ethics Obsolete In The Era Of Big Data?  tiene un planteamiento diferente a los anteriores, y se pregunta si realmente habrá preocupación ética por los datos en un futuro, en el que las personas crecieron en un mundo digital en el que han compartido su vida. Por otra parte hay que tener presente que ya vamos teniendo resultados concretos en la investigación con big data, en ámbitos como el de las enfermedades raras, los efectos adversos de los medicamentos o la propia investigación clínica o genética; incluso el uso de esta metodología puede afectar al paradigma vigente de evidencia científica. 

Nos encontramos pues ante un desafío, en el que habrá que encontrar un equilibrio entre las bondades de la investigación biomédica con big data y la seguridad y privacidad de las personas.

Dardos o los blog de tu vida

OLYMPUS DIGITAL CAMERACreo que no nos paramos lo suficiente para mirar a nuestro alrededor y dar las gracias o hacer un reconocimiento expreso a las muchas personas que realmente nos hacen aportaciones que nos permiten desarrollarnos como persona. ¿Quien no recuerda a algún colaborador, profesor, amigo etc al que no le dijimos en su momento lo importante que había sido para nosotros?

Todo esto viene a cuento de la gentileza que ha tenido @ozurri de Epi y Mas de concederme uno de los Premios Dardos, por lo que le estoy muy agradecido; él sabe que aprecio mucho el estilo y trayectoria de su blog. Este premio ha tenido en mí un doble efecto: por una parte me halaga que un colega al que tengo en gran estima y reconocimiento profesional considere que este blog se encuentre entre los 15 más interesantes para él (ese es el premio). El otro efecto se ha producido cuando he tenido que de acuerdo con las normas del premio hacer una lista de los blog que me parecen interesantes, lo que me ha llevado a pensar en aquellos blog que contribuyeron a mi desarrollo personal o profesional; el momento de esta reflexión no puede ser más oportuno al encontrarnos en unas buenas fechas para repasar el año y pensar en le futuro.

En cuanto al premio Dardos, no está claro su origen, aunque parece ser en torno a 2009; su ámbito de extensión es España, Italia, Portugal, Brasil aunque también USA y Canadá. Se extiende de forma viral hasta agotar los susceptibles de distintas redes; ha circulado en los ámbitos sanitarios a finales de diciembre de 2013 con mayor actividad en Twitter de una intensivista y un centro de salud, semanas antes se movía por el ámbito de la consultoría en recursos humanos, en el verano en blog personales de belleza etc.

Así pues, haciendo un ainterpretación particular de la iniciativa, esta es una lista de blog que son o han sido importantes para mi y que quedan eximidos de seguir con esta cadena de premios Dardos de pseudo spam entre amigos.

premio-dardos javier garcia leonEn primer lugar citaré a Cinemaldito que es un buen blog de cine, pero además en él escribe mi hijo, aunque su artículo que más me gusta (La batalla de Argel) lo escribió para Cinemadhoc. Un blog sobre tecnologías de la información y pidemiología es Epitic y aunque por ello puede ser interesante, lo es más el que lo hagan los manitas que montaron la BBS con modem de 1.200 bps que sirvió de soporte al desarrollo del SVEA y que me estimularon a que con estas manazas que tengo para la informática me lanzase a crear una página web hace ya muchos. El blog de Jose Antonio Cobeña ha sido una referencia obligada por sus aportaciones conceptuales para el desarrollo de la inteligencia digital y su compromiso con lo público, siendo ya un clásico su referencia navideña a los planos finales de la película Plácido.

El blog de Infonomia me descubrió el mundo de la innovación y ha sido una fuente de inspiración y puesta al día de nuevas tendencias gracias a Alfons Cornella. El blog de Enrique Dans sobre innovación, redes sociales y tecnología y el de Andrea DiMaio sobre redes sociales, innovación y administración pública me dieron ideas para el análisis de estos temas en las administraciones públicas. El interés de Amalio rey es la innovación y creatividad, mientras que a Luis Suarez lo empecé a seguir cuando inició su campaña de sustituir su correo electrónico por las redes sociales.

Referentes del análisis de redes sociales e innovación en las administraciones públicas, a destacar Administraciones en red  de  @alorza y @balapiakaasí como Jesús Martinez Marín en lo referente a  comunidades de prácticas,  Oscar Cortés o Carlos Guadián Orta. De una forma más específica sobre Gobierno Abierto, el blog de  Guzmán Garmendia.

El liderazgo en entornos 2.0 e innovación basada en las personas es la aportación de Virginio Gallardo, temas que comparte Jose Miguel Bolivar además de GTD y productividad personal mientras que  Alfonso Alcántara hace aportaciones para el desarrollo profesional. Pilar Jericó da siempre el lado positivo para mejorar nuestra felicidad.

A todos ellos, muchas gracias.

Datos y Salud Pública

Se ha publicado “CDC’s Vision for Public Health Surveillance in the 21th Century”.  Es el resultado de los debates que han mantenido sobre la vigilancia en salud pública para este siglo, que como viene siendo habitual, será el documento de referencia al menos para las dos próximas décadas con impacto a nivel mundial dado el liderazgo de esa institución.

Uno de los 6 apartados de la publicación se titula “Datos para vigilancia en salud pública: Aspectos legales, políticos, éticos, reguladores, y prácticos”; con respecto a trabajos anteriores, en este se le da más énfasis a los aspectos  éticos y jurídicos que a los tecnológicos. Partiendo del esquema y contenido original, he incorporado reflexiones propias y contenidos adaptados a nuestro medio; en este artículo por tanto están mezclados contenidos del original con aportaciones mias y espero que contribuya al debate que es necesario se abra en nuestro país.

Aunque el informe se refiere a datos para la vigilancia de la salud pública, creo que es ampliable a la salud pública en su conjunto. Estos datos pueden ser recogidos con fines específicos de salud pública o con otros propósitos, recogidos por otros ámbitos de la administración sanitaria u otras administraciones con fines estadísticos  (estadísticas vitales) o administrativos.

Algunos datos se pueden usar sin restricción mientras que otros tienen limitaciones en su uso por motivos de confidencialidad, privacidad o seguridad nacional. Los datos que no tienen identificación de la persona no tienen limitaciones en su uso. Los datos con identificación personal sólo pueden ser compartidos si hay una norma legal que así lo establezca.

El uso de información procedente de varias fuentes nos da una visón más completa que la que nos puede dar una sola, y el uso de datos para fines múltiples es más efectivo que el uso único, lo que muestra la necesidad de colaboración entre distintos organismos para compartir estos datos.

Los datos se comparten entre organismos en función de:

  1. La base legal por la que los datos son recogidos y cedidos.
  2. La disponibilidad de recursos para poner los datos disponibles en un formato adecuado.
  3.  La buena voluntad de sus “propietarios” para que sean usados.

Visión

Todos los datos potencialmente relevantes para la vigilancia en salud pública deben: ser armonizados con modelos de datos definidos, ser interoperables, estar disponibles fácilmente por el máximo número de usuarios, y ser oportunos en el tiempo, garantizándose además el derecho de confidencialidad y cumpliéndose el deber de secreto por quienes acceden a los mismos.

Desafíos

Existen limitaciones legales para compartir ciertos datos a los que en ocasiones se une el temor de sus responsables a que se haga un uso inapropiado de los mismos por desconocimiento legal o técnico. En ocasiones no los comparten por razones políticas o históricas o por temor a perder poder e influencia al compartir unos datos que consideran son muy valiosos.

a) Limitaciones legales, reguladoras, y éticas

Existe un amplio desarrollo legislativo que afecta a los datos usados en salud pública:  Ley Orgánica de Protección de Datos de carácter Personal y su Reglamento, Ley de la Función Estadística Pública, Ley Básica de la Autonomía del Paciente y de Derechos y Obligaciones en Materia de Información y Documentación Clínica, Ley de Cohesión y Calidad del Sistema Nacional de Salud y la propia  Ley General de Salud Pública. A ello hay que añadir el Esquema Nacional de Seguridad y el Esquema Nacional de Interoperabilidad.

Estas normas en términos generales son coherentes con las de países de nuestro entorno, excepto en el derecho de acceso a los datos regidos por la Ley de Régimen Jurídico de las Administraciones Públicas y del Procedimiento Administrativo Común, al carecer de una Ley de Transparencia, cuya aprobación es posible que tenga un  importante impacto en salud pública.

Además de las limitaciones legales es preciso tener en cuenta consideraciones de tipo ético; un bien común como la salud de la población puede entrar en conflicto con derechos individuales y colectivos, lo que nos lleva a un proceso de deliberación. Este debate tiene ciertas particularidades en el ámbito de la salud pública respecto al ámbito asistencial, pues al desarrollarse la salud pública fundamentalmente en el ámbito público, este debate está mas próximo a la ética en la administración pública que a la bioética. Además, la intimidad y el bien común se ven de forma distinta según se trate de investigación en salud pública o de toma de decisiones por ejemplo en crisis en salud pública. Los investigadores han mostrado su inquietud por las crecientes restricciones en el uso de datos de carácter personal, pero deben de entender los elementos que forman parte del debate para encontrar soluciones legal y éticamente aceptables, entre las que la agregación de datos no puede ser la única alternativa.

El debate y difusión de guías éticas en el tratamiento de los datos de salud pública es un buen camino, así como el estudio de caos en los que se solucionan los conflictos; es el caso de respuesta institucional al cruce de registros en Suecia o el acceso a datos estadísticos protegidos para un estudio concreto en Bélgica y otros países europeos.

 b) Barreras administrativas

Las barreras son distintas según sea el usuario de estos datos (ciudadanos, desarrolladores de aplicaciones, profesionales de salud pública, investigadores etc.). Las hay por motivos de seguridad, formato, requisitos de programas propietarios, disponibilidad de recursos necesarios para la difusión,  etc, pero una barrera importante es la cultural: sentimiento de “propiedad” de los datos.

Aunque se suelen tener en cuanta los recursos necesarios para la captura, depuración y análisis de datos, no lo son tanto los necesarios para ponerlos a disposición de los usuarios, sobretodo si no está reconocido el derecho de acceso o la transparencia no es una prioridad para la organización. Se espera que el movimiento open data y sus estándares  tenga un impacto importante en la disponibilidad y uso de los datos de salud pública.

La depuración de los datos y por tanto su calidad tiene costes que además afectan a la oportunidad de los mismos; en ocasiones son esgrimidos como excusa para su difusión y uso. Su importancia es distinta según sus usos: mientras que para la toma de decisiones rápidas prima la oportunidad con respecto a la depuración de datos,  para las actuaciones no tan inmediatas la depuración es más laboriosa y el intervalo para disponer de los mismos es mayor. En las políticas de opendata hay igualmente dos planteamientos: algunos gobiernos liberan gran cantidad de datos aunque no estén depurados (son sus usuarios los que harán este trabajo) mientras que otros liberan menos datos paro más depurados; lo fundamental es que los metadatos estén debidamente informados y contengan la información pertinente en cuanto a la calidad.

Otro aspecto importante a tener en cuenta es la necesidad de que las organizaciones sean capaces de establecer acuerdos y alianzas con otras organizaciones para un uso compartido de los datos. Los convenios para el tratamiento de los datos de defunciones son un antecedente importante en España y la disponibilidad de Unidades Estadísticas una oportunidad en la que es preciso  avanzar.

c) Incompatibilidad de los datos.

Pueden surgir dificultades al compartir los datos por incompatibilidad de códigos, formatos, definiciones y métodos de obtención o almacenamiento. Es por ello por lo que es preciso garantizar la interoperabilidad cuya dificultad aumenta desde la técnica  a la semántica u organizativa.

La interoperabilidad implica dedicar recursos para transformar los datos o documentar los metadatos, que indiquen por ejemplo los cambios que pueden afectar al análisis de series temporales.

d) Guías de uso

Las normas aplicables a las tecnologías para el tratamiento de datos están más desarrolladas que los requisitos funcionales y organizativos de los mismos. Hay aportaciones muy interesantes que revisan los aspectos normativos en España, pero es preciso avanzar en el desarrollo de guías; el documento CDC/ATSDR Policy on Releasing and Sharing Data es una referencia interesante, pero necesitamos guías propias así como documentos que resuman las normas y procedimientos específicos en el ámbito de la salud pública del tipo del elaborado por los CDC para el cumplimiento del la Freedom of Information Act (FOIA).

Oportunidades.

A pesar de las limitaciones señaladas, los servicios de salud pública comparten datos tanto propios como de otros organismos, gracias a procedimientos como: 1) eliminando los datos identificativos de forma reversible o irreversible, 2) agrupando los datos de forma que cumplen los requisitos de intimidad y 3) estableciendo acuerdos entre organismos para el tratamiento de los datos.

En España es habitual la eliminación de datos de carácter personal y la agrupación de datos, siendo el ámbito de acuerdos y alianzas por el que a mi juicio es preciso avanzar; la experiencia de colaboración entre los servicios de salud pública y el sistema estadístico público es desigual, pero sin duda el camino por el que hay que avanzar. Las propias dificultades económicas están propiciando que los órganos estadísticos tiendan al cruce de información con los registros administrativos para hacer más eficiente la obtención de la información. El artículo cita a acuerdos en USA sobre el acceso a estadísticas vitales, cruce de registros de estadísticas vitales y encuestas de salud, encuestas de usos múltiples, etc

Otra aspecto de la colaboración institucional sería el llegar a acuerdos para que en aquellas situaciones en las que es preciso dar consentimiento para el uso de la información, se incluya el consentimiento para su uso en salud pública.

Parte de los datos utilizados en salud pública parten ya de estándares desde su recogida, pero es preciso definir unos estándares para los formatos de los datos, sus atributos, códigos y sus métodos. Especial atención habrá que tener respecto a la interoperabilidad semántica (SNOMED) y organizativa.

Conclusión.

Me ha gustado que el artículo concluya con un fragmento del CDC/ATSDR Policy on Releasing and Sharing Data:

“El CDC cree que la salud pública y el avance científico avanzan más cuando los datos son distribuidos o compartidos con otros organismos de salud pública, investigadores académicos o privados de una forma abierta, oportuna y adecuada. El interés público, que incluye la difusión oportuna de la información para su análisis adicional,  es superior al que los científicos puedan tener sobre la propiedad de los datos adquiridos o generados con fondos federales. Estos datos son de hecho propiedad del gobierno federal y por tanto pertenecen a los ciudadanos de los Estados Unidos”.

Big Data, su interés en salud.

En un artículo reciente hacía referencia al creciente interés de “analista de datos” como profesión y el “análisis de datos” como competencia profesional. Hay un ámbito de desarrollo de esta profesión o competencia que podríamos considerar artesanal o de pequeñas dimensiones, mientras que otro lo encontraríamos en el “Big data”.

El término Big data fué acuñado hace 10 años y se aplica a aquellos conjuntos de datos que por su tamaño no se pueden captura, gestionar o procesar en un tiempo adecuado con los programas de cálculo habituales; el tamaño que determina este límite aumenta con el tiempo. Es la evolución del Business intelligence y como suele ocurrir siempre, no es una cuestión sólo de tecnologías sino también de la colaboración entre profesionales de distintos perfiles y de una estrategia definida de la organización.

Al aumento en el volumen de datos de interés para las organizaciones contribuyen los datos estructurados gestionados internamente por las organizaciones, a los que hay que añadir el gran volumen de datos generados en las redes sociales, los datos multimedia y otros no estructurados tanto en formato texto o alfanumérico así como los datos obtenidos mediante lo que se ha llamado “el Internet de las cosas”.

Las dimensiones que definen el Big data son:

1.        Volumen.  Incremento en el volumen de datos generados por los sistemas transascionales así como gestores documentales o fuentes externas, lo que brinda nuevas capacidades analíticas.

2.        Variedad. Información alfanumérica normalizada o no, estructurada o no, multimedia, texto, datos de dispositivos móviles etc.

3.        Velocidad. Incluye el flujo de datos, la creación de registros estructurados y su disponibilidad.

El Hipo Cicle de Gartner indicaba en 2011 que el Big data se encontraba entre las tecnologías que estaban generando mayores expectativas, con las primeras generaciones de productos en el mercado pero que todavía necesitan mucha personalización; se espera que entre 2013 y 2016 se extenderá su uso hasta el 20-30% de las organizaciones susceptibles de incorporar estas herramientas y que tendrán un gran impacto en el funcionamiento y toma de decisiones en estas organizaciones.

En el sector sanitario oiremos igualmente hablar de este término, pues fué un tema importante en la conferencia anual 2012 de  Healthcare Information and Management Systems Society (HIMSS); los principales proveedores de tecnologías están desarrollando productos para el ámbito sanitario.

Suscribo la opinión de quienes dicen que el análisis actual de los datos sanitarios es insuficiente, aunque van surgiendo iniciativas de explotación de la historia de salud digital, teniendo por delante un camino que se plantea complicado por el formato de la información (estructurada o no estructurada), problemas de normalización, calidad y un aspecto que no hay que olvidar: tendremos grandes volúmenes de datos pero eso no evita que estos tengan sesgos que limiten el análisis.

El proyecto de “Base de datos clínicos de atención primaria” del Sistema Nacional de Salud es una buena iniciativa al respecto, aunque tiene todavía un largo camino que recorrer.