Interés privado en la investigación con datos de salud.

La digitaP_20190418_141737lización de los servicios sanitarios está generando un volumen de datos sin precedentes, tanto para la atención sanitaria como para su uso secundario. Este uso secundario ha despertado un gran interés en empresas sanitarias y tecnológicas, ante la posibilidad de desarrollar, mediante inteligencia artificial, nuevos medicamentos, dispositivos sanitarios y algoritmos de toma de decisiones, de gran impacto económico. Hay que destacar que el sector salud es prioritario en las estrategias gubernamentales de inteligencia artificial, para cuya ejecución se necesitan grandes volúmenes de datos.

El tratamiento de estos grandes volúmenes de datos plantea desafíos tecnológicos, metodológicos, organizativos, de seguridad, calidad y disponibilidad de los mismos; no obstante, se considera que los mayores retos son los éticos y de gobernanza. Tal es así, que la consultora Gartner incluyó la “Ética digital y privacidad” entre las 10 tendencias tecnológicos estratégicas para 2019 al mismo nivel, por ejemplo, que la “Computación cuántica”.

Hay que tener en cuenta que cuestionamientos éticos han abortado iniciativas gubernamentales como Care data del National Health Service (NHS) o el VISC+ en Cataluña, o incluso iniciativas de open data como la historia clínica electrónica en Australia o el CMBD en la Comunidad de Madrid (por problemas de posible reidentificación de datos anónimos). Por otra parte, el interés de las grandes corporaciones (Google, Microsoft, Amazon, Facebook y Alibaba) por los datos de salud está cada vez más cuestionado, con varios procesos judiciales en marcha; este interés se ha concretado en proyectos de colaboración tanto con centros privados, como con centros y servicios públicos de salud.

Los retos éticos y de privacidad que plantea el uso de datos masivos parecen ser mayores en su uso secundario en investigación (aunque es un uso legítimo) que, en su uso secundario en salud pública, planificación, evaluación o gestión. La investigación clínica sigue unos procedimientos muy consolidados, garantizándose la autonomía de las personas mediante el consentimiento informado. Igualmente ocurre, hasta ahora, en la investigación a partir de bases de datos, en la que no se solicita el consentimiento informado a cada una de las personas participantes, pero sus derechos están garantizados mediante procesos de anonimización de datos con los que no es posible la identificación de las personas.

El escenario de la investigación en salud a partir de bases de datos ha cambiado radicalmente con el big data:

  • Ha caído el paradigma de la anonimización, pues con la metodología y datos adecuados, es posible la reidentificación de personas en bases de datos en principio anonimizadas. Además, se ha diluido la frontera de lo que son datos de salud, dado que estos se pueden inferir a partir de otros que no lo son.
  • Los datos sanitarios (estructurados y no estructurados) han adquirido una magnitud y complejidad sin precedentes.
  • Su tratamiento requiere grandes infraestructuras y desarrollos metodológicos, que están concentrados en unas pocas grandes corporaciones; ellas y no los gobiernos o instituciones son las que poseen el conocimiento. Es en esas grandes corporaciones en las que se concentran la mayoría de los científicos de datos.
  • Consecuencia de lo anterior, muchas iniciativas se basan en colaboración publico/privada.
  • El desarrollo de la inteligencia artificial ofrece unas posibilidades antes impensables, y puede ayudar a la investigación sanitaria, pero el espectro de sus efectos no es del todo conocido, lo que genera incertidumbre.
  • El interés y beneficio económico de los datos no tienen precedente y las posibilidades de tomar decisiones sobre las personas y predecir e influir en sus conductas, son reales.
  • La gobernanza de los datos es cada vez más compleja, asimilándose a la gobernanza de la propia organización, con el agravante de que en ocasiones el mayor conocimiento de los propios datos está fuera de la organización.

Las expectativas sobre la aportación de soluciones del big data para mejorar la salud de la población y la gestión adecuada de los servicios sanitarios eran tan elevadas, que en un principio no se valoró suficientemente que se podría lesionar el principio de beneficencia. Igualmente, hasta fechas recientes no se ha empezado a tomar conciencia de las posibles lesiones al principio de maleficencia, en la medida en la que se han ido conociendo los sesgos de las aplicaciones de inteligencia artificial. Esto llevará a un mayor interés por la trasparencia acerca de cómo funcionan los algoritmos.

Hasta ahora los mayores debates se están produciendo en torno a la privacidad, en un escenario en el que por una parte los gobiernos fomentan el uso secundario de los datos sanitarios anonimizados gestionados por las administraciones públicas (iniciativas de open data), mientras que, como se ha indicado, por otra parte sabemos que la anonimización no garantiza la privacidad. En los primeros proyectos que las empresas desarrollaron con los servicios sanitarios, solicitaban copias completas de las bases de datos (anonimizadas); hoy sabemos que estas peticiones son incompatibles con el principio de minimización de datos del RGPD. Existen alternativas que permiten el análisis de los datos sin que estos salgan de su entorno natural (en nuestro caso el sanitario); entre estas alternativas nos encontramos con las bases de datos federadas, en las que los datos no salen de su entorno natural aplicando sobre ellos los cálculos, saliendo del sistema los resultados, pero no los datos originales. Igualmente, a partir de machine learning, se ha propuesto la generación y utilización de pacientes simulados generados a partir de datos de pacientes reales; otro enfoque es la creación de isopacientes tipo. En otros ámbitos igualmente sensibilizados con la privacidad como son los órganos estadísticos, están buscando nuevas fórmulas que compatibilicen la difusión de datos con garantías de privacidad.

Así pues, existen metodologías que previsiblemente permitirán la utilización de datos sanitarios en investigación garantizando la privacidad de los pacientes. Pero aun así persistirán otros problemas a mi juicio no suficientemente tratados, relacionados con el principio de justicia, en particular el tratamiento de datos de servicios públicos de salud en investigación sanitaria por parte de empresas farmacéuticas y tecnológicas.

El Reglamento General de Protección de Datos (RGPD) no introduce modificaciones substanciales en cuanto a la posibilidad de tratar estos datos en investigación; se permite su uso secundario en determinadas circunstancias sin solicitar consentimiento informado de la persona interesada, pero con unos principios y requisitos definidos, con un tratamiento de los datos proporcional al objetivo perseguido, respetando en lo esencial el derecho a la protección de datos y estableciendo medidas adecuadas y específicas para proteger los intereses y derechos fundamentales de las personas.

En la práctica, esto se resume en que haya un protocolo de investigación y una evaluación de impacto en protección de datos, que cuenten con un dictamen positivo de un comité de ética de investigación, obedezcan al interés público y que los responsables del proyecto estén en condiciones de cumplir y poder demostrar que están cumpliendo el RGPD. La investigación que se realiza en centros públicos y con financiación pública no es previsible que plantee problemas en cuanto a la decisión de autorizar este tipo de tratamiento de datos, al ser investigación que responde al interés público.

Los problemas se plantean en el tratamiento de estos datos en la investigación, innovación, desarrollo etc de ámbito, financiación o colaboración privados pues, aunque estuvieran garantizada la privacidad con los métodos arriba indicados, seguirían presentándose posibles daños colectivos que afectan al principio de justicia. La población es favorable a que sus datos sean usados en la investigación sanitaria, pero es reticente a su uso por parte de la industria.

Surgen así preguntas del tipo:

  • ¿Puede un organismo público transferir datos para investigación a entidades con finalidad lucrativa?
  • Puede una investigación de o para una entidad privada, ser de interés general? ¿En qué condiciones?
  • ¿Hasta qué punto la fabricación de un fármaco contribuye al bien común o al bien económico de la industria?
  • ¿Puedo vender mis datos sanitarios? (son parte de mi persona, como un órgano). ¿Y una institución pública?
  • ¿Puede haber acuerdos justos entre algunas corporaciones y los organismos públicos dada la asimetría tecnológica a favor de las corporaciones?
  • ¿Pueden los servicios públicos de salud ceder o vender datos se salud a compañías que van a generar un producto o servicios que posteriormente vendan o alquilen a esos servicios públicos o a las personas que contribuyeron a su desarrollo cediendo altruista y anónimamente sus datos? ¿En qué condiciones?
  • ¿Pueden los servicios públicos de salud ceder o vender datos se salud a compañías cuyo objeto principal es el tecnológico y no el sanitario? ¿Dónde está el límite del interés sanitario y el tecnológico? ¿Qué implicaciones regulatorias tiene?

Vivimos una situación en la que no hay una respuesta fácil a estas preguntas y que exige un análisis desde el principio de justicia, valorando la equidad en la distribución de cargas y beneficios.  Además, es preciso no olvidar que:

  • El proceso ha de ser transparente.
  • Debe de haber una participación informada de la sociedad en este debate.
  • El objetivo de la investigación debe ser relevante para la comunidad de la que proceden los datos.
  • Los resultados del tratamiento de datos deben revertir en las personas o instituciones que los han aportado.
  • Los intereses de las personas e instituciones públicas que comparten sus datos deben de estar por encima de los intereses de la industria.
  • Las instituciones pueden estar en una situación de vulnerabilidad respecto a las grandes corporaciones.
  • Posible sesgo de los algoritmos desarrollados con datos de otro contexto al aplicarlos a nuestro medio.

(Una versión previa debeste documento fué presentada en las Jornadas GRX Health Data. EASP. 14Noviembre 2.019) 

Salud e Inteligencia Artificial

AI IA health saludEl software como dispositivo medico ha tomado un interés creciente en los últimos años; supone nuevos desafíos en cuanto a armonización y regulación, que son abordados por el International Medical Device Regulators Forum (IMDRF), establecido en el año 2011. Tanto la Unión Europea (Mercado Interior, Industria, Emprendimiento y Pymes) como EEUU (FDA) son elementos activos de este foro, del que la OMS es observador.  A destacar que el órgano competente en la materia en la UE depende del Comisario responsable del mercado interior e industria, mientras que en EEUU depende del  Department of Health and Human Services.

En la Unión Europea, el Reglamento (UE) 2017/745 sobre productos sanitarios, incluye los “Sistemas electrónicos programables”, productos que llevan incorporados sistemas electrónicos programables, o programas informáticos que constituyan productos por sí mismos.

La FDA por su parte, es el organismo regulador del Software as a Medical Device (SaMD), y cuenta con normas específicas para su evaluación: Software as a Medical Device (SAMD): Clinical Evaluation. La FDA hace una evaluación de riesgos en estos productos similar a la del resto, basada en: significación de la información dada por el dispositivo para la decisión clínica, y la situación clínica en la que se aplica.

Estos algoritmos usan una función fija, por lo que el dispositivo es un producto cerrado y por tanto no modificado con su propio uso; la FDA tiene indicaciones acerca de cuándo las modificaciones del producto le han de ser notificadas.

El marco regulador no fue diseñado para las tecnologías de inteligencia artificial / máquinas que aprenden (en lo sucesivo IA), en las que los algoritmos no están bloqueados, y tienen capacidad de “aprender” continuamente de la experiencia de uso, con datos del mundo real, experimentando por tanto modificaciones después de su distribución. Por ello la FDA ha publicado la Proposed Regulatory Framework for Modifications to Artificial Intelligence/Machine Learning (AI/ML)-Based Software as a Medical Device (SaMD) – Discussion Paper and Request for Feedback. Abre el debate sobre una proposición regulatoria de los dispositivos a la largo de su ciclo de vida.

Lejos de un planteamiento futurista, se trata de responder a investigaciones de big data, que no dejan de ser un paso necesario e instrumental en las estrategias generales de inteligencia artificial, en un contexto en el que será difícil establecer la diferencia entre los proyectos de desarrollo de los de atención a pacientes.

(Lo que sigue a continuación está tomado de una revisión). En el sector salud, hay iniciativas de proyectos de inteligencia artificial en el ámbito de la investigación en cribados, diagnóstico y pronóstico, generalmente en el ámbito de un hospital concreto, lo que da problemas de reproductibilidad y generalización. No obstante, los avances son muy rápidos.

Para los más optimistas, la IA ayudará a resolver los grandes desafíos de los sistemas de salud; no obstante hay que ser conscientes que la irrupción de nuevas tecnologías y procesos automatizados, siempre va acompañada de tensiones derivadas de su impacto en las personas e interacción persona-máquina. Para suavizar estas tensiones es preciso crear contextos receptivos para la adopción y difusión de las nuevas tecnologías.

En el caso de la IA en salud, este contexto necesita, entre otras cosas, disponer de datos adecuados, una regulación que lo permita, garantías legales y salvaguarda de los derechos ciudadanos, rendición de cuentas y gestión adecuada del cambio.

En cuanto a los datos, son relevantes temas como interoperabilidad, sus sesgos, o la confianza de las personas para compartir sus datos personales. En cuanto a las relaciones con la industria tecnológica se presentan situaciones nuevas en cuanto al necesario acceso a los datos para generar algoritmos, la propiedad industrial, el dato de salud como bien público, y los nuevos tipos de relaciones contractuales.

Los sistemas de IA se comportan como una caja negra, siendo difícil entender y explicar su funcionamiento interno; esto tiene implicaciones al hacer efectivo el derecho europeo a solicitar una explicación de una decisión tomada mediante procesos automáticos. Se apunta que la rendición de cuentas será diferente en función del tipo de problema que es resuelto por los sistemas de IA.

La superior eficiencia del sistema de IA no es el único elemento a considerar para su implantación; su impacto en otros procesos y la organización en conjunto, tienen especial relevancia.

De lo anterior se deduce que la dimensión ética de la irrupción de estas tecnologías es importante. Vamos teniendo referencias importantes al respecto: la Unión Europea ha desarrollado Ethics guidelines for trustworthy AI, y específico para salud, el Hastings Center ha publicado How Bioethics Can Shape Artificial Intelligence and Machine Learning.

Todo un campo dentro de la ética digital.

 

Ética, investigación, bases de datos

rgpd salud etica big dataEl Reglamento General de Protección de Datos (RGPD) y el Proyecto de Ley Orgánica de Protección de Datos, no solo mantienen inalterado el régimen contenido en la normativa reguladora de la investigación biomédica, sino que permiten realizar una interpretación más flexible del alcance que puede darse al consentimiento en el tratamiento de datos, tal como ha expresado la Agencia Española de Protección de Datos (AEPD).

A pesar de ello, el RGPD tiene un gran impacto en la investigación en salud realizada con bases de datos. El RGPD presta especial atención al “big data” aunque no lo nombra expresamente; sí nombra la investigación a partir de registros: Combinando información procedente de registros, los investigadores pueden obtener nuevos conocimientos ….. (Los registros).. proporcionan conocimientos sólidos y de alta calidad que pueden servir de base para la concepción y ejecución de políticas basada en el conocimiento, mejorar la calidad de vida de numerosas personas y mejorar la eficiencia de los servicios sociales. Para facilitar la investigación científica, los datos personales pueden tratarse con fines científicos, a reserva de condiciones y garantías adecuadas establecidas en el Derecho de la Unión o de los Estados miembros.

A continuación se apuntan algunas notas, derivadas del RGPD y no exhaustivas, acerca de la investigación en salud a partir de bases de datos; pueden ser de interés tanto para los responsables de los datos susceptibles de ser utilizados en investigación, como para los investigadores o los comités de ética de la investigación (CEI):

Alcance del RGPD

Como Reglamento, no necesita transposición, y por tanto es de aplicación común a todo el Espacio Europeo de Investigación. A efectos prácticos, si en un proyecto multinacional los reguladores nacionales tuviesen criterios distintos para autorizar o no el tratamiento de unos datos (ejemplo condiciones de acceso a datos clínicos), sería el Supervisor Europeo de Protección de Datos quien debería pronunciarse al respecto.

El tratamiento de datos personales con fines de investigación científica incluye los estudios realizados en interés público en el ámbito de la salud pública, y es interpretado de manera amplia, incluyendo a modo de ejemplo:

  • el desarrollo tecnológico y la demostración.
  • la investigación fundamental.
  • la investigación aplicada.
  • la investigación financiada por el sector privado.

Es preciso no olvidar la distinta intención en el tratamiento de datos con fines de investigación sanitaria (generar conocimiento) o de calidad o gestión (evaluación y organización de recursos). Igualmente en el ámbito del big data pueden surgir dudas al diferenciar el tratamiento de datos con fines a la investigación o comercial.

Los “datos relativos a la salud” son definidos como datos personales relativos a la salud física o mental de una persona física, incluida la prestación de servicios de atención sanitaria, que revelen información sobre su estado de salud.

El Reglamento afecta a los datos personales y a los datos seudonimizados.

Son “datos personales”: toda información sobre una persona física identificada o identificable (“el interesado”); se considerará persona física identificable toda persona cuya identidad pueda determinarse, directa o indirectamente, en particular mediante un identificador, como por ejemplo un nombre, un número de identificación, datos de localización, un identificador en línea o uno o varios elementos propios de la identidad física, fisiológica, genética, psíquica, económica, cultural o social de dicha persona.

Se denomina “seudonimización”: el tratamiento de datos personales de manera tal que ya no puedan atribuirse a un interesado sin utilizar información adicional, siempre que dicha información adicional figure por separado y esté sujeta a medidas técnicas y organizativas destinadas a garantizar que los datos personales no se atribuyan a una persona física identificada o identificable.

Los paradigmas tradicionales en los que se sustentaba la privacidad, anonimización de datos y consentimiento informado, no son las principales garantías en las que se sustenta la privacidad en estos proyectos. Cobra mayor relevancia la transparencia de la información que la obsesión por el consentimiento informado, (tenemos ya la experiencia negativa, tras entrar en vigor el RGPD, del otorgamiento del consentimiento en el acceso a plataformas y dispositivos móviles).

Los principios de protección de datos no deben aplicarse a la información anónima (inclusive con fines estadísticos o de investigación), es decir, información que no guarda relación con una persona física identificada o identificable, ni a los datos convertidos en anónimos de forma que el interesado no sea identificable, o deje de serlo. A pesar de ello, con métodos adecuados, la tecnología ha permitido reidentificar grandes bases de datos sanitarios anonimizados, y la AEPD ha reconocido que no es posible considerar que los procesos de anonimización garanticen al 100% la no reidentificación de las personas; incluso con buenas prácticas en la anonimización. En consecuencia, los CEI deberían valorar tanto los proyectos con datos personales o seudonimizdos, como con datos anonimizados.

Principios

Los investigadores han de tener en cuenta los siguientes principios:principios proteccion de datos

A estos principios hay que añadir la no discriminación de las personas, y la responsabilidad proactiva del responsable de la investigación.

El responsable de la investigación es igualmente responsable de que se contemplen los principios de protección de datos desde el diseño y por defecto, estableciendo las medidas técnicas y organizativas adecuadas.

Comités de ética de la investigación (CEI)

Los CEI tienen el reto de adaptar sus procedimientos para evaluar proyectos a partir de bases de datos, teniendo en cuenta el desarrollo digital en general y el RGPD en particular. Cada día se presentarán más situaciones en las que las respuestas estarán más en los planos deliberativos que en los legislativos.

Es preciso hacer un seguimiento de los proyectos de investigación en marcha, para garantizar que estos se ejecutan de acuerdo a su protocolo, priorizando aquellos con mayor impacto en la protección de datos y los que manejan muestras biológicas.

Sería conveniente disponer de guías específicas para la evaluación de este tipo de proyectos.

Mientras tanto, se pueden tener en cuenta algunas consideraciones que los investigadores han de tener en cuenta al elaborar protocolos de investigación para este tipo de proyectos.

Riesgos éticos en el tratamiento de datos

Entre estos se han descrito, la omisión deliberada de datos, la visualización engañosa, los sesgos, desconocimiento del origen de los datos, deficiencias en su calidad y la de sus metadatos, no trazabilidad, y anonimización insuficiente.

Protocolo

Aunque parezca obvio, hay que partir siempre de un protocolo de investigación (no sólo cuando se presenta a financiación externa) evaluado por un CEI, que permita valorar que tiene una sólida base científica y que salvaguarda los derechos de las personas involucradas.

En su evaluación, las primeras dificultades pueden surgir al diferenciar los proyectos de evaluación o gestión de los de investigación; puede ser igualmente difícil diferenciar los proyectos académicos de los comerciales (estos últimos tienen limitaciones en el tratamiento de ciertos datos).

La metodología de la investigación en “big data” tendente a la identificación de patrones a partir de grandes volúmenes de datos, presenta características especiales que habrá que tener en cuenta. Esta naturaleza libre de hipótesis de (algunos) estudios de big data, hace que sea más difícil aplicar mecanismos epistemológicos convencionales.

Equipo investigador

El investigador principal es el responsable del cumplimiento del RGPD, y además, estar en condiciones de demostrar que este se cumple. Entre sus obligaciones estaría la de comunicar las brechas de seguridad al Delegado de Protección de Datos de su institución.

Se sugiere la participación o asesoramiento de profesionales con competencias en big data y protección de datos, con un grado de implicación acorde al alcance del proyecto.

Es preciso la aceptación expresa de las normas de confidencialidad por todos los integrantes del equipo.

Hay que incluir la identificación y contacto de:

  • Delegado de Protección de Datos del centro donde se realizará la investigación.
  • Responsable y encargado del tratamiento de los datos.
  • Personas que tendrán acceso a los datos.

Licitud

Es preciso indicar la base normativa en la que se indique que es lícito usar esos datos para investigación. El proyecto ha de justificar el tratamiento de categorías especiales de datos personales. Igualmente, es preciso indicar el fundamento por el que se pueden usar esos datos para investigación sin el consentimiento informado de las personas interesadas.

Debe estar documentada la autorización del responsable de los datos para el uso de los mismos en ese proyecto de investigación, con especificación de los datos concretos a tratar.

Limitación

Compromiso de usar los datos exclusivamente con los fines de ese proyecto (o proyectos derivados compatibles, en cuyo caso ha de ser informado el responsable de los datos), quedando prohibido un tratamiento distinto al establecido en el protocolo.

En el caso de que se elaboren perfiles:

  • Indicar las bases legales por las que se pueden elaborar.
  • Mecanismos contemplados para evitar la discriminación de grupos o personas en cuanto a sexo, nivel cultural o económico etc.
  • No decisiones automáticas sobre personas sin supervisión humana.

Minimización

Debe justificarse que todos los datos tratados son necesarios para alcanzar los objetivos de investigación, no utilizando datos que no tengan que ver con los objetivos.

Igualmente, debe justificarse que para alcanzar los objetivos, sea necesario: usar datos personales en lugar de seudonimizados, o datos seudonimizados en lugar de anónimos (y las escalas intermedias entre estas categorías).

Exactitud

Se deberán incluir el análisis de calidad de los datos y las medidas a tomar para evitar sesgos.

Conservación

Compromiso de que la identificación de los interesados no será mantenida más allá del tiempo necesario para los fines del tratamiento de los datos personales.

Indicar el periodo de almacenamiento y las personas que tendrán acceso a los datos, en cada uno de sus estadíos (personales, seudonimizados, anónimos etc).

Discriminación

Indificar cómo se trata de evitar en el proyecto que haya discriminación de las personas o los grupos, en función del sexo, clase social, nivel de estudios etc

Seguridad

Especificar las medidas técnicas y organizativas que se tendrán en cuenta para garantizar la seguridad de los datos.

Evaluación de Impacto en la Protección de Datos Personales:

Aunque de una forma no tan exhaustiva como la contemplada en  la Guía práctica para las Evaluaciones de Impacto en la Protección de los datos sujetas al RGPD, debe evaluarse el impacto del proyecto en la protección de datos.

Medidas para evitar daños y salvaguarda de los derechos de los participantes.

Privacidad por defecto y por diseño: Detalles de las medidas técnicas y organizativas para evitar los daños y se salvaguardarán los derechos de los participantes de la investigación.

Indicar cómo pueden ejercer sus derechos (acceso, portabilidad, rechazo al tratamiento de datos…)

Infraestructura tecnológica

Indicar los equipos en los que se realizarán los tratamientos (serán dentro de instituciones sanitarias).

Indicar las normas de seguridad, accesos y su registro etc.

Datos

Especificar su procedencia y detalle de las variables incluidas. Especial consideración si proceden o se destinan fuera de la Unión Europea.

Especificar las medidas tomadas para velar por calidad, integridad y seguridad de los datos y permitir su segura transmisión, linkage y almacenamiento.

Detalles de las operaciones de procesamiento de datos.

Detalles de las técnicas de anonimización / pseudonimización. Los responsables de la anonimización y el análisis han de ser distintos.

Detalles de los métodos utilizados para elaborar perfiles y las medidas para evitar que los algoritmos discriminen o creen brechas de seguridad en la privacidad de las personas.

Detalles sobre los procedimientos para informar a los participantes de la investigación sobre el perfil, y sus posibles consecuencias y las medidas de protección.

¿Tienen futuro los Data Warehouse?

P_20180930_201743El proceso de digitalización generó en las organizaciones una cantidad de datos antes impensable. Han proliferado los sistemas de información, y con ellos los silos independientes de datos, con un análisis limitado de los mismos, y uso centrado en los aspectos puramente operacionales, no generando el valor que pudieran producir. Un caso paradigmático en este sentido en el sector sanitario, ha sido la historia clínica electrónica.

Con la finalidad de tener acceso a los datos de forma rápida, sin duplicidades y sin inconsistencias, surgieron hace casi tres décadas los almacenes corporativos de datos centralizados (Data Warehouse, DW).

Para muchas organizaciones, disponer de un Data Warehouse corporativo sigue siendo una quimera, pues a pesar de las expectativas, los procesos de extracción, transformación y carga de datos (ETL) desde los sistemas operacionales son caros, complejos y lentos, eternizándose los proyectos; incluso en caso de finalizarlos, hay que rehacerlos al cambiar la disponibilidad y necesidades de datos.

Aun así, son sistemas de reporting robustos y estables, que mediante tablas predefinidas, responden a preguntas conocidas y repetitivas, hechas a datos conocidos, bien estructurados y consolidados periódicamente. Los usuarios básicos se cuentan por miles en las organizaciones grandes, son usuarios ocasionales que no requieren conocimientos especiales de análisis de datos; los usuarios avanzados, en pequeño número, tienen mayores posibilidades de tratamiento de datos y suministran datos a otros usuarios, pero los análisis en profundidad deben hacerse desde fuera del sistema; en definitiva, no son ni han pretendido ser nunca una herramienta avanzada de análisis de datos.

Las organizaciones necesitan hoy en día responder a preguntas no previstas con anterioridad, sobre datos estructurados y no estructurados (texto, imagen, video, audio y sensores), sobre nuevos datos no incorporados en el DW, con una latencia mínima entre la producción del dato y su uso, y con gran capacidad analítica sobre grandes volúmenes de datos.

Los DW no pueden dar respuesta a estas necesidades, hay quien piensa que ha llegado su fin, y que incluso no han cubierto nunca sus expectativas. Otros consideran que su futuro está en formar parte de un amplio ecosistema de gestión de datos, en el que disminuirá su importancia relativa, constituido por: DW en tiempo real, DW tradicional y Data lake (lago de datos).

DW 1

El DW en tiempo real, combina la estabilidad y robusted de los sistemas de reporting de los DW (de los que forman parte) con tecnologías de obtención de un limitado conjunto de datos en tiempo real (o casi real) de los sistemas operacionales. Permiten la monitorización de los datos esenciales del funcionamiento de la organización y establecer alertas así como incorporar algoritmos de ayuda a toma de decisiones; pocas operaciones de una organización suelen necesitar este tipo de herramientas y tienen que ver con los servicios críticos o esenciales. Sus usuarios son más de consulta que de análisis, y no requieren capacidades analíticas especiales.

El Data Lake, lago de datos, es el entorno en el que los datos a incorporar son desconocidos a priori, como también lo son las preguntas que nos podemos hacer. El proceso ETL se modifica para ser ELT (extracción, carga y transformación), siendo la clave el acceso al dato en su formato original en los sistemas operacionales, e intentan superar los problemas tradicionales en la transformación de datos. Es un repositorio de almacenamiento que contienen una gran cantidad de datos en bruto y que se mantienen allí hasta que sea necesario. A diferencia de un data warehouse jerárquico que almacena datos en ficheros o carpetas, un data lake utiliza una arquitectura plana para almacenar los datos. Es el ámbito del big data, entornos No SQL, búsqueda de nuevos significados e innovación, perfiles de ingenieros y científicos de datos, y funciones de análisis avanzado y modelado de datos.

A cada elemento de un data lake se le asigna un identificador único y se etiqueta con un conjunto de etiquetas de metadatos. Cuando surge una consulta, se solicita al data lake los datos que estén relacionados con esa consulta, obteniendo los datos precisos e imprescindibles para ese análisis en concreto. El término se asocia cada vez con más frecuencia a la descripción de  cualquier gran conjunto de datos en el que el esquema y los requisitos de datos no se definen hasta que los datos son consultados.

Además del modelo arriba indicado, existen otros posibles enfoques, en las relaciones entre el DW y el data lake, algunos de los cuales se consideran elementos independientes.

DW 2

En otros, los elementos van en paralelo.


DW 3

Mientras que otros consideran el DW como parte del Data Lake

DW 4

…..y hay otras múltiples forma de relación

Muchas actividades en las organizaciones dependen de los DW, tienen muchos usuarios y se ha invertido muchos recurso en ellos, por lo que es posible que seguirán teniendo un papel importante en el almacenamiento de datos. Sin embargo, necesitarán modernizarse para superar sus limitaciones y además, coexistir con otros elementos que cubran aspectos relacionados con la inmediated en la disponibilidad del datos (DW en tiempo real) y las capacidades de análisis en el ámbito del big data (data lake).

P_20180724_120443

Expectativas del “big data” y salud.

big data salud healthLa tecnología “big data” ha pasado (usando la terminología de Gartner) del pico de la expectativa, al valle de la desilusión, esperando alcanzar algún día la llanura de la productividad. Su pico de máxima expectativa como tecnología emergente fue en el año 2013, con previsiones de implantación entre 5 y 10 años; ese fue el año en el que los NIH iniciaron el programa The “big data” to Knowledge (BD2K), incluido ahora en el NIH Data Science Community. A partir del 2015, como suele ser habitual con las nuevas tecnologías, disminuyeron sus expectativas, con planteamientos más realistas. Esta situación gereral es igualmente aplicable al ámbito sanitario.

En la actualidad, la expectativa máxima en todos los sectores, incluido el sanitario está en la inteligencia artificial, que se supone será la tecnología más disruptiva en los próximos 10 años. Para su desarrollo se requieren entre otras cosas, avances notables en ““big data”” y en el desarrollo de algoritmos de aprendizaje automático.

El análisis “big data” presenta diferencias con el análisis estadístico habitual, sumarizadas en el trabajo Medical “big data”: promise and challenges, en el que se indica que a pesar de las expectativas, su aplicación actual es más prometedora que efectiva. La evidencia de sus beneficios es escasa, enfrentándonos a problemas relacionados con la calidad delos datos, las limitaciones metodológicas de los estudios observacionales, aspectos legales y de gobernanza, entre otros. Se abre un debate metodológico interesante, pues a modo de ejemplo, hay diferencias en los resultados de la artroscopia de cadera, según se use análisis “big data” (peores resultados) o ensayos clínicos.

En una revisión sistemática se ha mostrado como los principales desafíos se hallan en la estructura, seguridad, estandarización, almacenaje y transferencia de datos, así como su gestión y gobierno.   Las principales oportunidades están en la mejora de la calidad asistencial, mejora de la salud desde la perspectiva poblacional, detección temprana de enfermedades, mayor accesibilidad y calidad de datos, mejora en la toma de decisiones, y reducción de costes.

Otra revisión sistemática, indica que no hay consenso en cuanto a una definición operativa de “big data” en la investigación sanitaria, siendo su escenario de uso muy amplio (desde unidades hospitalarias o patologías específicas a servicios de salud en su conjunto o industria farmacéutica), Sus usos en el ámbito asistencial se centran en el apoyo a las decisiones clínicas, la optimización de los procesos asistenciales y la reducción de costes; el mayor desafío en su implantación está en la falta de evidencia de su efectividad, al ser insuficientes los estudios de evaluación, con evaluaciones de impacto más cualitativas que cuantitativas. En cuanto a herramientas, la metodología más usada es el procesamiento del lenguaje natural y la herramienta Hadoop.

En cuanto al uso de datos por la industria farmacéutica, se han señalado tensiones entre la privacidad, la reutilización de datos bajo el paraguas del “open data” y la necesidad de datos masivos del “big data”.

En una revisión sistemática sobre las fuentes y métodos usados en el análisis de enfermedades crónicas, se indica que el “big data” permite análisis predictivo para: identificación de pacientes con riesgo de reingreso, prevención de infecciones hospitalarias, prevención de  enfermedades crónicas y obtención de modelos predictivos de calidad. Los métodos predictivos más usados son el árbol de decisiones, Naïve Bayes y Red Neuronal Artificial (ANN) y la herramienta Hadoop.

El debate sobre las amenazas y oportunidades del “big data” en el sector sanitario sigue abierto; es un camino a recorrer, con grandes posibilidades de tener un impacto positivo, aunque para ello debe superar importantes obstáculos.

Actualización 13 de junio: Excelente revisión sistemática sobre al análisis de grandes volúmenes de datos:  A Systematic Review on Healthcare Analytics: Application and Theoretical Perspective of Data Mining.

In recent years, a number of peer-reviewed articles have addressed different dimensions of data mining application in healthcare. However, the lack of a comprehensive and systematic narrative motivated us to construct a literature review on this topic. We found that the existing literature mostly examines analytics in clinical and administrative decision-making. Use of human-generated data is predominant considering the wide adoption of Electronic Medical Record in clinical care. However, analytics based on website and social media data has been increasing in recent years. Lack of prescriptive analytics in practice and integration of domain expert knowledge in the decision-making process emphasizes the necessity of future research.

Y aqui otra, tambien estupenda, sobre deep learnibg  Opportunities and obstacles for deep learning in biology and medicine

Has deep learning transformed the study of human disease? Though the answer is highly dependent on the specific domain and problem being addressed, we conclude that deep learning has not yet realized its transformative potential or induced a strategic inflection point. Despite its dominance over competing machine learning approaches in many of the areas reviewed here and quantitative improvements in predictive performance, deep learning has not yet definitively ‘solved’ these problems.

 

#RGPD Spring is coming

IMG-20171226-WA0000

Faltan menos de 5 meses para que el 25 de mayo de 2018 sea aplicable el Reglamento General de Protección de Datos. La  Directora de la Agencia Española de Protección de Datos, Mar España Martí, está desarrollando una gran actividad para dinamizar estrategias de implantación, con actividades de sensibilización en su gira por las Comunidades Autónomas y estableciendo acuerdos con los ámbitos municipales, empresariales, sindicales y colegios profesionales.

El pasado día 12 de diciembre, Mar España Martí dio una conferencia en el IAAP en la que destacó los aspectos más relevantes del Reglamento y del Proyecto de Ley Orgánica de Protección de Datos de Carácter Personal. Puso de relieve el amplio trabajo desarrollado por la Agencia tanto en colaboración con los otros organismos reguladores gubernamentales o de la Unión Europea como de los materiales e iniciativas para facilitar la aplicación del Reglamento en colaboración con las agencias del País Vasco y Cataluña, disponibles en la página de la Agencia. Avanzó la publicación de guías sobre normas de seguridad y sobre evaluación de impacto en el primer trimestre de 2018, y sobre datos de salud a lo largo del año. En cuanto a formación, están previstos cursos en el INAP y se han establecido las normas para acreditación de la formación de los Delegados de Protección de Datos.

En varios momentos de su intervención indicó expresamente su preocupación por el retraso de la Junta de Andalucía en poner en marcha actuaciones para el cumplimiento del nuevo Reglamento; utilizó expresiones como “Que vais ya justos“ o “Que vais tarde, pero todavía se puede llegar a tiempo”.

Indicó cuales son las iniciativas a tomar de forma urgente: en primer lugar decidir cual es el organismo y Consejería de la Junta de Andalucía que tiene que desarrollar la estrategia para el cumplimiento del RGPD; en segundo lugar designar a un Delegado de Protección de Datos en cada Consejería, que podría asumir igualmente las competencias en cuanto a transparencia, al ser derechos que en muchas ocasiones habrá que ponderar. En algunas Consejerías como Salud o Educación se debería contar con un equipo de apoyo a los delegados, disponiendo de otro equipo para el resto de consejerías.

Además están pendientes otras tareas como modificar los formularios para el consentimiento, adecuación de las clausulas en los contratos públicos, modificaciones en los decretos de estructura de las consejerías y relación de puestos de trabajo, ver la adecuación de los sistemas de información, o revisar la legislación sectorial que hubiera que modificar.

Aunque la Ley 1/2014, de 24 de junio, de Transparencia Pública de Andalucía creó el Consejo de Transparencia y Protección de Datos de Andalucía, no se han desarrollado sus funciones en cuanto a protección de datos, por lo que la Agencia Española de Protección de Datos ha asumido sus competencias.

El propio director del Consejo de Transparencia y Protección de Datos de Andalucía, Manuel Medina, en el encuentro mantenido con la directora de la Agencia Española de Protección de Datos, para abordar el estado en el que se encuentran las instituciones andaluzas ante la inminente entrada en vigor del RGPD, ha expresado su preocupación por el “muy deficiente” grado de adaptación de las instituciones de la Comunidad ante la nueva normativa, de modo que espera que en los próximos meses las entidades públicas asuman los nuevos requerimientos y obligaciones que impone el Reglamento europeo. “Ni una sola administración, ni una sola empresa pública, ni un solo ente ha nombrado aún a su delegado de Protección de Datos. Y es este delegado el que tendría que impulsar la puesta en marcha de todas las medidas recogidas en el Reglamento europeo”,

Durante esta reunión de trabajo también han abordado la situación del Consejo y su falta de asunción de las competencias en esta materia, que se continuará ejerciendo desde la Agencia estatal, hasta que se aprueben y ejecuten las disposiciones pertinentes por parte del Gobierno andaluz. El ejercicio efectivo de esta competencia se ha diferido sin fijarse plazo alguno.

Estadísticas longitudinales de base poblacional en salud

RGPD Salud Investigacion Proteccion de datosLa idea inicial para este artículo ha sido tomada de Francisco Viciana: “Estadísticas longitudinales de población. El desarrollo de un nuevo sistema de producción estadística”.

Las estadísticas sanitarias se han desarrollaron históricamente con los mismo planteamientos que el resto de la estadística pública: captura, explotación y difusión de datos producidos por una fuente concreta de información, asociada a un ámbito social o incluso organizativo concreto (ejemplo hospitalario, salud pública etc), referida a un periodo concreto de tiempo a modo de foto fija y con la característica de dato oficial, no modificable aunque se produjesen actualizaciones o mejoras en la calidad de los datos.

De esta forma se podía realizar un análisis exhaustivo de una fuente, pero no se podía enriquecer este análisis con otra fuente distinta con la que pudiera estar relacionada, salvo a nivel ecológico, con el grupo como unidad de análisis; este tipo de análisis como es bien conocido, está sometido a un alto riesgo de sesgo. El análisis tenía limitaciones para tratar datos de distintos sectores, clave por ejemplo para la acción intersectorial en salud, o dentro del sector salud, para el análisis que incluyese atención primaria y hospitales.

Con el paso al mundo digital, se reprodujo el esquema analógico, se crearon “silos de información” aislados, reproduciéndose el esquema tradicional de la producción estadística (corte transversal, explotación monográfica aislada, difusión en tablas y posteriormente en ficheros anonimizados, oficialidad, periodicidad y cierre, etc).

El gran cambio se produjo con las posibilidades de conexión de registros, realizándose la unión de distintas fuentes a nivel de la persona, no del grupo; el instrumento que ha permitido en el ámbito sanitario hacer estas conexiones ha sido la base de datos de usuarios, uno de los pilares de las estrategias de digitalización. Así pues se ha recorrido un camino de conexión de registros, cuyo antecedente más relevante lo encontramos en los países nórdicos que disponían de un número único de identificación personal de toda la población desde la década de 1940, y que les ha ayudado en la toma de decisiones y permitido grandes avances en la investigación en salud pública y servicios de salud.

Una vez conectados los registros, podemos relacionar los estados de una persona en distintas dimensiones, pudiéndose establecer las relaciones que existen entre esos estados; por ejemplo prevalencia de enfermedades crónicas, su relación con necesidades asistenciales de distinto tipo y consumo de recursos. Se trata de una foto fija, análisis transversal que supera los límites de los “silos de información” al  permitir el análisis simultaneo e intersectorial de distintas fuentes. Estas conexiones han supuesto un gran avance, y para su establecimiento se ha necesita realizar grandes esfuerzos, al no estar contempladas estas conexiones en el diseño de los sistemas de información.

Sabemos no obstante, que lo que ocurre en un punto de la biografía de una persona está condicionado por eventos ocurridos con anterioridad y que a su vez va a condicionar lo que ocurra en el futuro. Es por ello por lo que surgieron las estadísticas longitudinales a nivel poblacional, en las que sobre la trayectoria vital de una persona se pueden ir colocando eventos registrados en fuentes distintas; además de existir bastantes iniciativas a nivel internacional, hay experiencias en los órganos estadísticos, tanto en el INE (Estudio Demográfico Longitudinal), como el Instituto Vasco de Estadística (Registro de Población) e IECA (Base de Datos Longitudinal de Población de Andalucíade). Esto supone un paso importante respecto a las estadísticas transversales, dado que nos permite establecer las relaciones entre un evento actual y otro acaecido previamente en su trayectoria vital, así como predecir el tipo de eventos que pudieran ocurrir en el futuro, pasando de la estática de una foto fija, a la dinámica de una película.

Los países que fueron pioneros en la conexión de registros poblacionales lo han sido igualmente al transformarlos en registros longitudinales; estos estudios son de utilidad en la evaluación de impacto de intervenciones clínicas, salud pública, establecimiento de previsiones de gasto sanitario para grupos de pacientes concretos o ámbito social; en algunos países estos registros longitudinales son considerados como un elemento de la infraestructura de investigación.

El completar o pasar del análisis transversal al longitudinal presenta múltiples retos. El primero de ellos tiene que ver con la conexión de registros, paso previo en el que surgen dificultades al no estar contemplada esta fusión en el diseño de los sistemas de información que los generan, lo cual conlleva enormes problemas en la extracción, transformación y carga de datos; otros problemas a tener en cuenta son el gran volumen de datos a manejar y la calidad de los mismos, desconocida para algunas de las fuentes de datos. El siguiente reto tiene que ver con la transformación de registros fusionados orientados a una explotación transversal en registros longitudinales, lo cual nos llevará a replantear los sistemas de información operacionales de los que provienen; finalmente el propio análisis longitudinal de bases de datos poblacionales supone unos abordajes metodológicos con los que no estamos familiarizados.