¿Tienen futuro los Data Warehouse?

P_20180930_201743El proceso de digitalización generó en las organizaciones una cantidad de datos antes impensable. Han proliferado los sistemas de información, y con ellos los silos independientes de datos, con un análisis limitado de los mismos, y uso centrado en los aspectos puramente operacionales, no generando el valor que pudieran producir. Un caso paradigmático en este sentido en el sector sanitario, ha sido la historia clínica electrónica.

Con la finalidad de tener acceso a los datos de forma rápida, sin duplicidades y sin inconsistencias, surgieron hace casi tres décadas los almacenes corporativos de datos centralizados (Data Warehouse, DW).

Para muchas organizaciones, disponer de un Data Warehouse corporativo sigue siendo una quimera, pues a pesar de las expectativas, los procesos de extracción, transformación y carga de datos (ETL) desde los sistemas operacionales son caros, complejos y lentos, eternizándose los proyectos; incluso en caso de finalizarlos, hay que rehacerlos al cambiar la disponibilidad y necesidades de datos.

Aun así, son sistemas de reporting robustos y estables, que mediante tablas predefinidas, responden a preguntas conocidas y repetitivas, hechas a datos conocidos, bien estructurados y consolidados periódicamente. Los usuarios básicos se cuentan por miles en las organizaciones grandes, son usuarios ocasionales que no requieren conocimientos especiales de análisis de datos; los usuarios avanzados, en pequeño número, tienen mayores posibilidades de tratamiento de datos y suministran datos a otros usuarios, pero los análisis en profundidad deben hacerse desde fuera del sistema; en definitiva, no son ni han pretendido ser nunca una herramienta avanzada de análisis de datos.

Las organizaciones necesitan hoy en día responder a preguntas no previstas con anterioridad, sobre datos estructurados y no estructurados (texto, imagen, video, audio y sensores), sobre nuevos datos no incorporados en el DW, con una latencia mínima entre la producción del dato y su uso, y con gran capacidad analítica sobre grandes volúmenes de datos.

Los DW no pueden dar respuesta a estas necesidades, hay quien piensa que ha llegado su fin, y que incluso no han cubierto nunca sus expectativas. Otros consideran que su futuro está en formar parte de un amplio ecosistema de gestión de datos, en el que disminuirá su importancia relativa, constituido por: DW en tiempo real, DW tradicional y Data lake (lago de datos).

DW 1

El DW en tiempo real, combina la estabilidad y robusted de los sistemas de reporting de los DW (de los que forman parte) con tecnologías de obtención de un limitado conjunto de datos en tiempo real (o casi real) de los sistemas operacionales. Permiten la monitorización de los datos esenciales del funcionamiento de la organización y establecer alertas así como incorporar algoritmos de ayuda a toma de decisiones; pocas operaciones de una organización suelen necesitar este tipo de herramientas y tienen que ver con los servicios críticos o esenciales. Sus usuarios son más de consulta que de análisis, y no requieren capacidades analíticas especiales.

El Data Lake, lago de datos, es el entorno en el que los datos a incorporar son desconocidos a priori, como también lo son las preguntas que nos podemos hacer. El proceso ETL se modifica para ser ELT (extracción, carga y transformación), siendo la clave el acceso al dato en su formato original en los sistemas operacionales, e intentan superar los problemas tradicionales en la transformación de datos. Es un repositorio de almacenamiento que contienen una gran cantidad de datos en bruto y que se mantienen allí hasta que sea necesario. A diferencia de un data warehouse jerárquico que almacena datos en ficheros o carpetas, un data lake utiliza una arquitectura plana para almacenar los datos. Es el ámbito del big data, entornos No SQL, búsqueda de nuevos significados e innovación, perfiles de ingenieros y científicos de datos, y funciones de análisis avanzado y modelado de datos.

A cada elemento de un data lake se le asigna un identificador único y se etiqueta con un conjunto de etiquetas de metadatos. Cuando surge una consulta, se solicita al data lake los datos que estén relacionados con esa consulta, obteniendo los datos precisos e imprescindibles para ese análisis en concreto. El término se asocia cada vez con más frecuencia a la descripción de  cualquier gran conjunto de datos en el que el esquema y los requisitos de datos no se definen hasta que los datos son consultados.

Además del modelo arriba indicado, existen otros posibles enfoques, en las relaciones entre el DW y el data lake, algunos de los cuales se consideran elementos independientes.

DW 2

En otros, los elementos van en paralelo.


DW 3

Mientras que otros consideran el DW como parte del Data Lake

DW 4

…..y hay otras múltiples forma de relación

Muchas actividades en las organizaciones dependen de los DW, tienen muchos usuarios y se ha invertido muchos recurso en ellos, por lo que es posible que seguirán teniendo un papel importante en el almacenamiento de datos. Sin embargo, necesitarán modernizarse para superar sus limitaciones y además, coexistir con otros elementos que cubran aspectos relacionados con la inmediated en la disponibilidad del datos (DW en tiempo real) y las capacidades de análisis en el ámbito del big data (data lake).

P_20180724_120443

Anuncios

Expectativas del “big data” y salud.

big data salud healthLa tecnología “big data” ha pasado (usando la terminología de Gartner) del pico de la expectativa, al valle de la desilusión, esperando alcanzar algún día la llanura de la productividad. Su pico de máxima expectativa como tecnología emergente fue en el año 2013, con previsiones de implantación entre 5 y 10 años; ese fue el año en el que los NIH iniciaron el programa The “big data” to Knowledge (BD2K), incluido ahora en el NIH Data Science Community. A partir del 2015, como suele ser habitual con las nuevas tecnologías, disminuyeron sus expectativas, con planteamientos más realistas. Esta situación gereral es igualmente aplicable al ámbito sanitario.

En la actualidad, la expectativa máxima en todos los sectores, incluido el sanitario está en la inteligencia artificial, que se supone será la tecnología más disruptiva en los próximos 10 años. Para su desarrollo se requieren entre otras cosas, avances notables en ““big data”” y en el desarrollo de algoritmos de aprendizaje automático.

El análisis “big data” presenta diferencias con el análisis estadístico habitual, sumarizadas en el trabajo Medical “big data”: promise and challenges, en el que se indica que a pesar de las expectativas, su aplicación actual es más prometedora que efectiva. La evidencia de sus beneficios es escasa, enfrentándonos a problemas relacionados con la calidad delos datos, las limitaciones metodológicas de los estudios observacionales, aspectos legales y de gobernanza, entre otros. Se abre un debate metodológico interesante, pues a modo de ejemplo, hay diferencias en los resultados de la artroscopia de cadera, según se use análisis “big data” (peores resultados) o ensayos clínicos.

En una revisión sistemática se ha mostrado como los principales desafíos se hallan en la estructura, seguridad, estandarización, almacenaje y transferencia de datos, así como su gestión y gobierno.   Las principales oportunidades están en la mejora de la calidad asistencial, mejora de la salud desde la perspectiva poblacional, detección temprana de enfermedades, mayor accesibilidad y calidad de datos, mejora en la toma de decisiones, y reducción de costes.

Otra revisión sistemática, indica que no hay consenso en cuanto a una definición operativa de “big data” en la investigación sanitaria, siendo su escenario de uso muy amplio (desde unidades hospitalarias o patologías específicas a servicios de salud en su conjunto o industria farmacéutica), Sus usos en el ámbito asistencial se centran en el apoyo a las decisiones clínicas, la optimización de los procesos asistenciales y la reducción de costes; el mayor desafío en su implantación está en la falta de evidencia de su efectividad, al ser insuficientes los estudios de evaluación, con evaluaciones de impacto más cualitativas que cuantitativas. En cuanto a herramientas, la metodología más usada es el procesamiento del lenguaje natural y la herramienta Hadoop.

En cuanto al uso de datos por la industria farmacéutica, se han señalado tensiones entre la privacidad, la reutilización de datos bajo el paraguas del “open data” y la necesidad de datos masivos del “big data”.

En una revisión sistemática sobre las fuentes y métodos usados en el análisis de enfermedades crónicas, se indica que el “big data” permite análisis predictivo para: identificación de pacientes con riesgo de reingreso, prevención de infecciones hospitalarias, prevención de  enfermedades crónicas y obtención de modelos predictivos de calidad. Los métodos predictivos más usados son el árbol de decisiones, Naïve Bayes y Red Neuronal Artificial (ANN) y la herramienta Hadoop.

El debate sobre las amenazas y oportunidades del “big data” en el sector sanitario sigue abierto; es un camino a recorrer, con grandes posibilidades de tener un impacto positivo, aunque para ello debe superar importantes obstáculos.

Actualización 13 de junio: Excelente revisión sistemática sobre al análisis de grandes volúmenes de datos:  A Systematic Review on Healthcare Analytics: Application and Theoretical Perspective of Data Mining.

In recent years, a number of peer-reviewed articles have addressed different dimensions of data mining application in healthcare. However, the lack of a comprehensive and systematic narrative motivated us to construct a literature review on this topic. We found that the existing literature mostly examines analytics in clinical and administrative decision-making. Use of human-generated data is predominant considering the wide adoption of Electronic Medical Record in clinical care. However, analytics based on website and social media data has been increasing in recent years. Lack of prescriptive analytics in practice and integration of domain expert knowledge in the decision-making process emphasizes the necessity of future research.

Y aqui otra, tambien estupenda, sobre deep learnibg  Opportunities and obstacles for deep learning in biology and medicine

Has deep learning transformed the study of human disease? Though the answer is highly dependent on the specific domain and problem being addressed, we conclude that deep learning has not yet realized its transformative potential or induced a strategic inflection point. Despite its dominance over competing machine learning approaches in many of the areas reviewed here and quantitative improvements in predictive performance, deep learning has not yet definitively ‘solved’ these problems.

 

CMBD: Privacidad vs Open data

open data salud privacidad transparenciaMe ha resultado muy interesante la publicación en la página web de @SaludMadrid de los microdatos del CMBD hospitalarios y ambulatorios, pues desde la perspectiva de “open data” son unos datos muy esperados. Ello me parece una buena iniciativa, si bien, pienso que la forma en la que se ha hecho no es adecuada, puesto considero que en determinadas circunstancias, podría producirse una violación de la seguridad de datos personales.

Los ficheros publicados contienen de forma anónima la información completa de cada registro del CMBD. Entre esta información, además del Servicio y Hospital de Ingreso y diagnóstico al alta entre otras cosas, se incluye información sobre municipio de residencia y código postal, fecha de nacimiento, fecha y hora de llegada al servicio de urgencias, fecha y hora del ingreso hospitalario, fecha y hora del alta, fecha y hora del traslado etc.

Según informa César Pascual, Director General de Coordinación de Asistencia Sanitaria de la Consejería de Salud, la iniciativa se enmarca en la “estrategia de datos abiertos de transparencia” y el siguiente paso será “actualizar en el mismo formato el consumo de fármacos tanto por hospital como por receta”. Parte de la idea de que “…. medir resultados en lugar de actividad resulta complejo con los modelos de evaluación actuales, pero el primer paso es, sin duda, la transparencia: “El futuro está en el open data, y hacia ahí estamos trabajando. Tenemos bases de datos muy amplias pero sólo hacemos públicos algunos indicadores, que no dejan de ser interpretaciones de los datos. Debemos publicar los datos y que el que quiera los interprete””.

De lo anterior se desprende que podría ser una iniciativa open data” amparada por la Ley 37/2007, de reutilización de la información del sector público, entendiendo por reutilización, el uso de documentos que obran en poder de las Administraciones y organismos del sector público, por personas físicas o jurídicas, con fines comerciales o no comerciales. Esta ley sin embargo no es aplicable a los documentos con límites en su acceso por motivos de protección de los datos personales. Prevalece el derecho a la protección de datos de carácter personal frente al de transparencia, a menos que se produzca la disociación de los datos. Cuando la información se facilita de forma disociada, y contuviera elementos suficientes que pudieran permitir la identificación en el proceso de reutilización, queda prohibida la reversión del procedimiento de disociación mediante la adición de nuevos datos obtenidos de otras fuentes.

Por otra parte, el CMBD genera datos incluidos en la estadística pública; la normativa estadística establece la obligatoriedad del secreto estadístico y la limitación en la difusión cuando se atente a la protección del secreto estadístico.

Sin necesidad de entrar en las especificaciones especialmente restrictivas sobre los datos sanitarios contemplados en la Ley 41/2002 de autonomía del paciente y documentación clínica, la LOPD establece claramente que son datos de carácter personal cualquier información concerniente a personas físicas identificadas o identificables; no siendo necesario el consentimiento informado si se comunican datos tras proceso de disociación, entendido este como el tratamiento de datos personales de modo que la información que se obtenga no pueda asociarse a persona identificada o identificable.

El RGPD establece igualmente que el principio de protección de datos debe aplicarse a toda la información de una persona física identificada o identificable. No hace referencia a datos disociados, y establece que los principios de protección de datos no deben aplicarse a la información anónima, ni a los datos convertidos en anónimos de forma que el interesado no sea identificable, o deje de serlo.

Introduce no obstante el concepto de seudonimización entendido como el tratamiento de datos personales de manera tal que ya no puedan atribuirse a un interesado sin utilizar información adicional, siempre que dicha información adicional figure por separado y esté sujeta a medidas técnicas y organizativas destinadas a garantizar que los datos personales no se atribuyan a una persona física identificada o identificable. Los datos personales seudonimizados, que cabría atribuir a una persona física mediante la utilización de información adicional, deben considerarse información sobre una persona física identificable.

Podríamos pues considerar que los datos del CMBD de la Comunidad de Madrid son datos seudonimizados y por tanto sometidos al RGPD. Podrían ser utilizados en las circunstancias específicas que marca el RGPD como es la investigación, pero no ser susceptibles de distribuirse de forma generalizada, aunque sean datos anónimos.

Se ha indicado igualmente que la publicación de los datos del CMBD es una medida de transparencia. La Ley de transparencia contempla el equilibrio entre la protección de datos y la transparencia: en la medida en que la información afecte directamente a la organización o actividad pública del órgano prevalecerá el acceso, mientras que, por otro, se protegen los datos que la normativa califica como especialmente protegidos, para cuyo acceso se requerirá, con carácter general, el consentimiento de su titular. Establece límites claros tanto en cuanto al derecho de acceso por parte de los ciudadanos, como a la publicidad activa por parte de los organismos públicos;  cuando la información contuviera datos especialmente protegidos, la publicidad sólo se llevará a cabo previa disociación de los mismos.

En base a lo anterior, podríamos concluir que se ha procedido a publicar datos sin identificación personal, que cabrían en el concepto de datos seudonimizado. Al no establecer ninguna restricción en cuanto a mínimo ámbito geográfico de difusión, las personas serían fácilmente identificables en municipios pequeños, cual es el caso de los 99 municipios de la Comunidad de Madrid con población menor de 5000 habitantes.

De hecho, en la distribución estadística sobre datos tales como mortalidad, interrupción voluntaria del embarazo o incidencia de enfermedades, tradicionalmente se han establecido límites en cuanto a tamaño de la población, por debajo de los cuales no se distribuyen datos individuales aunque estos fuesen anónimos; además, había criterios generales del tipo que no hubiese ningún ámbito de análisis definido en la que en una tabulación hubiese elementos que permitiesen identificar a una persona.

Por otra parte, el paradigma de anonimización y establecimiento de límites territoriales en su distribución, ha quedado obsoleto, pues con recursos, tratamiento adecuado e información mínima,  es posible identificar con alta probabilidad a personas concretas en ficheros anónimos al cruzarlos con otros ficheros en los que sí figure la identificación. Los datos publicados sobre el CMBD, contienen datos clave para estos propósitos como fechas y lugares. Una revisión sistemática en 2011 estimaba que en un 34% de los registros de ficheros sanitarios se podría reidentificar a la persona, si bien se trataba de estudios a pequeña escala o en los que los datos no habían sido disociados con los estándares adecuados.

Lamentablemente, el tiempo ha confirmado la potencia de las técnicas de re-identificación, alcanzándose unos niveles muy elevados de identificación de las personas, en determinadas circunstancias próximos al 100%.

En definitiva, es preciso no confundir las iniciativas de open data (uso de los datos con fines comerciales o no), de las de transparencia de la actividad pública y acceso de las personas a la información pública. Además, hay que utilizar las técnicas más avanzadas en los procesos de disociación, completándolas con técnicas de transformación de datos (synthetic data); pero sobretodo establecer procedimientos de tratamiento de datos con altos estándares éticos y aplicando (por supuesto) el Reglamento General de Protección de Datos, que hoy entra en vigor.

Ética digital

Etica digitalLa legislación no puede resolver todos los problemas que surgen en relación con la protección de datos de carácter personal.

Para muchos de estos problemas, el marco adecuado de resolución, está en al ámbito de la ética. El Ethics Advisory Group  del European Data Protection Supervisor (EDPS) ha publicado el informe Towards a digital ethics, documento oportuno que surge en el contexto del creciente interés por la ética, la entrada en vigor del Reglamento General de Protección de Datos (RGPD) y la transición del paradigma analógico al digital, en la que es preciso identificar los valores de las personas que pueden verse amenazados.

El informe identifica algunas tendencias tecnológicas que obligan a un análisis de la relación entre la tecnología y los valores personales en lo que llama ética digital: big data, internet de las cosas, computación en la nube e inteligencia artificial (especialmente máquinas que aprenden). Hace especial mención sobre la gobernanza de los datos sanitarios, tanto asistenciales como de investigación, indicando que podría estar ocurriendo una transición de los marcadores biológicos a los marcadores digitales.

El documento reanaliza los valores fundamentales de la Unión Europea desde la perspectiva de la ética digital y cómo pueden verse afectados esos valores.

Identifica cambios socioculturales que acompañan a la era digital:

  • De la persona al sujeto digital.
  • De la vida analógica a la digital.
  • Del gobierno de las instituciones al gobierno de los datos.
  • De una sociedad de riesgo igualitario a una sociedad segmentada.
  • De la autonomía personal a la convergencia entre humanos y máquinas.
  • De la responsabilidad individual a la responsabilidad distribuida.
  • De la justicia penal a la justicia preventiva

Finaliza apuntando algunos aspectos clave:

  1. La dignidad de la persona debe permanece inviolable en la era digital.
  2. La persona y sus datos personales son inseparables el uno del otro.
  3. Las tecnologías digitales pueden poner en riesgo las bases del gobierno democrático.
  4. El procesamiento digital de datos puede suponer nuevas formas de discriminación.
  5. La mercantilización de los datos puede cambiar los valores de las personas respecto a los datos de carácter personal.

Apuntes para la estrategia #ética en #salud_pública

parabola del ciego etica y salud publicaLa Consejería de Salud de la Junta de Andalucía está elaborando una nueva Estrategia de Bioética. Esta Estrategia contempla, con muy buen criterio, un apartado diferenciado para los aspectos éticos en el ámbito de la Salud Pública. He tenido la oportunidad de hacer aportaciones al grupo de trabajo creado al respecto, que quedan resumidas en este artículo.

La Ética en la Salud Pública tiene un menor desarrollo que la ética de los ámbitos clínicos y de investigación. En relación a otro ámbito próximo, el de la evaluación de tecnologías sanitarias, tiene un menor desarrollo en cuanto a marcos conceptuales de referencia, y posiblemente un mayor desarrollo práctico.

La primera cuestión que se plantea es: ¿Los principios de la bioética son extrapolables al ámbito de la Salud Pública o esta tiene unos principios diferenciados?. Mi opinión al respecto es que los cuatro principios de la bioética no encajan bien en la Salud Pública, básicamente por dos razones: por una parte, tanto la clínica como la investigación (esta con excepciones) tienen por objeto personas concretas, mientras que la Salud Pública tiene un enfoque poblacional; por otra parte, las decisiones en Salud Pública son tomadas por organismos públicos con autoridad para ello, mientras que las referidas a personas concretas son tomadas por profesionales concretos (Mejor explicado aquí, gracias A. Rabadán).

Es por ello por lo que para hacer un planteamiento estratégico de la Ética de la Salud Pública, me parece interesante ver cómo se abordan los problemas éticos en organizaciones que pueden compartir problemas similares a los de Salud Pública; como en nuestro medio la Salud Pública se desarrolla en el ámbito de la Administración Pública, creo que ese puede ser nuestro modelo de referencia: la Ética en la Administración Pública, tratada en otra entrada del blog.

 Se han enumerado algunas situaciones paradigmáticas de la Ética en la Administración Pública y la política que nos pueden servir de reflexión:

– Las manos sucias democráticas. Referido a situaciones en las que los comportamientos no éticos no son debidos a codicia, deseo de poder o riquezas, o lealtad a familia o grupos organizados, sino que lo que se persigue es el bien común.

– La responsabilidad moral de las múltiples manos. En oposición a la idea del comportamiento no ético al tomar una decisión por una persona, el daño puede ser debido a la implicación de un elevado número de personas u organismos en la toma de decisiones por lo que el ciudadano puede ser incapaz de identificar realmente que es el responsable o responsables de un determinado hecho.

– Crimen y castigo de los cargos públicos. Todo un campo de debate sobre la toma de decisiones: responsabilidad moral, política y legal.

– Ética legislativa. Bien común o intereses particulares en el desarrollo legislativo.

– La vida privada de los cargos públicos. ¿Donde están los límites?

– El poder paternalista. Los límites en el establecimiento de obligaciones a los ciudadanos en contra de su voluntad por el bien común (el principio de autonomía, tan importante en la bioética, aquí tiene muchos matices).

– La ética de los experimentos sociales. Intervenciones sociales que en realidad son un experimento, al no poderse controlar todo su impacto.

Una aproximación al estado del conocimiento sobre Ética en la Administración Pública la podemos hacer revisando sobre qué se está investigando en este campo:

1. Gestión clásica de la ética:

  • Toma de decisiones éticas y desarrollo moral (18 artículos). Este apartado ha perdido interés respecto a los años anteriores, cuando se hacía más énfasis en las decisiones individuales.
  • Leyes de ética y organismos reguladores (17 artículos). Abordan temas de corrupción, reformas, leyes y códigos éticos, órganos reguladores y un tema emergente: los sistemas de integridad institucional.
  • Desempeño organizacional (19 artículos). Abordan temas como la relación entre la cultura ética y el rendimiento o liderazgo.

2.Nueva gestión de la ética (30 artículos):

  • Liderazgo
  • Ética orientada a la integridad.
  • Formación.
  • Valores públicos.

3.Entorno ético (61 artículos).

  • Confianza, Comunidad, Ciudadanía
  • Transparencia, Comunicación y Buen Gobierno

4.Etica política (28 artículos).

  • Ha experimentado un notable incremento respecto a años anteriores, con gran diversidad en cuanto a temas y metodologías.

5.Globalización (18 artículos).

  • En este ámbito destacan los estudios sobre distintos ámbitos socioculturales y efectos de la globalización.

En cuanto al desarrollo de estrategías, una referencia obligada es el marco de integridad institucional, desarrollado por la OCDE para implantar estrategias que refuercen el clima ético en las administraciones públicas. Como se ha indicado, la Salud Pública por naturaleza tiene un carácter público e institucional; los valores, principios y normas de conducta de sus profesionales toman una dimensión más amplia por su carácter de servicio público. Estos marcos de referencia para desarrollo de estrategias se basan en 6 pilares, que nos pueden ayudar a definir una estrategia específica para Salud Pública:

  1. Principios, valores y conductas

Establecimiento de principios, valores, códigos de conducta, premios, sanciones etc. Un aspecto clave en esta linea es la definición conjunta y asunción de los valores mediante procesos participativos.

  1. Cultura ética.

Actividades de sensibilización, difusión, formación, prevención, promoción de una cultura ética, etc.

  1. Identificación de problemas éticos

Mecanismos que faciliten la detección y comunicación de situaciones problemáticas o dudosas. Un aspecto concreto sería la declaración de intereses en la constitución de cualquier grupo de trabajo o proceso de toma de decisiones.

  1. Espacios de debate y espacios de deliberación

Foros, encuentros, comités de ética, etc. Aspectos concretos serían los foros de debate para estudio de casos paradigmáticos y la creación de un Comité de Ética en Salud Pública.

  1. Toma de decisiones

Si el proceso es justo, la decisión es justa, aunque sea incorrecta; por ello es preciso establecer modelos de toma de decisiones. Transparencia, acceso a la información, rendición de cuentas, participación etc deberían formar parte de estos modelos.

  1. Análisis ético

Desarrollo de métodos y procedimientos que ayuden al análisis ético de planes, programas, e intervenciones.  Servirían de apoyo a la realización del análisis del impacto ético en todas las actuaciones.

Esta estrategia tendrá su mayor legitimidad incorporando en su desarrollo a todas las partes interesadas, empezando por los propios profesionales de la Salud Pública.

 

 

 

 

#RGPD Spring is coming

IMG-20171226-WA0000

Faltan menos de 5 meses para que el 25 de mayo de 2018 sea aplicable el Reglamento General de Protección de Datos. La  Directora de la Agencia Española de Protección de Datos, Mar España Martí, está desarrollando una gran actividad para dinamizar estrategias de implantación, con actividades de sensibilización en su gira por las Comunidades Autónomas y estableciendo acuerdos con los ámbitos municipales, empresariales, sindicales y colegios profesionales.

El pasado día 12 de diciembre, Mar España Martí dio una conferencia en el IAAP en la que destacó los aspectos más relevantes del Reglamento y del Proyecto de Ley Orgánica de Protección de Datos de Carácter Personal. Puso de relieve el amplio trabajo desarrollado por la Agencia tanto en colaboración con los otros organismos reguladores gubernamentales o de la Unión Europea como de los materiales e iniciativas para facilitar la aplicación del Reglamento en colaboración con las agencias del País Vasco y Cataluña, disponibles en la página de la Agencia. Avanzó la publicación de guías sobre normas de seguridad y sobre evaluación de impacto en el primer trimestre de 2018, y sobre datos de salud a lo largo del año. En cuanto a formación, están previstos cursos en el INAP y se han establecido las normas para acreditación de la formación de los Delegados de Protección de Datos.

En varios momentos de su intervención indicó expresamente su preocupación por el retraso de la Junta de Andalucía en poner en marcha actuaciones para el cumplimiento del nuevo Reglamento; utilizó expresiones como “Que vais ya justos“ o “Que vais tarde, pero todavía se puede llegar a tiempo”.

Indicó cuales son las iniciativas a tomar de forma urgente: en primer lugar decidir cual es el organismo y Consejería de la Junta de Andalucía que tiene que desarrollar la estrategia para el cumplimiento del RGPD; en segundo lugar designar a un Delegado de Protección de Datos en cada Consejería, que podría asumir igualmente las competencias en cuanto a transparencia, al ser derechos que en muchas ocasiones habrá que ponderar. En algunas Consejerías como Salud o Educación se debería contar con un equipo de apoyo a los delegados, disponiendo de otro equipo para el resto de consejerías.

Además están pendientes otras tareas como modificar los formularios para el consentimiento, adecuación de las clausulas en los contratos públicos, modificaciones en los decretos de estructura de las consejerías y relación de puestos de trabajo, ver la adecuación de los sistemas de información, o revisar la legislación sectorial que hubiera que modificar.

Aunque la Ley 1/2014, de 24 de junio, de Transparencia Pública de Andalucía creó el Consejo de Transparencia y Protección de Datos de Andalucía, no se han desarrollado sus funciones en cuanto a protección de datos, por lo que la Agencia Española de Protección de Datos ha asumido sus competencias.

El propio director del Consejo de Transparencia y Protección de Datos de Andalucía, Manuel Medina, en el encuentro mantenido con la directora de la Agencia Española de Protección de Datos, para abordar el estado en el que se encuentran las instituciones andaluzas ante la inminente entrada en vigor del RGPD, ha expresado su preocupación por el “muy deficiente” grado de adaptación de las instituciones de la Comunidad ante la nueva normativa, de modo que espera que en los próximos meses las entidades públicas asuman los nuevos requerimientos y obligaciones que impone el Reglamento europeo. “Ni una sola administración, ni una sola empresa pública, ni un solo ente ha nombrado aún a su delegado de Protección de Datos. Y es este delegado el que tendría que impulsar la puesta en marcha de todas las medidas recogidas en el Reglamento europeo”,

Durante esta reunión de trabajo también han abordado la situación del Consejo y su falta de asunción de las competencias en esta materia, que se continuará ejerciendo desde la Agencia estatal, hasta que se aprueben y ejecuten las disposiciones pertinentes por parte del Gobierno andaluz. El ejercicio efectivo de esta competencia se ha diferido sin fijarse plazo alguno.

Estadísticas longitudinales de base poblacional en salud

RGPD Salud Investigacion Proteccion de datosLa idea inicial para este artículo ha sido tomada de Francisco Viciana: “Estadísticas longitudinales de población. El desarrollo de un nuevo sistema de producción estadística”.

Las estadísticas sanitarias se han desarrollaron históricamente con los mismo planteamientos que el resto de la estadística pública: captura, explotación y difusión de datos producidos por una fuente concreta de información, asociada a un ámbito social o incluso organizativo concreto (ejemplo hospitalario, salud pública etc), referida a un periodo concreto de tiempo a modo de foto fija y con la característica de dato oficial, no modificable aunque se produjesen actualizaciones o mejoras en la calidad de los datos.

De esta forma se podía realizar un análisis exhaustivo de una fuente, pero no se podía enriquecer este análisis con otra fuente distinta con la que pudiera estar relacionada, salvo a nivel ecológico, con el grupo como unidad de análisis; este tipo de análisis como es bien conocido, está sometido a un alto riesgo de sesgo. El análisis tenía limitaciones para tratar datos de distintos sectores, clave por ejemplo para la acción intersectorial en salud, o dentro del sector salud, para el análisis que incluyese atención primaria y hospitales.

Con el paso al mundo digital, se reprodujo el esquema analógico, se crearon “silos de información” aislados, reproduciéndose el esquema tradicional de la producción estadística (corte transversal, explotación monográfica aislada, difusión en tablas y posteriormente en ficheros anonimizados, oficialidad, periodicidad y cierre, etc).

El gran cambio se produjo con las posibilidades de conexión de registros, realizándose la unión de distintas fuentes a nivel de la persona, no del grupo; el instrumento que ha permitido en el ámbito sanitario hacer estas conexiones ha sido la base de datos de usuarios, uno de los pilares de las estrategias de digitalización. Así pues se ha recorrido un camino de conexión de registros, cuyo antecedente más relevante lo encontramos en los países nórdicos que disponían de un número único de identificación personal de toda la población desde la década de 1940, y que les ha ayudado en la toma de decisiones y permitido grandes avances en la investigación en salud pública y servicios de salud.

Una vez conectados los registros, podemos relacionar los estados de una persona en distintas dimensiones, pudiéndose establecer las relaciones que existen entre esos estados; por ejemplo prevalencia de enfermedades crónicas, su relación con necesidades asistenciales de distinto tipo y consumo de recursos. Se trata de una foto fija, análisis transversal que supera los límites de los “silos de información” al  permitir el análisis simultaneo e intersectorial de distintas fuentes. Estas conexiones han supuesto un gran avance, y para su establecimiento se ha necesita realizar grandes esfuerzos, al no estar contempladas estas conexiones en el diseño de los sistemas de información.

Sabemos no obstante, que lo que ocurre en un punto de la biografía de una persona está condicionado por eventos ocurridos con anterioridad y que a su vez va a condicionar lo que ocurra en el futuro. Es por ello por lo que surgieron las estadísticas longitudinales a nivel poblacional, en las que sobre la trayectoria vital de una persona se pueden ir colocando eventos registrados en fuentes distintas; además de existir bastantes iniciativas a nivel internacional, hay experiencias en los órganos estadísticos, tanto en el INE (Estudio Demográfico Longitudinal), como el Instituto Vasco de Estadística (Registro de Población) e IECA (Base de Datos Longitudinal de Población de Andalucíade). Esto supone un paso importante respecto a las estadísticas transversales, dado que nos permite establecer las relaciones entre un evento actual y otro acaecido previamente en su trayectoria vital, así como predecir el tipo de eventos que pudieran ocurrir en el futuro, pasando de la estática de una foto fija, a la dinámica de una película.

Los países que fueron pioneros en la conexión de registros poblacionales lo han sido igualmente al transformarlos en registros longitudinales; estos estudios son de utilidad en la evaluación de impacto de intervenciones clínicas, salud pública, establecimiento de previsiones de gasto sanitario para grupos de pacientes concretos o ámbito social; en algunos países estos registros longitudinales son considerados como un elemento de la infraestructura de investigación.

El completar o pasar del análisis transversal al longitudinal presenta múltiples retos. El primero de ellos tiene que ver con la conexión de registros, paso previo en el que surgen dificultades al no estar contemplada esta fusión en el diseño de los sistemas de información que los generan, lo cual conlleva enormes problemas en la extracción, transformación y carga de datos; otros problemas a tener en cuenta son el gran volumen de datos a manejar y la calidad de los mismos, desconocida para algunas de las fuentes de datos. El siguiente reto tiene que ver con la transformación de registros fusionados orientados a una explotación transversal en registros longitudinales, lo cual nos llevará a replantear los sistemas de información operacionales de los que provienen; finalmente el propio análisis longitudinal de bases de datos poblacionales supone unos abordajes metodológicos con los que no estamos familiarizados.