Conexión de bases de datos de salud

datawarehouse saludLa digitalización de los datos relacionada con la salud, ha dado un gran impulso al uso secundario de estos datos con fines distintos a los de prestar atención directa a los pacientes. Este uso secundario incluye el uso de datos de salud para gestión, análisis, investigación, evaluación, calidad, salud pública, facturación, acreditación y certificación entre otros. El uso de estos datos crea nuevas oportunidades y a su vez nuevos desafíos tecnológicos, organizativos, éticos y sociales.

Hay múltiples proyectos para facilitar este uso secundario en sistemas sanitarios de características muy diversa; en esencia se trata de crear bases de datos poblacionales con la información sanitaria relevante y estructurada de cada persona con fines de investigación, gestión o facilitar el que se comparta la información resumida del paciente para facilitar la coordinación asistencial o acceda a la misma por propio paciente.

Algunos de los proyectos son parciales en cuanto al territorio o corresponden a proyectos de investigación en red. Estas son algunas de las iniciativas de ámbito nacional:

En USA, los NIH cuentan con iniciativas como la base de datos clínica para investigaciónconexión de registros en el NCHS que incluye múltiples bases de datos de los NIH.

En Francia, la base de datos SNIIRAM incluye información de la bases de datos de la seguridad social, reembolso de gastos, consumo de fármacos, altas hospitalarias y mortalidad; dada su complejidad, se ha creado una muestra más fácil de manejar con una cohorte de 20 años con los datos de seguridad social de 780.000 personas.

En Inglaterra, tras la experiencia del proyecto cara.data,  las bases de datos centralizadas para uso secundario están gestionadas por NHS Digital.

Los países nórdicos tienen una larga trayectoria en la conexión de registros, experiencia generada básicamente a partir de los registros específicos y los de actividad hospitalaria, a los que partiendo de un identificador común, se han ido conectando con datos de urgencias, consumo de medicamentos, atención primaria, mortalidad y múltiples encuestas y registros.

En cuanto a las soluciones tecnológicas hay distintos planteamientos, entre los que encontramos datawarehouse único, conexión de data mart o incluso registros independientes federados. Igualmente son distintas las estrategias de gobernanza, de accesibilidad y seguridad, las cuales deberán ser equivalentes en los 28 Estados miembros de la Unión Europea el 25 de mayo de 2018 con la entrada en vigor del nuevo  Reglamento General de Protección de Datos (RGPD).

Actualización 07/11/2017 sobre enlace de registros sanitarios y de población:

El proceso de digitalización, los avances en tecnologías de la información y métodos estadísticos han supuesto un gran avance en el uso secundario de datos sanitarios, tanto con finalidad de investigación como de gestión.

La conexión de distintos registros a nivel de cada persona, aumenta de una forma importante las capacidades del análisis de la información, al permitir unir datos de una persona existentes en registros y sistemas de información diversos; esto comporta importantes desafíos éticos, sociales o legales que no vamos a abordar aquí, pues nos centraremos en los aspectos técnicos de la conexión entre registros sanitarios y registros del ámbito de la estadística pública.

El enlace de cada registro individual se puede realizar con métodos determinísticos o probabilísticos. Con los métodos determinísticos el enlace se produce si coinciden plenamente el identificador o un grupo de identificadores entre las bases de datos. Con los métodos probabilísticos se calcula la probabilidad de que dos registros pertenezcan a la misma unidad de identificación, utilizando varias partes de información.

Algunos países cuentan con un identificador único de cada persona desde su nacimiento. Es el caso de Dinamarca con el Civil Personal Register o Suecia con el Personal Identity Number; de esta forma se facilitan los cruces entre los registros sanitarios y los de población. En el registro danés se estima un subregistro del 0.3%, mientras que en el sueco, el subregistro es menor del 0.1% de los nacidos, y la sobreestimación del 0.1% en personas de países nórdicos y del 4-8% de personas de otros orígenes.

En ausencia de un identificador único de propósito general, es importante al menos disponer de un identificador único a efectos sanitarios. Su propia existencia y amplitud de cobertura va a estar condicionado por aspectos legales, y además, por la propia configuración del sistema sanitario de cada país.

En Canadá se dispone de un identificador sanitario único por provincia, el Health Insurance Numbers (HINs). Usando una conexión de registros con una aproximación determinista jerárquica, obtuvieron los mismos resultados de conexión a nivel provincial entre el censo y registro de altas hospitalarias, usando el HIN o la fecha de nacimiento, el sexo y el código postal. El 80% de las altas hospitalarias fueron enlazadas con sus datos censales; los mejores resultados se obtuvieron en las personas de mayor edad y bajos ingresos y los peores en las edades más tempranas.

En Australia, The Population Health Research Network (PHRN) es la infraestructura de conexión de registros, usando el  Medicare number in Australia o la combinación de nombre, dirección postal, fecha de nacimiento y sexo. La conexión probabilística da unos falsos positivos menores del 0.5%.

En el Reino Unido, la conexión de la muestra del Longitudinal Study y el National Health Service Central Register (NHSCR) ha mostrado la calidad de los datos de los registros sanitarios; el 95,7% de la población censada aparecía en el mismo ámbito geográfico que la población de los registros sanitarios, en los que no aparecía el 0,5% de la población censal.

En Francia, están conectadas con un identificador común las bases de datos incluidas en el Système national d’information inter-régimes de l’assurance maladie SNIIR-AM; la conexión con otros ficheros de pacientes debe ser probabilística. Los estudios de validación de conexión de registros sanitarios con poblacionales en USA, muestran cómo es posible la conexión incluso con información incompleta, siendo en estos casos preferible la conexión probabilística que da buenos resultados.

La comparación de ambos métodos de enlace da unos resultados similares, aunque el probabilístico es el más adaptado para su uso general, especialmente si se trata de grandes bases de datos.

Anuncios

Desafios éticos del Big data

Hal-9000-eye

(Este artículo fué publicado inicialmente en el blog El imposible intermedio, un blog de derivas (bio)éticas entre soluciones imposibles y tal vez perfectas a propuestas intermedias y quizás posibles. En ese blog se publican contenidos elaborados por los alumnos del Experto en Bioética de la Escuela Andaluza de Salud Pública)

Tengo miedo… Tengo miedo Dave… Dave… mi cabeza se va. 

Podrían ser las últimas palabras de alguien en su lecho de muerte, pero no, son las palabras del ordenador HAL 9000 de la nave Discovery en su viaje a Júpiter, inmediatamente antes de ….dejar de funcionar.

Estoy hablando de 2001 Una odisea en el espacio, excelentemente analizada en el blog Cine y Psicología, referente en el cine en el que la rebelión de las máquinas adquiere protagonismo. En el año del estreno de la película, 1968, las máquinas no eran sentidas como una amenaza para la humanidad, atemorizada por los efectos de un posible desastre nuclear. Fue precisamente por aquella época cuando se desarrollaron tanto la bioética como la evaluación de tecnologías sanitarias, disciplinas que no tenían entre sus prioridades analizar la efectividad de incorporación de robots en la atención sanitaria o el análisis ético de las decisiones de máquinas como Hal 9000; para ambas disciplinas, algoritmos y máquinas complejas son hoy materia de estudio.

En su momento Hal 9000 era un producto de la ciencia ficción; pero ¿Que sería necesario para que Hal 9000 pudiera ser una realidad?

En principio sería necesario que las máquinas tuviesen capacidad de generar e intercambiar autónomamente datos entre ellas, mediante conexión de internet; es lo que hoy llamamos el internet de las cosas. En segundo lugar, sería necesario el almacenamiento, procesamiento y análisis de grandes volúmenes de datos que analizados con los algoritmos adecuados, nos pudieran ayudar a tomar decisiones; es lo que llamamos big data. En tercer lugar, sería necesario que las máquinas fuesen capaces de percibir lo que ocurre en su entorno y llevar a cabo acciones para maximizar sus posibilidades de éxito en alcanzar su objetivo, tomando decisiones con la información de contexto y los algoritmos que se les suministremos; es lo que llamamos machine learning.

Estos tres elemento son ya una realidad, no una historia de ciencia ficción, y es previsible que tengan un gran impacto en el ámbito sanitario, con especial incidencia en lo relacionado con el pronóstico, el diagnóstico por imagen y anatomía patológica y la precisión en el diagnóstico clínico. Para que el avance tecnológico pueda ser posible, es necesario en estos momentos avanzar en el big data; es preciso conseguir los datos suministrados generosamente ¿? por millones de pacientes, para a partir de ellos, construir algoritmos que hipotéticamente redundarán en beneficio de los propios pacientes. Así pues, cada vez utilizaremos más algoritmos para automatizar decisiones sanitarias, y como alguien ha indicado,  es necesario que sus resoluciones no solo sean correctas, sino también justas.

Las decisiones que se tomen hoy, tendrán consecuencias distintas según los valores morales de los que partamos.Es por ello por lo que surge la necesidad del análisis ético del impacto del big data en todos los ámbitos sociales, y especialmente en el sanitario. Por una parte hay que abordar los desafíos en la prestación de atención a los pacientes que pueden surgir en la gestión de la información de la historia clínica electrónica; pero estos son de pequeño calado en comparación con los derivados del previsible uso de estas bases de datos para generar nuevo conocimiento, generar algoritmos de ayuda a la toma de decisiones y su incorporación a procesos automatizados.

Se han publicado varios documento de interés al respecto. Entre ellos, y no exclusivos,  tenemos el Documento sobre bioética y Big Data de salud: explotación y comercialización de los datos. Este documento del Grupo de Opinión del Observatori de Bioètica i Dret de la Universitat de Barcelona, se elaboró para dar respuesta al proyecto VISC+ (Más Valor a la Información de Salud en Cataluña), y analiza los problemas derivados de: 1) las posibles vulneraciones de los derechos de los ciudadanos y 2) la falta de transparencia y debate público informado, en una cuestión en la que subyace el tráfico de datos personales, reutilizados con fines distintos al tratamiento médico directamente  recibido por el paciente de los usuarios de la sanidad pública. Sus recomendaciones no obstante son más amplias, y abordan desde aspectos culturales, a las limitaciones de la anonimización de los datos, la colaboración público-privado o los procesos de información y debate ciudadano en la toma de decisiones por parte de los poderes públicos.

Otro documento interesante es Perspectives on Big Data, Ethics, and Society  del Council for Big Data Ethics and Society, resume los encuentros y discusiones que este grupo ha llevado a cabo en los dos últimos años. El documento describe los problemas éticos planteados por la agregación de datos biomédicos y su reutilización, en aspectos cómo privacidad, consentimiento informado, profesionalismo, relaciones de poder y gobierno ético de las plataformas Big Data. Establece recomendaciones a nivel político, formativo y de desarrollo de cultura ética, así como líneas de investigación para responder a preguntas concretas.

De gran interés es el Preliminary Draft Report of the International Bioethics Committee of UNESCO  (IBC) on Big data and Health. El informe detalla los desafíos que supone el big data en aspectos como:

  • Autonomía: Los mecanismos tradicionales de consentimiento informado y disociación o anonimización de datos, parecen insuficientes para garantizar la autonomía de las personas.
  • Privacidad y Confidencialidad: Las personas son cada vez más trasparentes, mientras que el entorno tecnológico es cada vez más opaco, especialmente respecto a sus algoritmos.
  • Propiedad de los datos: Una de las cuestiones tratadas en el documento del grupo de la Universidad de Barcelona arriba citado.
  • Justicia: Brecha digital, Beneficios compartidos, No discriminación, Sostenibilidad energética y medioambiental.
  • Investigación: Investigación con datos sanitarios en el ámbito tecnológico, uso de datos sin finalidad comercial en el ámbito universitario que acaban en el sector empresarial, reidentificación de datos anonimizados.

El artículo Are Research Ethics Obsolete In The Era Of Big Data?  tiene un planteamiento diferente a los anteriores, y se pregunta si realmente habrá preocupación ética por los datos en un futuro, en el que las personas crecieron en un mundo digital en el que han compartido su vida. Por otra parte hay que tener presente que ya vamos teniendo resultados concretos en la investigación con big data, en ámbitos como el de las enfermedades raras, los efectos adversos de los medicamentos o la propia investigación clínica o genética; incluso el uso de esta metodología puede afectar al paradigma vigente de evidencia científica. 

Nos encontramos pues ante un desafío, en el que habrá que encontrar un equilibrio entre las bondades de la investigación biomédica con big data y la seguridad y privacidad de las personas.

Big Data, su interés en salud.

En un artículo reciente hacía referencia al creciente interés de “analista de datos” como profesión y el “análisis de datos” como competencia profesional. Hay un ámbito de desarrollo de esta profesión o competencia que podríamos considerar artesanal o de pequeñas dimensiones, mientras que otro lo encontraríamos en el “Big data”.

El término Big data fué acuñado hace 10 años y se aplica a aquellos conjuntos de datos que por su tamaño no se pueden captura, gestionar o procesar en un tiempo adecuado con los programas de cálculo habituales; el tamaño que determina este límite aumenta con el tiempo. Es la evolución del Business intelligence y como suele ocurrir siempre, no es una cuestión sólo de tecnologías sino también de la colaboración entre profesionales de distintos perfiles y de una estrategia definida de la organización.

Al aumento en el volumen de datos de interés para las organizaciones contribuyen los datos estructurados gestionados internamente por las organizaciones, a los que hay que añadir el gran volumen de datos generados en las redes sociales, los datos multimedia y otros no estructurados tanto en formato texto o alfanumérico así como los datos obtenidos mediante lo que se ha llamado “el Internet de las cosas”.

Las dimensiones que definen el Big data son:

1.        Volumen.  Incremento en el volumen de datos generados por los sistemas transascionales así como gestores documentales o fuentes externas, lo que brinda nuevas capacidades analíticas.

2.        Variedad. Información alfanumérica normalizada o no, estructurada o no, multimedia, texto, datos de dispositivos móviles etc.

3.        Velocidad. Incluye el flujo de datos, la creación de registros estructurados y su disponibilidad.

El Hipo Cicle de Gartner indicaba en 2011 que el Big data se encontraba entre las tecnologías que estaban generando mayores expectativas, con las primeras generaciones de productos en el mercado pero que todavía necesitan mucha personalización; se espera que entre 2013 y 2016 se extenderá su uso hasta el 20-30% de las organizaciones susceptibles de incorporar estas herramientas y que tendrán un gran impacto en el funcionamiento y toma de decisiones en estas organizaciones.

En el sector sanitario oiremos igualmente hablar de este término, pues fué un tema importante en la conferencia anual 2012 de  Healthcare Information and Management Systems Society (HIMSS); los principales proveedores de tecnologías están desarrollando productos para el ámbito sanitario.

Suscribo la opinión de quienes dicen que el análisis actual de los datos sanitarios es insuficiente, aunque van surgiendo iniciativas de explotación de la historia de salud digital, teniendo por delante un camino que se plantea complicado por el formato de la información (estructurada o no estructurada), problemas de normalización, calidad y un aspecto que no hay que olvidar: tendremos grandes volúmenes de datos pero eso no evita que estos tengan sesgos que limiten el análisis.

El proyecto de “Base de datos clínicos de atención primaria” del Sistema Nacional de Salud es una buena iniciativa al respecto, aunque tiene todavía un largo camino que recorrer.

SNOMED CT

Con la finalidad de garantizar la interoperabilidad semántica en el proyecto de Historia Clinica Digital de SNS, el Consejo Interterritorial del SNS decidió la implantación en España de SNOMED CT, disponiéndose en este enlace acceso al proyecto (muy recomendable el apartado “Preguntas más frecuentes”).

Para tener una visión general de SNOMED CT recomiendo esta serie de 9 videos:

Video 2.

Video 3.

Video 4.

Video 5.

Video 6.

Video 7.

Video 8.

Video 9.

¿Donde están los datos sanitarios?

Las organizaciones sanitarias generan cada día más datos sin que ello suponga que los distintos usuarios dispongan de la información que necesitan en el momento, formato y desagregación oportunos.

Para tratar de abordar una mejora en la disponibilidad de información y la generación de conocimiento a partir de la misma, es preciso disponer de un análiss de la infraestructura de datos en nuestras organizaciones para continuar con una gestión adecuada de los mismos y los transformemos en información de la que podamos obtener conocimiento para que nuestras organizaciones estén basadas en el conocimiento.

Este conocimiento ha de servir de ayuda a la toma de decisiones: a los ciudadanos en sus deciones personales sobre su salud o la utilización de servicios sanitarios y su valoración de la política sanitaria, los profesionales para su desempeño profesional y los directivos para la toma de decisiones a su nivel.

¿Donde están los datos sanitarios?:

1- Estadísticas oficiales. La respuesta más probable a esta pregunta hace unas décadas hubiera sido en “las estadísticas sanitarias incluidas en las estadísticas oficiales”. Su importancia relativa en el conjunto de datos estadísticos sanitarios va disminuyendo, habiendo cada vez más datos estadísticos sanitarios que no forman parte de la estadística pública: han crecido las fuentes de datos pero no se han ido incorporando a la estadística oficial.

2-Estadísticas sanitarias no oficiales. Con un importante crecimiento en las últimas décadas, e incluyen multitud de registros y datos obtenidos de los sistemas de información corporativos de soporte a las operaciones de las organizaciones. Entre ellas nos encontrariamos registros de enfermedades, datos de gasto sanitario etc.

3- Cartografía. Es una fuente de datos de interés sanitario de importancia creciente: infraestructura cartográfica sanitaria, representación cartográfica de información sanitaria etc.

4- Sistemas de soporte a toma de decisiones. Algunos sistemas de información corporativos disponen de un módulo específico de tratamiento de la información que ofrece datos e indicadores predefinidos a sus usuarios, tal es el caso de los datos de consumo de medicamentos. En otros proyectos más complejos se incorpora en un único datawarehouse datos de múltiples sistemas de información, para constituir los cuadro de mandos, siendo excepcional el nivel superior referido a los cuadro de mando integral.

5- Sistemas de información operacionales. Es donde se encuentran la mayoría de los datos de nuestras organizaciones: en cada administración sanitaria hay cientos sino miles de sistemas de estas características, en general con poca integración entre los mismos. Dan soporte a las operaciones de nuestras organizaciones y tenemos el gran reto de saacr información de los mismos. Entre ellos merece mención especial la historia clinica electrónica, base de los datos estadísticos no ya del futuro sino ya desde el momento actual, aunque es preciso realizar trabajos previos antes de su utilización con fines estadísticos sistemáticos.

Pocas organizaciones tienen elaborado y actualizado su mapa de datos; se puede partir del inventariado de los sistemas de información, pero en ocasiones ni siquiera estos están debidamente identificados.

Interoperabilidad y Salud

La interoperatividad es la condición mediante la cual sistemas heterogéneos pueden intercambiar procesos o datos, o como los define la Ley 11/2007 de 22 de junio de acceso electrónico de los ciudadanosa los servicios públicos: “Capacidad de los sistemas de información, y por ende de los procedimientos a los que éstos dan soporte, de compartir datos y posibilitar el intercambio de información y conocimiento entre ellos”.

La interoperabilidad técnica es aquella dimensión de la interoperabilidad relativa a la relación entre sistemas y servicios de tecnologías de la información, incluyendo aspectos como las interfaces, la interconexión, la integración de datos y servicios, la presentación de la información, la accesibilidad y la seguridad, u otros de naturaleza homóloga. Se consigue con estándares y especificaciones técnicas.

La interoperabilidad semántica es aquella dimensión de la interoperabilidad relativa a que la información intercambiada pueda ser interpretable de forma automática por aplicaciones que no intervinieron en su creación. Implica compartir los modelos de datos, entendidos estos como el conjunto de definiciones (modelo conceptual), interelaciones (modelo lógico) y reglas y convenciones (modelo físico) que permiten describir los datos para su intercambio. Se consigue por tanto con que estén claros los conceptos de lo que se intercambia.

La interoperabilidad organizativa es aquella dimensión de la interoperabilidad relativa a la capacidad de las entedidades y de los procesos a través de los cuales llevan a cabo sus actividades para colaborar con el objeto de alcanzar logros mutuamente acordados relativos a los servicios que prestan. Implica conocimiento y reconocimiento de los procedimientos que dan soporte a los datos que se intercambian y se consigue realizando los mismos procesos y procedimeintos en las organizaciones que tratan de intercambiar algo.

La Ley 11/2007 , en su Título Cuarto, determina los principios para garantizar la interoperabilida dentre los sistemas de información. El artículo 41 está dedicado a la interoperabilidad de los sistemas de información en su faceta técnica, semántica y organizativa y el Artículo 42 al Esquema Nacional de Interoperabilidad y Esquema Naconal de Seguridad. Esta norma está en linea con el proyecto de interoperabiliadad en el marco europeo.

En el plano sanitario han sido complicadas las experiencias de interoperabilidad en el Sistema Nacional de Salud pero se va consiguiendo; el gran reto es el proyecto de Historia Clínica Digital del SNS. En su primera fase, se consigue interoperabilidad técnica pudiéndose acceder a los repositorios de las informes de la historia clínica de un paciente desde otra Comunidad Autónoma. Se accede a una imagen de los informes y por tanto es un escalón bajo de interoperabilidad. El siguiente paso es llegar a la interoperabilidad semántica, para lo que se han tomado iniciativas como la implantación de SNOMED y los OID. La interoperabilidad organizativa es lógicamente más complicada.

En la gestión digital de datos en salud pública observamos una evolución cuya primera etapa fué trabajar con bases de datos aisladas; posteriormente fué necesario desarrollar sistemas de información más complejos,  con poca o ninguna integración con otros sistemas pero sin salir del ámbito de la salud pública; a este momento corresponden por ejemplo los proyectos de redes de alerta en salud pública que trataban de integrar información de vigilancia de la salud e higiene alimentaria.

En este escenario, los problemas de interoperabilidad eran mínimos, pero se fueron haciendo más complejos en la medida que fué necesario relacionarse con sistemas de información de otros ámbitos como la historia clínica electrónica, bases de datos de usuarios, o registros de profesionales sanitarios. Creo que esta es la situación más común en la actualidad a la que hay que añadir la incorporación de la administración electrónica (que requiere integración con otros sistemas corporativos).

Un nuevo reto se nos presenta para el desarrollo de la acción intersectorial por la Salud, en la medida que nuestros sistemas se tienen que entender con otros de fuera del sector salud, como Hacienda (subvenciones), Agricultura (higiene alimentaria), Medio Ambiente (sanidad ambiental), Asuntos sociales (ámbito socio-sanitario), Protección Civil (emergencias), Administración Pública (administración electrónica, registro de personal funcionario), sector privado (empresas distribuidoras de agua, centros sanitarios privados  o cualquier entidad que tenga que darnos información y desee hacerlo directamente desde sus sistemas de información), sólo por citar algunos, además de la interoperabilidad con el Ministerio de Sanidad y Política Social, para lo que este ha de definir los estándares correspondientes (sería interesante que se incluyesen estas competencias en la esperada Ley de Salud Pública).

En este escenario, hablar de sistemas de información específicos en salud pública tendrán cada vez menos sentido y será más adecuado hablar de sistemas de información de interés en o para la salud pública.

SNOMED CT

7bc97b97c1

El Ministerio de Sanidad y Política Social se ha incorporado a la Organización para el Desarrollo de Estándares Internacionales en Terminología de la Salud (IHTSDO), organización sin ánimo de lucro que tiene por finalidad la estandarización de la terminología clínica y que en 2007 adquirió SNOMED CT (Systematized Nomenclature of Medicine – Clinical Terms).

SNOMED CT fué desarrollado por el College of American Pathologists y se está convirtiendo en el estandar para el intercambio de información clínica. Es muy importante su disponibilidad en España, porque es un elemento básico para permitir la interoperabilidad en los proyectos de Historia Clínica Electrónica y permitirá su distribución a las organizaciones públicas y privadas que necesiten utilizarlo dentro del territorio nacional.

El acceso a SNOMED-CT era uno de los pasos necesarios establecidos por la Subcomisión de Sistemas de Información (del Consejo Interterritorial del SNS) para avanzar en la interoperabilidad semántica.

Felicidades a los impulsores de esta medida desde la Agencia de Calidad del SNS y específicamente del Instituto de Información Sanitaria (Ministerio de Sanidad y Política Social).