Expectativas del “big data” y salud.

big data salud healthLa tecnología “big data” ha pasado (usando la terminología de Gartner) del pico de la expectativa, al valle de la desilusión, esperando alcanzar algún día la llanura de la productividad. Su pico de máxima expectativa como tecnología emergente fue en el año 2013, con previsiones de implantación entre 5 y 10 años; ese fue el año en el que los NIH iniciaron el programa The “big data” to Knowledge (BD2K), incluido ahora en el NIH Data Science Community. A partir del 2015, como suele ser habitual con las nuevas tecnologías, disminuyeron sus expectativas, con planteamientos más realistas. Esta situación gereral es igualmente aplicable al ámbito sanitario.

En la actualidad, la expectativa máxima en todos los sectores, incluido el sanitario está en la inteligencia artificial, que se supone será la tecnología más disruptiva en los próximos 10 años. Para su desarrollo se requieren entre otras cosas, avances notables en ““big data”” y en el desarrollo de algoritmos de aprendizaje automático.

El análisis “big data” presenta diferencias con el análisis estadístico habitual, sumarizadas en el trabajo Medical “big data”: promise and challenges, en el que se indica que a pesar de las expectativas, su aplicación actual es más prometedora que efectiva. La evidencia de sus beneficios es escasa, enfrentándonos a problemas relacionados con la calidad delos datos, las limitaciones metodológicas de los estudios observacionales, aspectos legales y de gobernanza, entre otros. Se abre un debate metodológico interesante, pues a modo de ejemplo, hay diferencias en los resultados de la artroscopia de cadera, según se use análisis “big data” (peores resultados) o ensayos clínicos.

En una revisión sistemática se ha mostrado como los principales desafíos se hallan en la estructura, seguridad, estandarización, almacenaje y transferencia de datos, así como su gestión y gobierno.   Las principales oportunidades están en la mejora de la calidad asistencial, mejora de la salud desde la perspectiva poblacional, detección temprana de enfermedades, mayor accesibilidad y calidad de datos, mejora en la toma de decisiones, y reducción de costes.

Otra revisión sistemática, indica que no hay consenso en cuanto a una definición operativa de “big data” en la investigación sanitaria, siendo su escenario de uso muy amplio (desde unidades hospitalarias o patologías específicas a servicios de salud en su conjunto o industria farmacéutica), Sus usos en el ámbito asistencial se centran en el apoyo a las decisiones clínicas, la optimización de los procesos asistenciales y la reducción de costes; el mayor desafío en su implantación está en la falta de evidencia de su efectividad, al ser insuficientes los estudios de evaluación, con evaluaciones de impacto más cualitativas que cuantitativas. En cuanto a herramientas, la metodología más usada es el procesamiento del lenguaje natural y la herramienta Hadoop.

En cuanto al uso de datos por la industria farmacéutica, se han señalado tensiones entre la privacidad, la reutilización de datos bajo el paraguas del “open data” y la necesidad de datos masivos del “big data”.

En una revisión sistemática sobre las fuentes y métodos usados en el análisis de enfermedades crónicas, se indica que el “big data” permite análisis predictivo para: identificación de pacientes con riesgo de reingreso, prevención de infecciones hospitalarias, prevención de  enfermedades crónicas y obtención de modelos predictivos de calidad. Los métodos predictivos más usados son el árbol de decisiones, Naïve Bayes y Red Neuronal Artificial (ANN) y la herramienta Hadoop.

El debate sobre las amenazas y oportunidades del “big data” en el sector sanitario sigue abierto; es un camino a recorrer, con grandes posibilidades de tener un impacto positivo, aunque para ello debe superar importantes obstáculos.

Actualización 13 de junio: Excelente revisión sistemática sobre al análisis de grandes volúmenes de datos:  A Systematic Review on Healthcare Analytics: Application and Theoretical Perspective of Data Mining.

In recent years, a number of peer-reviewed articles have addressed different dimensions of data mining application in healthcare. However, the lack of a comprehensive and systematic narrative motivated us to construct a literature review on this topic. We found that the existing literature mostly examines analytics in clinical and administrative decision-making. Use of human-generated data is predominant considering the wide adoption of Electronic Medical Record in clinical care. However, analytics based on website and social media data has been increasing in recent years. Lack of prescriptive analytics in practice and integration of domain expert knowledge in the decision-making process emphasizes the necessity of future research.

Y aqui otra, tambien estupenda, sobre deep learnibg  Opportunities and obstacles for deep learning in biology and medicine

Has deep learning transformed the study of human disease? Though the answer is highly dependent on the specific domain and problem being addressed, we conclude that deep learning has not yet realized its transformative potential or induced a strategic inflection point. Despite its dominance over competing machine learning approaches in many of the areas reviewed here and quantitative improvements in predictive performance, deep learning has not yet definitively ‘solved’ these problems.

 

Anuncios

CMBD: Privacidad vs Open data

open data salud privacidad transparenciaMe ha resultado muy interesante la publicación en la página web de @SaludMadrid de los microdatos del CMBD hospitalarios y ambulatorios, pues desde la perspectiva de “open data” son unos datos muy esperados. Ello me parece una buena iniciativa, si bien, pienso que la forma en la que se ha hecho no es adecuada, puesto considero que en determinadas circunstancias, podría producirse una violación de la seguridad de datos personales.

Los ficheros publicados contienen de forma anónima la información completa de cada registro del CMBD. Entre esta información, además del Servicio y Hospital de Ingreso y diagnóstico al alta entre otras cosas, se incluye información sobre municipio de residencia y código postal, fecha de nacimiento, fecha y hora de llegada al servicio de urgencias, fecha y hora del ingreso hospitalario, fecha y hora del alta, fecha y hora del traslado etc.

Según informa César Pascual, Director General de Coordinación de Asistencia Sanitaria de la Consejería de Salud, la iniciativa se enmarca en la “estrategia de datos abiertos de transparencia” y el siguiente paso será “actualizar en el mismo formato el consumo de fármacos tanto por hospital como por receta”. Parte de la idea de que “…. medir resultados en lugar de actividad resulta complejo con los modelos de evaluación actuales, pero el primer paso es, sin duda, la transparencia: “El futuro está en el open data, y hacia ahí estamos trabajando. Tenemos bases de datos muy amplias pero sólo hacemos públicos algunos indicadores, que no dejan de ser interpretaciones de los datos. Debemos publicar los datos y que el que quiera los interprete””.

De lo anterior se desprende que podría ser una iniciativa open data” amparada por la Ley 37/2007, de reutilización de la información del sector público, entendiendo por reutilización, el uso de documentos que obran en poder de las Administraciones y organismos del sector público, por personas físicas o jurídicas, con fines comerciales o no comerciales. Esta ley sin embargo no es aplicable a los documentos con límites en su acceso por motivos de protección de los datos personales. Prevalece el derecho a la protección de datos de carácter personal frente al de transparencia, a menos que se produzca la disociación de los datos. Cuando la información se facilita de forma disociada, y contuviera elementos suficientes que pudieran permitir la identificación en el proceso de reutilización, queda prohibida la reversión del procedimiento de disociación mediante la adición de nuevos datos obtenidos de otras fuentes.

Por otra parte, el CMBD genera datos incluidos en la estadística pública; la normativa estadística establece la obligatoriedad del secreto estadístico y la limitación en la difusión cuando se atente a la protección del secreto estadístico.

Sin necesidad de entrar en las especificaciones especialmente restrictivas sobre los datos sanitarios contemplados en la Ley 41/2002 de autonomía del paciente y documentación clínica, la LOPD establece claramente que son datos de carácter personal cualquier información concerniente a personas físicas identificadas o identificables; no siendo necesario el consentimiento informado si se comunican datos tras proceso de disociación, entendido este como el tratamiento de datos personales de modo que la información que se obtenga no pueda asociarse a persona identificada o identificable.

El RGPD establece igualmente que el principio de protección de datos debe aplicarse a toda la información de una persona física identificada o identificable. No hace referencia a datos disociados, y establece que los principios de protección de datos no deben aplicarse a la información anónima, ni a los datos convertidos en anónimos de forma que el interesado no sea identificable, o deje de serlo.

Introduce no obstante el concepto de seudonimización entendido como el tratamiento de datos personales de manera tal que ya no puedan atribuirse a un interesado sin utilizar información adicional, siempre que dicha información adicional figure por separado y esté sujeta a medidas técnicas y organizativas destinadas a garantizar que los datos personales no se atribuyan a una persona física identificada o identificable. Los datos personales seudonimizados, que cabría atribuir a una persona física mediante la utilización de información adicional, deben considerarse información sobre una persona física identificable.

Podríamos pues considerar que los datos del CMBD de la Comunidad de Madrid son datos seudonimizados y por tanto sometidos al RGPD. Podrían ser utilizados en las circunstancias específicas que marca el RGPD como es la investigación, pero no ser susceptibles de distribuirse de forma generalizada, aunque sean datos anónimos.

Se ha indicado igualmente que la publicación de los datos del CMBD es una medida de transparencia. La Ley de transparencia contempla el equilibrio entre la protección de datos y la transparencia: en la medida en que la información afecte directamente a la organización o actividad pública del órgano prevalecerá el acceso, mientras que, por otro, se protegen los datos que la normativa califica como especialmente protegidos, para cuyo acceso se requerirá, con carácter general, el consentimiento de su titular. Establece límites claros tanto en cuanto al derecho de acceso por parte de los ciudadanos, como a la publicidad activa por parte de los organismos públicos;  cuando la información contuviera datos especialmente protegidos, la publicidad sólo se llevará a cabo previa disociación de los mismos.

En base a lo anterior, podríamos concluir que se ha procedido a publicar datos sin identificación personal, que cabrían en el concepto de datos seudonimizado. Al no establecer ninguna restricción en cuanto a mínimo ámbito geográfico de difusión, las personas serían fácilmente identificables en municipios pequeños, cual es el caso de los 99 municipios de la Comunidad de Madrid con población menor de 5000 habitantes.

De hecho, en la distribución estadística sobre datos tales como mortalidad, interrupción voluntaria del embarazo o incidencia de enfermedades, tradicionalmente se han establecido límites en cuanto a tamaño de la población, por debajo de los cuales no se distribuyen datos individuales aunque estos fuesen anónimos; además, había criterios generales del tipo que no hubiese ningún ámbito de análisis definido en la que en una tabulación hubiese elementos que permitiesen identificar a una persona.

Por otra parte, el paradigma de anonimización y establecimiento de límites territoriales en su distribución, ha quedado obsoleto, pues con recursos, tratamiento adecuado e información mínima,  es posible identificar con alta probabilidad a personas concretas en ficheros anónimos al cruzarlos con otros ficheros en los que sí figure la identificación. Los datos publicados sobre el CMBD, contienen datos clave para estos propósitos como fechas y lugares. Una revisión sistemática en 2011 estimaba que en un 34% de los registros de ficheros sanitarios se podría reidentificar a la persona, si bien se trataba de estudios a pequeña escala o en los que los datos no habían sido disociados con los estándares adecuados.

Lamentablemente, el tiempo ha confirmado la potencia de las técnicas de re-identificación, alcanzándose unos niveles muy elevados de identificación de las personas, en determinadas circunstancias próximos al 100%.

En definitiva, es preciso no confundir las iniciativas de open data (uso de los datos con fines comerciales o no), de las de transparencia de la actividad pública y acceso de las personas a la información pública. Además, hay que utilizar las técnicas más avanzadas en los procesos de disociación, completándolas con técnicas de transformación de datos (synthetic data); pero sobretodo establecer procedimientos de tratamiento de datos con altos estándares éticos y aplicando (por supuesto) el Reglamento General de Protección de Datos, que hoy entra en vigor.

Ética digital

Etica digitalLa legislación no puede resolver todos los problemas que surgen en relación con la protección de datos de carácter personal.

Para muchos de estos problemas, el marco adecuado de resolución, está en al ámbito de la ética. El Ethics Advisory Group  del European Data Protection Supervisor (EDPS) ha publicado el informe Towards a digital ethics, documento oportuno que surge en el contexto del creciente interés por la ética, la entrada en vigor del Reglamento General de Protección de Datos (RGPD) y la transición del paradigma analógico al digital, en la que es preciso identificar los valores de las personas que pueden verse amenazados.

El informe identifica algunas tendencias tecnológicas que obligan a un análisis de la relación entre la tecnología y los valores personales en lo que llama ética digital: big data, internet de las cosas, computación en la nube e inteligencia artificial (especialmente máquinas que aprenden). Hace especial mención sobre la gobernanza de los datos sanitarios, tanto asistenciales como de investigación, indicando que podría estar ocurriendo una transición de los marcadores biológicos a los marcadores digitales.

El documento reanaliza los valores fundamentales de la Unión Europea desde la perspectiva de la ética digital y cómo pueden verse afectados esos valores.

Identifica cambios socioculturales que acompañan a la era digital:

  • De la persona al sujeto digital.
  • De la vida analógica a la digital.
  • Del gobierno de las instituciones al gobierno de los datos.
  • De una sociedad de riesgo igualitario a una sociedad segmentada.
  • De la autonomía personal a la convergencia entre humanos y máquinas.
  • De la responsabilidad individual a la responsabilidad distribuida.
  • De la justicia penal a la justicia preventiva

Finaliza apuntando algunos aspectos clave:

  1. La dignidad de la persona debe permanece inviolable en la era digital.
  2. La persona y sus datos personales son inseparables el uno del otro.
  3. Las tecnologías digitales pueden poner en riesgo las bases del gobierno democrático.
  4. El procesamiento digital de datos puede suponer nuevas formas de discriminación.
  5. La mercantilización de los datos puede cambiar los valores de las personas respecto a los datos de carácter personal.

Estadísticas longitudinales de base poblacional en salud

RGPD Salud Investigacion Proteccion de datosLa idea inicial para este artículo ha sido tomada de Francisco Viciana: “Estadísticas longitudinales de población. El desarrollo de un nuevo sistema de producción estadística”.

Las estadísticas sanitarias se han desarrollaron históricamente con los mismo planteamientos que el resto de la estadística pública: captura, explotación y difusión de datos producidos por una fuente concreta de información, asociada a un ámbito social o incluso organizativo concreto (ejemplo hospitalario, salud pública etc), referida a un periodo concreto de tiempo a modo de foto fija y con la característica de dato oficial, no modificable aunque se produjesen actualizaciones o mejoras en la calidad de los datos.

De esta forma se podía realizar un análisis exhaustivo de una fuente, pero no se podía enriquecer este análisis con otra fuente distinta con la que pudiera estar relacionada, salvo a nivel ecológico, con el grupo como unidad de análisis; este tipo de análisis como es bien conocido, está sometido a un alto riesgo de sesgo. El análisis tenía limitaciones para tratar datos de distintos sectores, clave por ejemplo para la acción intersectorial en salud, o dentro del sector salud, para el análisis que incluyese atención primaria y hospitales.

Con el paso al mundo digital, se reprodujo el esquema analógico, se crearon “silos de información” aislados, reproduciéndose el esquema tradicional de la producción estadística (corte transversal, explotación monográfica aislada, difusión en tablas y posteriormente en ficheros anonimizados, oficialidad, periodicidad y cierre, etc).

El gran cambio se produjo con las posibilidades de conexión de registros, realizándose la unión de distintas fuentes a nivel de la persona, no del grupo; el instrumento que ha permitido en el ámbito sanitario hacer estas conexiones ha sido la base de datos de usuarios, uno de los pilares de las estrategias de digitalización. Así pues se ha recorrido un camino de conexión de registros, cuyo antecedente más relevante lo encontramos en los países nórdicos que disponían de un número único de identificación personal de toda la población desde la década de 1940, y que les ha ayudado en la toma de decisiones y permitido grandes avances en la investigación en salud pública y servicios de salud.

Una vez conectados los registros, podemos relacionar los estados de una persona en distintas dimensiones, pudiéndose establecer las relaciones que existen entre esos estados; por ejemplo prevalencia de enfermedades crónicas, su relación con necesidades asistenciales de distinto tipo y consumo de recursos. Se trata de una foto fija, análisis transversal que supera los límites de los “silos de información” al  permitir el análisis simultaneo e intersectorial de distintas fuentes. Estas conexiones han supuesto un gran avance, y para su establecimiento se ha necesita realizar grandes esfuerzos, al no estar contempladas estas conexiones en el diseño de los sistemas de información.

Sabemos no obstante, que lo que ocurre en un punto de la biografía de una persona está condicionado por eventos ocurridos con anterioridad y que a su vez va a condicionar lo que ocurra en el futuro. Es por ello por lo que surgieron las estadísticas longitudinales a nivel poblacional, en las que sobre la trayectoria vital de una persona se pueden ir colocando eventos registrados en fuentes distintas; además de existir bastantes iniciativas a nivel internacional, hay experiencias en los órganos estadísticos, tanto en el INE (Estudio Demográfico Longitudinal), como el Instituto Vasco de Estadística (Registro de Población) e IECA (Base de Datos Longitudinal de Población de Andalucíade). Esto supone un paso importante respecto a las estadísticas transversales, dado que nos permite establecer las relaciones entre un evento actual y otro acaecido previamente en su trayectoria vital, así como predecir el tipo de eventos que pudieran ocurrir en el futuro, pasando de la estática de una foto fija, a la dinámica de una película.

Los países que fueron pioneros en la conexión de registros poblacionales lo han sido igualmente al transformarlos en registros longitudinales; estos estudios son de utilidad en la evaluación de impacto de intervenciones clínicas, salud pública, establecimiento de previsiones de gasto sanitario para grupos de pacientes concretos o ámbito social; en algunos países estos registros longitudinales son considerados como un elemento de la infraestructura de investigación.

El completar o pasar del análisis transversal al longitudinal presenta múltiples retos. El primero de ellos tiene que ver con la conexión de registros, paso previo en el que surgen dificultades al no estar contemplada esta fusión en el diseño de los sistemas de información que los generan, lo cual conlleva enormes problemas en la extracción, transformación y carga de datos; otros problemas a tener en cuenta son el gran volumen de datos a manejar y la calidad de los mismos, desconocida para algunas de las fuentes de datos. El siguiente reto tiene que ver con la transformación de registros fusionados orientados a una explotación transversal en registros longitudinales, lo cual nos llevará a replantear los sistemas de información operacionales de los que provienen; finalmente el propio análisis longitudinal de bases de datos poblacionales supone unos abordajes metodológicos con los que no estamos familiarizados.

Conexión de bases de datos de salud

datawarehouse saludLa digitalización de los datos relacionada con la salud, ha dado un gran impulso al uso secundario de estos datos con fines distintos a los de prestar atención directa a los pacientes. Este uso secundario incluye el uso de datos de salud para gestión, análisis, investigación, evaluación, calidad, salud pública, facturación, acreditación y certificación entre otros. El uso de estos datos crea nuevas oportunidades y a su vez nuevos desafíos tecnológicos, organizativos, éticos y sociales.

Hay múltiples proyectos para facilitar este uso secundario en sistemas sanitarios de características muy diversa; en esencia se trata de crear bases de datos poblacionales con la información sanitaria relevante y estructurada de cada persona con fines de investigación, gestión o facilitar el que se comparta la información resumida del paciente para facilitar la coordinación asistencial o acceda a la misma por propio paciente.

Algunos de los proyectos son parciales en cuanto al territorio o corresponden a proyectos de investigación en red. Estas son algunas de las iniciativas de ámbito nacional:

En USA, los NIH cuentan con iniciativas como la base de datos clínica para investigaciónconexión de registros en el NCHS que incluye múltiples bases de datos de los NIH.

En Francia, la base de datos SNIIRAM incluye información de la bases de datos de la seguridad social, reembolso de gastos, consumo de fármacos, altas hospitalarias y mortalidad; dada su complejidad, se ha creado una muestra más fácil de manejar con una cohorte de 20 años con los datos de seguridad social de 780.000 personas.

En Inglaterra, tras la experiencia del proyecto cara.data,  las bases de datos centralizadas para uso secundario están gestionadas por NHS Digital.

Los países nórdicos tienen una larga trayectoria en la conexión de registros, experiencia generada básicamente a partir de los registros específicos y los de actividad hospitalaria, a los que partiendo de un identificador común, se han ido conectando con datos de urgencias, consumo de medicamentos, atención primaria, mortalidad y múltiples encuestas y registros.

En Canadá, con fines de investigación cuentan con el Population Research Registry to Support Primary Healthcare en Brithis Columbia.

En cuanto a las soluciones tecnológicas hay distintos planteamientos, entre los que encontramos datawarehouse único, conexión de data mart o incluso registros independientes federados. Igualmente son distintas las estrategias de gobernanza, de accesibilidad y seguridad, las cuales deberán ser equivalentes en los 28 Estados miembros de la Unión Europea el 25 de mayo de 2018 con la entrada en vigor del nuevo  Reglamento General de Protección de Datos (RGPD).

Actualización 07/11/2017 sobre enlace de registros sanitarios y de población:

El proceso de digitalización, los avances en tecnologías de la información y métodos estadísticos han supuesto un gran avance en el uso secundario de datos sanitarios, tanto con finalidad de investigación como de gestión.

La conexión de distintos registros a nivel de cada persona, aumenta de una forma importante las capacidades del análisis de la información, al permitir unir datos de una persona existentes en registros y sistemas de información diversos; esto comporta importantes desafíos éticos, sociales o legales que no vamos a abordar aquí, pues nos centraremos en los aspectos técnicos de la conexión entre registros sanitarios y registros del ámbito de la estadística pública.

El enlace de cada registro individual se puede realizar con métodos determinísticos o probabilísticos. Con los métodos determinísticos el enlace se produce si coinciden plenamente el identificador o un grupo de identificadores entre las bases de datos. Con los métodos probabilísticos se calcula la probabilidad de que dos registros pertenezcan a la misma unidad de identificación, utilizando varias partes de información.

Algunos países cuentan con un identificador único de cada persona desde su nacimiento. Es el caso de Dinamarca con el Civil Personal Register o Suecia con el Personal Identity Number; de esta forma se facilitan los cruces entre los registros sanitarios y los de población. En el registro danés se estima un subregistro del 0.3%, mientras que en el sueco, el subregistro es menor del 0.1% de los nacidos, y la sobreestimación del 0.1% en personas de países nórdicos y del 4-8% de personas de otros orígenes.

En ausencia de un identificador único de propósito general, es importante al menos disponer de un identificador único a efectos sanitarios. Su propia existencia y amplitud de cobertura va a estar condicionado por aspectos legales, y además, por la propia configuración del sistema sanitario de cada país.

En Canadá se dispone de un identificador sanitario único por provincia, el Health Insurance Numbers (HINs). Usando una conexión de registros con una aproximación determinista jerárquica, obtuvieron los mismos resultados de conexión a nivel provincial entre el censo y registro de altas hospitalarias, usando el HIN o la fecha de nacimiento, el sexo y el código postal. El 80% de las altas hospitalarias fueron enlazadas con sus datos censales; los mejores resultados se obtuvieron en las personas de mayor edad y bajos ingresos y los peores en las edades más tempranas.

En Australia, The Population Health Research Network (PHRN) es la infraestructura de conexión de registros, usando el  Medicare number in Australia o la combinación de nombre, dirección postal, fecha de nacimiento y sexo. La conexión probabilística da unos falsos positivos menores del 0.5%.

En el Reino Unido, la conexión de la muestra del Longitudinal Study y el National Health Service Central Register (NHSCR) ha mostrado la calidad de los datos de los registros sanitarios; el 95,7% de la población censada aparecía en el mismo ámbito geográfico que la población de los registros sanitarios, en los que no aparecía el 0,5% de la población censal. En Escocia, la conexión entre datos sanitarios y de otros sectores como educación, han tenido buenos resultados.

En Francia, están conectadas con un identificador común las bases de datos incluidas en el Système national d’information inter-régimes de l’assurance maladie SNIIR-AM; la conexión con otros ficheros de pacientes debe ser probabilística. Los estudios de validación de conexión de registros sanitarios con poblacionales en USA, muestran cómo es posible la conexión incluso con información incompleta, siendo en estos casos preferible la conexión probabilística que da buenos resultados.

La comparación de ambos métodos de enlace da unos resultados similares, aunque el probabilístico es el más adaptado para su uso general, especialmente si se trata de grandes bases de datos.

Desafios éticos del Big data

Hal-9000-eye

(Este artículo fué publicado inicialmente en el blog El imposible intermedio, un blog de derivas (bio)éticas entre soluciones imposibles y tal vez perfectas a propuestas intermedias y quizás posibles. En ese blog se publican contenidos elaborados por los alumnos del Experto en Bioética de la Escuela Andaluza de Salud Pública)

Tengo miedo… Tengo miedo Dave… Dave… mi cabeza se va. 

Podrían ser las últimas palabras de alguien en su lecho de muerte, pero no, son las palabras del ordenador HAL 9000 de la nave Discovery en su viaje a Júpiter, inmediatamente antes de ….dejar de funcionar.

Estoy hablando de 2001 Una odisea en el espacio, excelentemente analizada en el blog Cine y Psicología, referente en el cine en el que la rebelión de las máquinas adquiere protagonismo. En el año del estreno de la película, 1968, las máquinas no eran sentidas como una amenaza para la humanidad, atemorizada por los efectos de un posible desastre nuclear. Fue precisamente por aquella época cuando se desarrollaron tanto la bioética como la evaluación de tecnologías sanitarias, disciplinas que no tenían entre sus prioridades analizar la efectividad de incorporación de robots en la atención sanitaria o el análisis ético de las decisiones de máquinas como Hal 9000; para ambas disciplinas, algoritmos y máquinas complejas son hoy materia de estudio.

En su momento Hal 9000 era un producto de la ciencia ficción; pero ¿Que sería necesario para que Hal 9000 pudiera ser una realidad?

En principio sería necesario que las máquinas tuviesen capacidad de generar e intercambiar autónomamente datos entre ellas, mediante conexión de internet; es lo que hoy llamamos el internet de las cosas. En segundo lugar, sería necesario el almacenamiento, procesamiento y análisis de grandes volúmenes de datos que analizados con los algoritmos adecuados, nos pudieran ayudar a tomar decisiones; es lo que llamamos big data. En tercer lugar, sería necesario que las máquinas fuesen capaces de percibir lo que ocurre en su entorno y llevar a cabo acciones para maximizar sus posibilidades de éxito en alcanzar su objetivo, tomando decisiones con la información de contexto y los algoritmos que se les suministremos; es lo que llamamos machine learning.

Estos tres elemento son ya una realidad, no una historia de ciencia ficción, y es previsible que tengan un gran impacto en el ámbito sanitario, con especial incidencia en lo relacionado con el pronóstico, el diagnóstico por imagen y anatomía patológica y la precisión en el diagnóstico clínico. Para que el avance tecnológico pueda ser posible, es necesario en estos momentos avanzar en el big data; es preciso conseguir los datos suministrados generosamente ¿? por millones de pacientes, para a partir de ellos, construir algoritmos que hipotéticamente redundarán en beneficio de los propios pacientes. Así pues, cada vez utilizaremos más algoritmos para automatizar decisiones sanitarias, y como alguien ha indicado,  es necesario que sus resoluciones no solo sean correctas, sino también justas.

Las decisiones que se tomen hoy, tendrán consecuencias distintas según los valores morales de los que partamos.Es por ello por lo que surge la necesidad del análisis ético del impacto del big data en todos los ámbitos sociales, y especialmente en el sanitario. Por una parte hay que abordar los desafíos en la prestación de atención a los pacientes que pueden surgir en la gestión de la información de la historia clínica electrónica; pero estos son de pequeño calado en comparación con los derivados del previsible uso de estas bases de datos para generar nuevo conocimiento, generar algoritmos de ayuda a la toma de decisiones y su incorporación a procesos automatizados.

Se han publicado varios documento de interés al respecto. Entre ellos, y no exclusivos,  tenemos el Documento sobre bioética y Big Data de salud: explotación y comercialización de los datos. Este documento del Grupo de Opinión del Observatori de Bioètica i Dret de la Universitat de Barcelona, se elaboró para dar respuesta al proyecto VISC+ (Más Valor a la Información de Salud en Cataluña), y analiza los problemas derivados de: 1) las posibles vulneraciones de los derechos de los ciudadanos y 2) la falta de transparencia y debate público informado, en una cuestión en la que subyace el tráfico de datos personales, reutilizados con fines distintos al tratamiento médico directamente  recibido por el paciente de los usuarios de la sanidad pública. Sus recomendaciones no obstante son más amplias, y abordan desde aspectos culturales, a las limitaciones de la anonimización de los datos, la colaboración público-privado o los procesos de información y debate ciudadano en la toma de decisiones por parte de los poderes públicos.

Otro documento interesante es Perspectives on Big Data, Ethics, and Society  del Council for Big Data Ethics and Society, resume los encuentros y discusiones que este grupo ha llevado a cabo en los dos últimos años. El documento describe los problemas éticos planteados por la agregación de datos biomédicos y su reutilización, en aspectos cómo privacidad, consentimiento informado, profesionalismo, relaciones de poder y gobierno ético de las plataformas Big Data. Establece recomendaciones a nivel político, formativo y de desarrollo de cultura ética, así como líneas de investigación para responder a preguntas concretas.

De gran interés es el Preliminary Draft Report of the International Bioethics Committee of UNESCO  (IBC) on Big data and Health. El informe detalla los desafíos que supone el big data en aspectos como:

  • Autonomía: Los mecanismos tradicionales de consentimiento informado y disociación o anonimización de datos, parecen insuficientes para garantizar la autonomía de las personas.
  • Privacidad y Confidencialidad: Las personas son cada vez más trasparentes, mientras que el entorno tecnológico es cada vez más opaco, especialmente respecto a sus algoritmos.
  • Propiedad de los datos: Una de las cuestiones tratadas en el documento del grupo de la Universidad de Barcelona arriba citado.
  • Justicia: Brecha digital, Beneficios compartidos, No discriminación, Sostenibilidad energética y medioambiental.
  • Investigación: Investigación con datos sanitarios en el ámbito tecnológico, uso de datos sin finalidad comercial en el ámbito universitario que acaban en el sector empresarial, reidentificación de datos anonimizados.

El artículo Are Research Ethics Obsolete In The Era Of Big Data?  tiene un planteamiento diferente a los anteriores, y se pregunta si realmente habrá preocupación ética por los datos en un futuro, en el que las personas crecieron en un mundo digital en el que han compartido su vida. Por otra parte hay que tener presente que ya vamos teniendo resultados concretos en la investigación con big data, en ámbitos como el de las enfermedades raras, los efectos adversos de los medicamentos o la propia investigación clínica o genética; incluso el uso de esta metodología puede afectar al paradigma vigente de evidencia científica. 

Nos encontramos pues ante un desafío, en el que habrá que encontrar un equilibrio entre las bondades de la investigación biomédica con big data y la seguridad y privacidad de las personas.

Estadísticas de Redes Sociales y Salud

OLYMPUS DIGITAL CAMERAEs un hecho evidente que a medida que aumenta el uso de las redes sociales aumenta su uso en relación con la salud. Igualmente aumentan los estudios realizados por consultoras, empresas de marketing, laboratorios (en ocasiones bajo el paraguas de institutos o fundaciones) y administraciones públicas. A pesar de ello no resulta fácil una cuantificación del fenómeno dada la diversidad de fuentes y su distinta metodología.

En general las definiciones usadas de lo que es un usuario de Internet o red social no son comparables, y utilizan una población de edad distinta en función del aspecto que se quiera destacar. La forma de obtención de los datos es igualmente desigual (on line, telefónicamente, en la calle etc) y afecta igualmente a los resultados. La presentación de los datos tampoco es neutra según lo que se quiera magnificar (número absoluto, porcentaje, referencia poblacional etc). Es importante igualmente la transparencia en cuanto a la financiación del trabajo.

Para el análisis de las redes sociales en relación con la salud en nuestro medio, un marco de referencia obligado es el que nos dan tres grandes encuestas nacionales, que dan información de contexto y que podremos completar con los resultados en general más específicos de otro tipo de estudios. Se trata de:

  • Los ciudadanos ante la e-sanidad, estudio de Red.es realizado en julio de 2011 en mayores de 16 años mediante encuesta telefónica a 5.500 personas.
  • El Barómetro sanitario del CIS y Ministerio de Sanidad, Servicios Sociales e Igualdad realizado entre marzo y noviembre de 2012 en mayores de 18 años mediante rutas aleatorias a 7.800 personas, y
  • Barómetro CIS de mayo de 2013 en mayores de 18 años mediante rutas aleatorias a 2.500 personas.

Uso de Internet y redes sociales.

La información más reciente la tenemos con el Barómetro del CIS, referido a la población mayor de 18 años, indicándonos que de esta población, el 67,2% había utilizado Internet en los últimos 12 meses, el 58% usaba Internet para buscar información en Internet y el 39% usaba las redes sociales.

La información más completa sin embargo es la que nos da el estudio de Red.es (datos no comparables) en el que en la población estudiada el 62% era usuaria habitual de Internet, el 52% buscaba allí información y el 21% usaba redes sociales. Los servicios más usado entre los usuarios de Internet fueron: búsqueda de información (83%) y correo electrónico (66%), descendiendo considerablemente para el uso de redes sociales (34%) y siendo marginal para la gestión de un de blog o página web personal (0.7%).

Uso de Internet y salud.

La principal fuente de información que usa la población sobre salud son los profesionales sanitarios (médicos y otros profesionales 88% y farmacéuticos 62%). Los medios de comunicación tradicionales y familiares y amigos ocupan una posición intermedia (54% y 49%), mientras que Internet ocupa la última posición ( 30%).

Las fuentes de mayor confianza son los profesionales sanitarios (8.4 y 7,4). Los medios de comunicación y el entorno personal ofrecen una confianza limitada (no llegan a 5) mientras que Internet es lo menos valorado (3.8, mayor entre los que lo usan, 4.4, frente a los que no lo usan, 2.4)

El Barómetro Sanitario de 2012 indicaba igualmente que cuando se toma un medicamento, la principal fuente de información son los profesionales sanitarios (médico para el 88%, farmacéutico el 36% y enfermero el 10%) y la información del prospecto (30%). Familiares o amigos, Internet o autoridades sanitarias no llegan cada uno al 4%. Internet no ofrece confianza para la compra de medicamentos: el 97% no los ha comprado nunca allí.

Volviendo al estudio de Red.es, el uso de Internet para obtener información sobre temas de salud es menor en el medio rural, mayor en mujeres que en hombres, y muy desigual por edad, con un uso del 44% entre los 16 y 44 años y del 5% en los mayores de 65. Las personas que dicen tener un buen nivel de salud (jóvenes) confían más en esta información (3.9) que los que tienen un peor estado de salud (mayores) (2.3). Hablamos de un perfil caracterizado por mujeres de 35 a 49 años.

Los internautas buscan fundamentalmente información sobre enfermedades (40%) seguido a bastante distancia por información sobre nutrición, alimentación y estilos de vida e información sobre medicamentos (16%).. El menor interés lo ocupan la información sobre instituciones y centros sanitarios, prevención y promoción de la salud y medicinas alternativas (menor del 4% cada categoría). Las mujeres usuarias son mayores para cada categoría, y especialmente en las medicinas alternativas.

¿Donde se busca información sobre salud?.

La información sobre salud es buscada mayoritariamente (59%) en portales no sanitarios relacionadas con empresas de productos de alimentación o deporte, canales de televisión, etc. Prima la confianza en el producto más que la confianza en la información sanitaria.

Los portales de instituciones y centros sanitarios públicos y las de publicaciones científicas sanitarias son consultados por el 41,4% y 38,1% respectivamente, mientras que el nivel de uso es más bajo en webs de empresas e instituciones privadas (22%), asociaciones de pacientes (17%) y redes sociales (13%).

El nivel de uso no va asociado a la confianza que se tiene en la fuente, inspirando mucha o bastante confianza los portales de instituciones y centros sanitarios públicos y los de publicaciones científicas sanitarias (el 45,9% y 45,8%). La confianza baja hasta valores próximos al 30% para los portales de empresas e instituciones privadas y los de empresas no sanitarias, hasta el 25% para las asociaciones de pacientes, otorgándose el menor nivel de confianza a las redes sociales (7%).

Aunque el 17% de los usuarios no encuentran barrearas para el uso de información sanitaria en Internet, para el 54% de los usuarios la principal barrera es el desconocimiento de la fiabilidad de la información que se consulta, mientras que para el 29% es el riesgo de una interpretación errónea de la información.

Están más preocupados por la calidad y uso correcto de la información los internautas de edad media baja, con niveles de estudios y clase social elevados, en definitiva los mejores conocedores del medio.

Videojuegos y aplicaciones para moviles.

El estudio de Red.es aborda otros temas de salud electrónica, de los que hemos seleccionado los más relacionados con actividades sociales en red: Videojuegos y aplicaciones.

El 50% de la población conoce la existencia de videojuegos para el cuidado de la salud o usos terapéuticos, mientras que el 12% conocía la existencia de aplicaciones para móviles par aguardar o gestionar información sobre la salud. El conocimiento es mayor en los más jóvenes y en los de mayor nivel de estudios y clase social .

El uso de estos dispositivos relacionados con la salud ha sido del 16% para los videojuegos y el 2.2% para los programas para moviles, aunque su valoración acerca de su utilidad para el cuidado de la salud es baja: son considerados poco o nada útiles los videojuegos para el 18% y las aplicaciones móviles para el 16 %. Comparativamente, la teleasistencia es considerada poco o nada útil sólo para 1%.  Son considerados más útiles por las personas jóvenes, sanas y usuarios de estas herramientas.

Redes Sociales.

El 4% de la población usa las redes sociales como fuente de información y consulta sobre salud, siendo Wikipedia la más usada (72%), seguida de Factbook (35%), Youtube (31%) y Twitter (13%).
La edad de los usuarios es de 25 a 49 años, y Wikipedia es la que dá más confianza: con mucha o bastante confianza para 36%.
El motivo fundamental de uso es aclarar dudas sobre algún tema específico y recibir consejo y comprensión de personas con el mismo problema, especialmente en las personas que no gozan de buena salud; el porcentaje sobre autocuidados es pequeño

Relación médico – paciente e Internet.

El 65% de los usuarios de Internet búsca información sobre salud en internet antes de la cita médica (30%) o después (55%). De estos, el 21% comparte la información con el médico.
El 76% de los que buscan información considera que el hecho de buscar información por su cuenta no influye en la relación médico paciente, mientras que el 16% cree que mejora y el 5% que empeora.

Los pacientes crónicos dependientes, así como las personas que ejercen el rol de cuidadores son quienes más amplían la información sanitaria en la red tras la asistencia a una consulta médica.

En cuanto a otras formas de relacionarse con su médico, al 73% de los internautas les gustaría que su médico les recomendase sitios de internet relacionados con su problema de salud, el 72% valoraría positivamente que su medico tuviese un blog o web profesional sobre consejos sanitarios y el 63% que se pudiera comunicar por correo electrónico. Sin embargo el 51% está en contra de utilizar las redes sociales para interactuar con su medico. Los internautas más jóvenes y con mejor salud están más predispuestos a introducir estas formas de comunicación

De estos datos se desprende que el uso de Internet y redes sociales por la población no está incorporado de forma generalizada en la atención sanitaria aunque el número de usuarios es ya suficientemente importante como para que exista una casuística y variedad de utilidades importante.

Internet y las redes sociales se perfilan como un recurso más en la atención sanitaria y ofrece oportunidades de comunicación entre pacientes y estos con los profesionales sanitarios.

Se vislumbra igualmente un nuevo escenario de desigualdades en salud, no solo por la brecha digital asociada a la edad sino al nivel educativo y social, con desigualdad no sólo en el acceso sino a la valoración correcta de la información.