Ética, investigación, bases de datos

rgpd salud etica big dataEl Reglamento General de Protección de Datos (RGPD) y el Proyecto de Ley Orgánica de Protección de Datos, no solo mantienen inalterado el régimen contenido en la normativa reguladora de la investigación biomédica, sino que permiten realizar una interpretación más flexible del alcance que puede darse al consentimiento en el tratamiento de datos, tal como ha expresado la Agencia Española de Protección de Datos (AEPD).

A pesar de ello, el RGPD tiene un gran impacto en la investigación en salud realizada con bases de datos. El RGPD presta especial atención al “big data” aunque no lo nombra expresamente; sí nombra la investigación a partir de registros: Combinando información procedente de registros, los investigadores pueden obtener nuevos conocimientos ….. (Los registros).. proporcionan conocimientos sólidos y de alta calidad que pueden servir de base para la concepción y ejecución de políticas basada en el conocimiento, mejorar la calidad de vida de numerosas personas y mejorar la eficiencia de los servicios sociales. Para facilitar la investigación científica, los datos personales pueden tratarse con fines científicos, a reserva de condiciones y garantías adecuadas establecidas en el Derecho de la Unión o de los Estados miembros.

A continuación se apuntan algunas notas, derivadas del RGPD y no exhaustivas, acerca de la investigación en salud a partir de bases de datos; pueden ser de interés tanto para los responsables de los datos susceptibles de ser utilizados en investigación, como para los investigadores o los comités de ética de la investigación (CEI):

Alcance del RGPD

Como Reglamento, no necesita transposición, y por tanto es de aplicación común a todo el Espacio Europeo de Investigación. A efectos prácticos, si en un proyecto multinacional los reguladores nacionales tuviesen criterios distintos para autorizar o no el tratamiento de unos datos (ejemplo condiciones de acceso a datos clínicos), sería el Supervisor Europeo de Protección de Datos quien debería pronunciarse al respecto.

El tratamiento de datos personales con fines de investigación científica incluye los estudios realizados en interés público en el ámbito de la salud pública, y es interpretado de manera amplia, incluyendo a modo de ejemplo:

  • el desarrollo tecnológico y la demostración.
  • la investigación fundamental.
  • la investigación aplicada.
  • la investigación financiada por el sector privado.

Es preciso no olvidar la distinta intención en el tratamiento de datos con fines de investigación sanitaria (generar conocimiento) o de calidad o gestión (evaluación y organización de recursos). Igualmente en el ámbito del big data pueden surgir dudas al diferenciar el tratamiento de datos con fines a la investigación o comercial.

Los “datos relativos a la salud” son definidos como datos personales relativos a la salud física o mental de una persona física, incluida la prestación de servicios de atención sanitaria, que revelen información sobre su estado de salud.

El Reglamento afecta a los datos personales y a los datos seudonimizados.

Son “datos personales”: toda información sobre una persona física identificada o identificable (“el interesado”); se considerará persona física identificable toda persona cuya identidad pueda determinarse, directa o indirectamente, en particular mediante un identificador, como por ejemplo un nombre, un número de identificación, datos de localización, un identificador en línea o uno o varios elementos propios de la identidad física, fisiológica, genética, psíquica, económica, cultural o social de dicha persona.

Se denomina “seudonimización”: el tratamiento de datos personales de manera tal que ya no puedan atribuirse a un interesado sin utilizar información adicional, siempre que dicha información adicional figure por separado y esté sujeta a medidas técnicas y organizativas destinadas a garantizar que los datos personales no se atribuyan a una persona física identificada o identificable.

Los paradigmas tradicionales en los que se sustentaba la privacidad, anonimización de datos y consentimiento informado, no son las principales garantías en las que se sustenta la privacidad en estos proyectos. Cobra mayor relevancia la transparencia de la información que la obsesión por el consentimiento informado, (tenemos ya la experiencia negativa, tras entrar en vigor el RGPD, del otorgamiento del consentimiento en el acceso a plataformas y dispositivos móviles).

Los principios de protección de datos no deben aplicarse a la información anónima (inclusive con fines estadísticos o de investigación), es decir, información que no guarda relación con una persona física identificada o identificable, ni a los datos convertidos en anónimos de forma que el interesado no sea identificable, o deje de serlo. A pesar de ello, con métodos adecuados, la tecnología ha permitido reidentificar grandes bases de datos sanitarios anonimizados, y la AEPD ha reconocido que no es posible considerar que los procesos de anonimización garanticen al 100% la no reidentificación de las personas; incluso con buenas prácticas en la anonimización. En consecuencia, los CEI deberían valorar tanto los proyectos con datos personales o seudonimizdos, como con datos anonimizados.

Principios

Los investigadores han de tener en cuenta los siguientes principios:principios proteccion de datos

A estos principios hay que añadir la no discriminación de las personas, y la responsabilidad proactiva del responsable de la investigación.

El responsable de la investigación es igualmente responsable de que se contemplen los principios de protección de datos desde el diseño y por defecto, estableciendo las medidas técnicas y organizativas adecuadas.

Comités de ética de la investigación (CEI)

Los CEI tienen el reto de adaptar sus procedimientos para evaluar proyectos a partir de bases de datos, teniendo en cuenta el desarrollo digital en general y el RGPD en particular. Cada día se presentarán más situaciones en las que las respuestas estarán más en los planos deliberativos que en los legislativos.

Es preciso hacer un seguimiento de los proyectos de investigación en marcha, para garantizar que estos se ejecutan de acuerdo a su protocolo, priorizando aquellos con mayor impacto en la protección de datos y los que manejan muestras biológicas.

Sería conveniente disponer de guías específicas para la evaluación de este tipo de proyectos.

Mientras tanto, se pueden tener en cuenta algunas consideraciones que los investigadores han de tener en cuenta al elaborar protocolos de investigación para este tipo de proyectos.

Riesgos éticos en el tratamiento de datos

Entre estos se han descrito, la omisión deliberada de datos, la visualización engañosa, los sesgos, desconocimiento del origen de los datos, deficiencias en su calidad y la de sus metadatos, no trazabilidad, y anonimización insuficiente.

Protocolo

Aunque parezca obvio, hay que partir siempre de un protocolo de investigación (no sólo cuando se presenta a financiación externa) evaluado por un CEI, que permita valorar que tiene una sólida base científica y que salvaguarda los derechos de las personas involucradas.

En su evaluación, las primeras dificultades pueden surgir al diferenciar los proyectos de evaluación o gestión de los de investigación; puede ser igualmente difícil diferenciar los proyectos académicos de los comerciales (estos últimos tienen limitaciones en el tratamiento de ciertos datos).

La metodología de la investigación en “big data” tendente a la identificación de patrones a partir de grandes volúmenes de datos, presenta características especiales que habrá que tener en cuenta. Esta naturaleza libre de hipótesis de (algunos) estudios de big data, hace que sea más difícil aplicar mecanismos epistemológicos convencionales.

Equipo investigador

El investigador principal es el responsable del cumplimiento del RGPD, y además, estar en condiciones de demostrar que este se cumple. Entre sus obligaciones estaría la de comunicar las brechas de seguridad al Delegado de Protección de Datos de su institución.

Se sugiere la participación o asesoramiento de profesionales con competencias en big data y protección de datos, con un grado de implicación acorde al alcance del proyecto.

Es preciso la aceptación expresa de las normas de confidencialidad por todos los integrantes del equipo.

Hay que incluir la identificación y contacto de:

  • Delegado de Protección de Datos del centro donde se realizará la investigación.
  • Responsable y encargado del tratamiento de los datos.
  • Personas que tendrán acceso a los datos.

Licitud

Es preciso indicar la base normativa en la que se indique que es lícito usar esos datos para investigación. El proyecto ha de justificar el tratamiento de categorías especiales de datos personales. Igualmente, es preciso indicar el fundamento por el que se pueden usar esos datos para investigación sin el consentimiento informado de las personas interesadas.

Debe estar documentada la autorización del responsable de los datos para el uso de los mismos en ese proyecto de investigación, con especificación de los datos concretos a tratar.

Limitación

Compromiso de usar los datos exclusivamente con los fines de ese proyecto (o proyectos derivados compatibles, en cuyo caso ha de ser informado el responsable de los datos), quedando prohibido un tratamiento distinto al establecido en el protocolo.

En el caso de que se elaboren perfiles:

  • Indicar las bases legales por las que se pueden elaborar.
  • Mecanismos contemplados para evitar la discriminación de grupos o personas en cuanto a sexo, nivel cultural o económico etc.
  • No decisiones automáticas sobre personas sin supervisión humana.

Minimización

Debe justificarse que todos los datos tratados son necesarios para alcanzar los objetivos de investigación, no utilizando datos que no tengan que ver con los objetivos.

Igualmente, debe justificarse que para alcanzar los objetivos, sea necesario: usar datos personales en lugar de seudonimizados, o datos seudonimizados en lugar de anónimos (y las escalas intermedias entre estas categorías).

Exactitud

Se deberán incluir el análisis de calidad de los datos y las medidas a tomar para evitar sesgos.

Conservación

Compromiso de que la identificación de los interesados no será mantenida más allá del tiempo necesario para los fines del tratamiento de los datos personales.

Indicar el periodo de almacenamiento y las personas que tendrán acceso a los datos, en cada uno de sus estadíos (personales, seudonimizados, anónimos etc).

Discriminación

Indificar cómo se trata de evitar en el proyecto que haya discriminación de las personas o los grupos, en función del sexo, clase social, nivel de estudios etc

Seguridad

Especificar las medidas técnicas y organizativas que se tendrán en cuenta para garantizar la seguridad de los datos.

Evaluación de Impacto en la Protección de Datos Personales:

Aunque de una forma no tan exhaustiva como la contemplada en  la Guía práctica para las Evaluaciones de Impacto en la Protección de los datos sujetas al RGPD, debe evaluarse el impacto del proyecto en la protección de datos.

Medidas para evitar daños y salvaguarda de los derechos de los participantes.

Privacidad por defecto y por diseño: Detalles de las medidas técnicas y organizativas para evitar los daños y se salvaguardarán los derechos de los participantes de la investigación.

Indicar cómo pueden ejercer sus derechos (acceso, portabilidad, rechazo al tratamiento de datos…)

Infraestructura tecnológica

Indicar los equipos en los que se realizarán los tratamientos (serán dentro de instituciones sanitarias).

Indicar las normas de seguridad, accesos y su registro etc.

Datos

Especificar su procedencia y detalle de las variables incluidas. Especial consideración si proceden o se destinan fuera de la Unión Europea.

Especificar las medidas tomadas para velar por calidad, integridad y seguridad de los datos y permitir su segura transmisión, linkage y almacenamiento.

Detalles de las operaciones de procesamiento de datos.

Detalles de las técnicas de anonimización / pseudonimización. Los responsables de la anonimización y el análisis han de ser distintos.

Detalles de los métodos utilizados para elaborar perfiles y las medidas para evitar que los algoritmos discriminen o creen brechas de seguridad en la privacidad de las personas.

Detalles sobre los procedimientos para informar a los participantes de la investigación sobre el perfil, y sus posibles consecuencias y las medidas de protección.

Anuncios

Expectativas del “big data” y salud.

big data salud healthLa tecnología “big data” ha pasado (usando la terminología de Gartner) del pico de la expectativa, al valle de la desilusión, esperando alcanzar algún día la llanura de la productividad. Su pico de máxima expectativa como tecnología emergente fue en el año 2013, con previsiones de implantación entre 5 y 10 años; ese fue el año en el que los NIH iniciaron el programa The “big data” to Knowledge (BD2K), incluido ahora en el NIH Data Science Community. A partir del 2015, como suele ser habitual con las nuevas tecnologías, disminuyeron sus expectativas, con planteamientos más realistas. Esta situación gereral es igualmente aplicable al ámbito sanitario.

En la actualidad, la expectativa máxima en todos los sectores, incluido el sanitario está en la inteligencia artificial, que se supone será la tecnología más disruptiva en los próximos 10 años. Para su desarrollo se requieren entre otras cosas, avances notables en ““big data”” y en el desarrollo de algoritmos de aprendizaje automático.

El análisis “big data” presenta diferencias con el análisis estadístico habitual, sumarizadas en el trabajo Medical “big data”: promise and challenges, en el que se indica que a pesar de las expectativas, su aplicación actual es más prometedora que efectiva. La evidencia de sus beneficios es escasa, enfrentándonos a problemas relacionados con la calidad delos datos, las limitaciones metodológicas de los estudios observacionales, aspectos legales y de gobernanza, entre otros. Se abre un debate metodológico interesante, pues a modo de ejemplo, hay diferencias en los resultados de la artroscopia de cadera, según se use análisis “big data” (peores resultados) o ensayos clínicos.

En una revisión sistemática se ha mostrado como los principales desafíos se hallan en la estructura, seguridad, estandarización, almacenaje y transferencia de datos, así como su gestión y gobierno.   Las principales oportunidades están en la mejora de la calidad asistencial, mejora de la salud desde la perspectiva poblacional, detección temprana de enfermedades, mayor accesibilidad y calidad de datos, mejora en la toma de decisiones, y reducción de costes.

Otra revisión sistemática, indica que no hay consenso en cuanto a una definición operativa de “big data” en la investigación sanitaria, siendo su escenario de uso muy amplio (desde unidades hospitalarias o patologías específicas a servicios de salud en su conjunto o industria farmacéutica), Sus usos en el ámbito asistencial se centran en el apoyo a las decisiones clínicas, la optimización de los procesos asistenciales y la reducción de costes; el mayor desafío en su implantación está en la falta de evidencia de su efectividad, al ser insuficientes los estudios de evaluación, con evaluaciones de impacto más cualitativas que cuantitativas. En cuanto a herramientas, la metodología más usada es el procesamiento del lenguaje natural y la herramienta Hadoop.

En cuanto al uso de datos por la industria farmacéutica, se han señalado tensiones entre la privacidad, la reutilización de datos bajo el paraguas del “open data” y la necesidad de datos masivos del “big data”.

En una revisión sistemática sobre las fuentes y métodos usados en el análisis de enfermedades crónicas, se indica que el “big data” permite análisis predictivo para: identificación de pacientes con riesgo de reingreso, prevención de infecciones hospitalarias, prevención de  enfermedades crónicas y obtención de modelos predictivos de calidad. Los métodos predictivos más usados son el árbol de decisiones, Naïve Bayes y Red Neuronal Artificial (ANN) y la herramienta Hadoop.

El debate sobre las amenazas y oportunidades del “big data” en el sector sanitario sigue abierto; es un camino a recorrer, con grandes posibilidades de tener un impacto positivo, aunque para ello debe superar importantes obstáculos.

Actualización 13 de junio: Excelente revisión sistemática sobre al análisis de grandes volúmenes de datos:  A Systematic Review on Healthcare Analytics: Application and Theoretical Perspective of Data Mining.

In recent years, a number of peer-reviewed articles have addressed different dimensions of data mining application in healthcare. However, the lack of a comprehensive and systematic narrative motivated us to construct a literature review on this topic. We found that the existing literature mostly examines analytics in clinical and administrative decision-making. Use of human-generated data is predominant considering the wide adoption of Electronic Medical Record in clinical care. However, analytics based on website and social media data has been increasing in recent years. Lack of prescriptive analytics in practice and integration of domain expert knowledge in the decision-making process emphasizes the necessity of future research.

Y aqui otra, tambien estupenda, sobre deep learnibg  Opportunities and obstacles for deep learning in biology and medicine

Has deep learning transformed the study of human disease? Though the answer is highly dependent on the specific domain and problem being addressed, we conclude that deep learning has not yet realized its transformative potential or induced a strategic inflection point. Despite its dominance over competing machine learning approaches in many of the areas reviewed here and quantitative improvements in predictive performance, deep learning has not yet definitively ‘solved’ these problems.

 

Ética digital

Etica digitalLa legislación no puede resolver todos los problemas que surgen en relación con la protección de datos de carácter personal.

Para muchos de estos problemas, el marco adecuado de resolución, está en al ámbito de la ética. El Ethics Advisory Group  del European Data Protection Supervisor (EDPS) ha publicado el informe Towards a digital ethics, documento oportuno que surge en el contexto del creciente interés por la ética, la entrada en vigor del Reglamento General de Protección de Datos (RGPD) y la transición del paradigma analógico al digital, en la que es preciso identificar los valores de las personas que pueden verse amenazados.

El informe identifica algunas tendencias tecnológicas que obligan a un análisis de la relación entre la tecnología y los valores personales en lo que llama ética digital: big data, internet de las cosas, computación en la nube e inteligencia artificial (especialmente máquinas que aprenden). Hace especial mención sobre la gobernanza de los datos sanitarios, tanto asistenciales como de investigación, indicando que podría estar ocurriendo una transición de los marcadores biológicos a los marcadores digitales.

El documento reanaliza los valores fundamentales de la Unión Europea desde la perspectiva de la ética digital y cómo pueden verse afectados esos valores.

Identifica cambios socioculturales que acompañan a la era digital:

  • De la persona al sujeto digital.
  • De la vida analógica a la digital.
  • Del gobierno de las instituciones al gobierno de los datos.
  • De una sociedad de riesgo igualitario a una sociedad segmentada.
  • De la autonomía personal a la convergencia entre humanos y máquinas.
  • De la responsabilidad individual a la responsabilidad distribuida.
  • De la justicia penal a la justicia preventiva

Finaliza apuntando algunos aspectos clave:

  1. La dignidad de la persona debe permanece inviolable en la era digital.
  2. La persona y sus datos personales son inseparables el uno del otro.
  3. Las tecnologías digitales pueden poner en riesgo las bases del gobierno democrático.
  4. El procesamiento digital de datos puede suponer nuevas formas de discriminación.
  5. La mercantilización de los datos puede cambiar los valores de las personas respecto a los datos de carácter personal.

Conexión de bases de datos de salud

datawarehouse saludLa digitalización de los datos relacionada con la salud, ha dado un gran impulso al uso secundario de estos datos con fines distintos a los de prestar atención directa a los pacientes. Este uso secundario incluye el uso de datos de salud para gestión, análisis, investigación, evaluación, calidad, salud pública, facturación, acreditación y certificación entre otros. El uso de estos datos crea nuevas oportunidades y a su vez nuevos desafíos tecnológicos, organizativos, éticos y sociales.

Hay múltiples proyectos para facilitar este uso secundario en sistemas sanitarios de características muy diversa; en esencia se trata de crear bases de datos poblacionales con la información sanitaria relevante y estructurada de cada persona con fines de investigación, gestión o facilitar el que se comparta la información resumida del paciente para facilitar la coordinación asistencial o acceda a la misma por propio paciente.

Algunos de los proyectos son parciales en cuanto al territorio o corresponden a proyectos de investigación en red. Estas son algunas de las iniciativas de ámbito nacional:

En USA, los NIH cuentan con iniciativas como la base de datos clínica para investigaciónconexión de registros en el NCHS que incluye múltiples bases de datos de los NIH.

En Francia, la base de datos SNIIRAM incluye información de la bases de datos de la seguridad social, reembolso de gastos, consumo de fármacos, altas hospitalarias y mortalidad; dada su complejidad, se ha creado una muestra más fácil de manejar con una cohorte de 20 años con los datos de seguridad social de 780.000 personas.

En Inglaterra, tras la experiencia del proyecto cara.data,  las bases de datos centralizadas para uso secundario están gestionadas por NHS Digital.

Los países nórdicos tienen una larga trayectoria en la conexión de registros, experiencia generada básicamente a partir de los registros específicos y los de actividad hospitalaria, a los que partiendo de un identificador común, se han ido conectando con datos de urgencias, consumo de medicamentos, atención primaria, mortalidad y múltiples encuestas y registros.

En Canadá, con fines de investigación cuentan con el Population Research Registry to Support Primary Healthcare en Brithis Columbia.

En cuanto a las soluciones tecnológicas hay distintos planteamientos, entre los que encontramos datawarehouse único, conexión de data mart o incluso registros independientes federados. Igualmente son distintas las estrategias de gobernanza, de accesibilidad y seguridad, las cuales deberán ser equivalentes en los 28 Estados miembros de la Unión Europea el 25 de mayo de 2018 con la entrada en vigor del nuevo  Reglamento General de Protección de Datos (RGPD).

Actualización 07/11/2017 sobre enlace de registros sanitarios y de población:

El proceso de digitalización, los avances en tecnologías de la información y métodos estadísticos han supuesto un gran avance en el uso secundario de datos sanitarios, tanto con finalidad de investigación como de gestión.

La conexión de distintos registros a nivel de cada persona, aumenta de una forma importante las capacidades del análisis de la información, al permitir unir datos de una persona existentes en registros y sistemas de información diversos; esto comporta importantes desafíos éticos, sociales o legales que no vamos a abordar aquí, pues nos centraremos en los aspectos técnicos de la conexión entre registros sanitarios y registros del ámbito de la estadística pública.

El enlace de cada registro individual se puede realizar con métodos determinísticos o probabilísticos. Con los métodos determinísticos el enlace se produce si coinciden plenamente el identificador o un grupo de identificadores entre las bases de datos. Con los métodos probabilísticos se calcula la probabilidad de que dos registros pertenezcan a la misma unidad de identificación, utilizando varias partes de información.

Algunos países cuentan con un identificador único de cada persona desde su nacimiento. Es el caso de Dinamarca con el Civil Personal Register o Suecia con el Personal Identity Number; de esta forma se facilitan los cruces entre los registros sanitarios y los de población. En el registro danés se estima un subregistro del 0.3%, mientras que en el sueco, el subregistro es menor del 0.1% de los nacidos, y la sobreestimación del 0.1% en personas de países nórdicos y del 4-8% de personas de otros orígenes.

En ausencia de un identificador único de propósito general, es importante al menos disponer de un identificador único a efectos sanitarios. Su propia existencia y amplitud de cobertura va a estar condicionado por aspectos legales, y además, por la propia configuración del sistema sanitario de cada país.

En Canadá se dispone de un identificador sanitario único por provincia, el Health Insurance Numbers (HINs). Usando una conexión de registros con una aproximación determinista jerárquica, obtuvieron los mismos resultados de conexión a nivel provincial entre el censo y registro de altas hospitalarias, usando el HIN o la fecha de nacimiento, el sexo y el código postal. El 80% de las altas hospitalarias fueron enlazadas con sus datos censales; los mejores resultados se obtuvieron en las personas de mayor edad y bajos ingresos y los peores en las edades más tempranas.

En Australia, The Population Health Research Network (PHRN) es la infraestructura de conexión de registros, usando el  Medicare number in Australia o la combinación de nombre, dirección postal, fecha de nacimiento y sexo. La conexión probabilística da unos falsos positivos menores del 0.5%.

En el Reino Unido, la conexión de la muestra del Longitudinal Study y el National Health Service Central Register (NHSCR) ha mostrado la calidad de los datos de los registros sanitarios; el 95,7% de la población censada aparecía en el mismo ámbito geográfico que la población de los registros sanitarios, en los que no aparecía el 0,5% de la población censal. En Escocia, la conexión entre datos sanitarios y de otros sectores como educación, han tenido buenos resultados.

En Francia, están conectadas con un identificador común las bases de datos incluidas en el Système national d’information inter-régimes de l’assurance maladie SNIIR-AM; la conexión con otros ficheros de pacientes debe ser probabilística. Los estudios de validación de conexión de registros sanitarios con poblacionales en USA, muestran cómo es posible la conexión incluso con información incompleta, siendo en estos casos preferible la conexión probabilística que da buenos resultados.

La comparación de ambos métodos de enlace da unos resultados similares, aunque el probabilístico es el más adaptado para su uso general, especialmente si se trata de grandes bases de datos.

Desafios éticos del Big data

Hal-9000-eye

(Este artículo fué publicado inicialmente en el blog El imposible intermedio, un blog de derivas (bio)éticas entre soluciones imposibles y tal vez perfectas a propuestas intermedias y quizás posibles. En ese blog se publican contenidos elaborados por los alumnos del Experto en Bioética de la Escuela Andaluza de Salud Pública)

Tengo miedo… Tengo miedo Dave… Dave… mi cabeza se va. 

Podrían ser las últimas palabras de alguien en su lecho de muerte, pero no, son las palabras del ordenador HAL 9000 de la nave Discovery en su viaje a Júpiter, inmediatamente antes de ….dejar de funcionar.

Estoy hablando de 2001 Una odisea en el espacio, excelentemente analizada en el blog Cine y Psicología, referente en el cine en el que la rebelión de las máquinas adquiere protagonismo. En el año del estreno de la película, 1968, las máquinas no eran sentidas como una amenaza para la humanidad, atemorizada por los efectos de un posible desastre nuclear. Fue precisamente por aquella época cuando se desarrollaron tanto la bioética como la evaluación de tecnologías sanitarias, disciplinas que no tenían entre sus prioridades analizar la efectividad de incorporación de robots en la atención sanitaria o el análisis ético de las decisiones de máquinas como Hal 9000; para ambas disciplinas, algoritmos y máquinas complejas son hoy materia de estudio.

En su momento Hal 9000 era un producto de la ciencia ficción; pero ¿Que sería necesario para que Hal 9000 pudiera ser una realidad?

En principio sería necesario que las máquinas tuviesen capacidad de generar e intercambiar autónomamente datos entre ellas, mediante conexión de internet; es lo que hoy llamamos el internet de las cosas. En segundo lugar, sería necesario el almacenamiento, procesamiento y análisis de grandes volúmenes de datos que analizados con los algoritmos adecuados, nos pudieran ayudar a tomar decisiones; es lo que llamamos big data. En tercer lugar, sería necesario que las máquinas fuesen capaces de percibir lo que ocurre en su entorno y llevar a cabo acciones para maximizar sus posibilidades de éxito en alcanzar su objetivo, tomando decisiones con la información de contexto y los algoritmos que se les suministremos; es lo que llamamos machine learning.

Estos tres elemento son ya una realidad, no una historia de ciencia ficción, y es previsible que tengan un gran impacto en el ámbito sanitario, con especial incidencia en lo relacionado con el pronóstico, el diagnóstico por imagen y anatomía patológica y la precisión en el diagnóstico clínico. Para que el avance tecnológico pueda ser posible, es necesario en estos momentos avanzar en el big data; es preciso conseguir los datos suministrados generosamente ¿? por millones de pacientes, para a partir de ellos, construir algoritmos que hipotéticamente redundarán en beneficio de los propios pacientes. Así pues, cada vez utilizaremos más algoritmos para automatizar decisiones sanitarias, y como alguien ha indicado,  es necesario que sus resoluciones no solo sean correctas, sino también justas.

Las decisiones que se tomen hoy, tendrán consecuencias distintas según los valores morales de los que partamos.Es por ello por lo que surge la necesidad del análisis ético del impacto del big data en todos los ámbitos sociales, y especialmente en el sanitario. Por una parte hay que abordar los desafíos en la prestación de atención a los pacientes que pueden surgir en la gestión de la información de la historia clínica electrónica; pero estos son de pequeño calado en comparación con los derivados del previsible uso de estas bases de datos para generar nuevo conocimiento, generar algoritmos de ayuda a la toma de decisiones y su incorporación a procesos automatizados.

Se han publicado varios documento de interés al respecto. Entre ellos, y no exclusivos,  tenemos el Documento sobre bioética y Big Data de salud: explotación y comercialización de los datos. Este documento del Grupo de Opinión del Observatori de Bioètica i Dret de la Universitat de Barcelona, se elaboró para dar respuesta al proyecto VISC+ (Más Valor a la Información de Salud en Cataluña), y analiza los problemas derivados de: 1) las posibles vulneraciones de los derechos de los ciudadanos y 2) la falta de transparencia y debate público informado, en una cuestión en la que subyace el tráfico de datos personales, reutilizados con fines distintos al tratamiento médico directamente  recibido por el paciente de los usuarios de la sanidad pública. Sus recomendaciones no obstante son más amplias, y abordan desde aspectos culturales, a las limitaciones de la anonimización de los datos, la colaboración público-privado o los procesos de información y debate ciudadano en la toma de decisiones por parte de los poderes públicos.

Otro documento interesante es Perspectives on Big Data, Ethics, and Society  del Council for Big Data Ethics and Society, resume los encuentros y discusiones que este grupo ha llevado a cabo en los dos últimos años. El documento describe los problemas éticos planteados por la agregación de datos biomédicos y su reutilización, en aspectos cómo privacidad, consentimiento informado, profesionalismo, relaciones de poder y gobierno ético de las plataformas Big Data. Establece recomendaciones a nivel político, formativo y de desarrollo de cultura ética, así como líneas de investigación para responder a preguntas concretas.

De gran interés es el Preliminary Draft Report of the International Bioethics Committee of UNESCO  (IBC) on Big data and Health. El informe detalla los desafíos que supone el big data en aspectos como:

  • Autonomía: Los mecanismos tradicionales de consentimiento informado y disociación o anonimización de datos, parecen insuficientes para garantizar la autonomía de las personas.
  • Privacidad y Confidencialidad: Las personas son cada vez más trasparentes, mientras que el entorno tecnológico es cada vez más opaco, especialmente respecto a sus algoritmos.
  • Propiedad de los datos: Una de las cuestiones tratadas en el documento del grupo de la Universidad de Barcelona arriba citado.
  • Justicia: Brecha digital, Beneficios compartidos, No discriminación, Sostenibilidad energética y medioambiental.
  • Investigación: Investigación con datos sanitarios en el ámbito tecnológico, uso de datos sin finalidad comercial en el ámbito universitario que acaban en el sector empresarial, reidentificación de datos anonimizados.

El artículo Are Research Ethics Obsolete In The Era Of Big Data?  tiene un planteamiento diferente a los anteriores, y se pregunta si realmente habrá preocupación ética por los datos en un futuro, en el que las personas crecieron en un mundo digital en el que han compartido su vida. Por otra parte hay que tener presente que ya vamos teniendo resultados concretos en la investigación con big data, en ámbitos como el de las enfermedades raras, los efectos adversos de los medicamentos o la propia investigación clínica o genética; incluso el uso de esta metodología puede afectar al paradigma vigente de evidencia científica. 

Nos encontramos pues ante un desafío, en el que habrá que encontrar un equilibrio entre las bondades de la investigación biomédica con big data y la seguridad y privacidad de las personas.

Big Data, su interés en salud.

En un artículo reciente hacía referencia al creciente interés de “analista de datos” como profesión y el “análisis de datos” como competencia profesional. Hay un ámbito de desarrollo de esta profesión o competencia que podríamos considerar artesanal o de pequeñas dimensiones, mientras que otro lo encontraríamos en el “Big data”.

El término Big data fué acuñado hace 10 años y se aplica a aquellos conjuntos de datos que por su tamaño no se pueden captura, gestionar o procesar en un tiempo adecuado con los programas de cálculo habituales; el tamaño que determina este límite aumenta con el tiempo. Es la evolución del Business intelligence y como suele ocurrir siempre, no es una cuestión sólo de tecnologías sino también de la colaboración entre profesionales de distintos perfiles y de una estrategia definida de la organización.

Al aumento en el volumen de datos de interés para las organizaciones contribuyen los datos estructurados gestionados internamente por las organizaciones, a los que hay que añadir el gran volumen de datos generados en las redes sociales, los datos multimedia y otros no estructurados tanto en formato texto o alfanumérico así como los datos obtenidos mediante lo que se ha llamado “el Internet de las cosas”.

Las dimensiones que definen el Big data son:

1.        Volumen.  Incremento en el volumen de datos generados por los sistemas transascionales así como gestores documentales o fuentes externas, lo que brinda nuevas capacidades analíticas.

2.        Variedad. Información alfanumérica normalizada o no, estructurada o no, multimedia, texto, datos de dispositivos móviles etc.

3.        Velocidad. Incluye el flujo de datos, la creación de registros estructurados y su disponibilidad.

El Hipo Cicle de Gartner indicaba en 2011 que el Big data se encontraba entre las tecnologías que estaban generando mayores expectativas, con las primeras generaciones de productos en el mercado pero que todavía necesitan mucha personalización; se espera que entre 2013 y 2016 se extenderá su uso hasta el 20-30% de las organizaciones susceptibles de incorporar estas herramientas y que tendrán un gran impacto en el funcionamiento y toma de decisiones en estas organizaciones.

En el sector sanitario oiremos igualmente hablar de este término, pues fué un tema importante en la conferencia anual 2012 de  Healthcare Information and Management Systems Society (HIMSS); los principales proveedores de tecnologías están desarrollando productos para el ámbito sanitario.

Suscribo la opinión de quienes dicen que el análisis actual de los datos sanitarios es insuficiente, aunque van surgiendo iniciativas de explotación de la historia de salud digital, teniendo por delante un camino que se plantea complicado por el formato de la información (estructurada o no estructurada), problemas de normalización, calidad y un aspecto que no hay que olvidar: tendremos grandes volúmenes de datos pero eso no evita que estos tengan sesgos que limiten el análisis.

El proyecto de “Base de datos clínicos de atención primaria” del Sistema Nacional de Salud es una buena iniciativa al respecto, aunque tiene todavía un largo camino que recorrer.

SNOMED CT

Con la finalidad de garantizar la interoperabilidad semántica en el proyecto de Historia Clinica Digital de SNS, el Consejo Interterritorial del SNS decidió la implantación en España de SNOMED CT, disponiéndose en este enlace acceso al proyecto (muy recomendable el apartado “Preguntas más frecuentes”).

Para tener una visión general de SNOMED CT recomiendo esta serie de 9 videos:

Video 2.

Video 3.

Video 4.

Video 5.

Video 6.

Video 7.

Video 8.

Video 9.