Analítica predictiva en el cuidado de la salud

La importancia de los estándares abiertos

A medida que los registros digitales y la información se vuelven la norma en el cuidado de la salud, estos habilitan la construcción de soluciones de analítica predictiva. Estos modelos predictivos, al mezclarse con las operaciones diarias de los proveedores del cuidado de la salud y las compañías aseguradoras, tienen el potencial de reducir los costos y mejorar la salud general de la población. A medida que los modelos predictivos se vuelven más penetrantes, la necesidad de un estándar que pueda ser usado por todas las partes involucradas en el proceso del modelado, desde la construcción del modelo hasta la implementación operacional, es de vital importancia. El Predictive Model Markup Language (PMML), es este estándar. Permite que las soluciones predictivas sean fácilmente compartidas entre aplicaciones y sistemas. Este artículo describe el último release de PMML, Versión 4.1, y muchas formas en que puede ser usado para acelerar la adopción y uso de soluciones predictivas en la industria del cuidado de la salud.

Alex Guazzelli, VP of Analytics, Zementis, Inc.

Photo of Alex GuazzelliDr. Alex Guazzelli es el VP de Analítica en Zementis. Inc. donde es responsable de desarrollar tecnología central y soluciones predictivas bajo ADAPA, una plataforma de decisiones basada en PMML. El Dr. Guazzelli tiene un Doctorado en Ciencias de la Computación de la Universidad de California del Sur y es co-autor del reciente libro "PMML in Action: Unleashing the Power of Open Standards for Data Mining and Predictive Analytics". Puede seguirlo en @DrAlexGuazzelli.



23-04-2012

Introducción

Las soluciones de analítica predictiva están comprendidas por técnicas tales como las redes neurales artificiales y los árboles de decisión (entre una gran cantidad de otras técnicas de estadística) que son capaces de aprender patrones presentes en datos históricos. Subsecuentemente, pueden aplicar el conocimiento obtenido para detectar o predecir tendencias en nuevos datos. Actualmente, la analítica predictiva impregna nuestras vidas cotidianas, desde la detección de fraudes en transacciones financieras (cada vez que usa su tarjeta de crédito para comprar algo en una tienda u online, es analizada para su potencial de fraude) hasta el marketing y los sistemas de recomendaciones. En este artículo discutimos no sólo la forma en que estas técnicas pueden ser aplicadas en el cuidado de la salud, sino también cómo el estándar de PMML puede facilitar sustancialmente la implementación operacional de cualquier solución predictiva en el espacio del cuidado de la salud.

A principios de los noventas, tuve la suerte de trabajar con el fallecido Ricardo Machado, uno de los principales investigadores de Inteligencia Artificial (AI) en IBM Scientific Research Center en Río de Janeiro, Brasil. Ricardo y sus colaboradores publicaron muchos documentos sobre redes neurales, ¡y un sistema experto en predictiva llamado Next. El poder de este sistema surgió de su capacidad para usar "gráficos de conocimiento" obtenidos de entrevistas con expertos de la medicina para formar la base de un modelo capaz de alterar estos gráficos cuando se les presentaban datos, transformándolos así en una red neural artificial. Después fue usado con éxito para diagnosticar y clasificar enfermedades del riñón. Inspirada por los resultados obtenidos por Next, Beatriz Leao, quien primero propuso la metodología de gráficos del conocimiento usada por Ricardo, desarrolló un sistema llamado HYCONES, el cual también combinó conocimiento simbólico y redes neurales. Trabajando con Beatriz en el Instituto de Cardiología en Brasil, pudimos usar HYCONES para detectar y clasificar con éxito enfermedades congénitas del corazón. ¡Los resultados de nuestro trabajo fueron publicados en M.D. Computing en 1994.

Dado que esa investigación en analítica predictiva y cuidado de la salud fue realizada hace ya varios años, tal vez se esté preguntando por qué requirió tanto tiempo para llevar todos los éxitos científicos recientes a nuestra vida cotidiana. La respuesta es, en cierta forma, simple; la industria del cuidado de la salud ha sido lenta para adoptar la era digital. Aún si observa actualmente un doctor en EE.UU., probablemente la mayoría de la información recolectada durante su visita siga siendo escrita a mano en su registro médico, y los rayos X siguen siendo impresos y añadidos a su archivo. Por lo tanto, hacer estos datos disponibles para la minería de datos y la analítica predictiva sigue siendo un reto aún actualmente.

Sin embargo, también sabemos que más y más información sobre los pacientes y proveedores está siendo actualmente almacenada en forma digital. En EE.UU., Kaiser Permanente, junto con otras importantes organizaciones del cuidado de la salud, por ejemplo, ha estado a la vanguardia para adoptar los registros médicos electrónicos. Incluso existe un importante impulso para que eso suceda en las economías emergentes y los países en desarrollo. Beatriz Leao, quien fundó Brazilian Health Informatics Association en 1986, entiende todos los beneficios asociados con los estándares y los registros electrónicos de la salud. Con los años, ha trabajado sin descanso para desarrollar la tan necesaria infraestructura informática de la salud en países africanos, primero como consultora para Health Organization en Mozambique y después para Jhpiego, una organización de la salud sin fines de lucro afiliada con la Universidad John Hopkins, en Ruanda (vea Recursos).


Cuidado de la salud y analítica predictiva

cuando muchos datos están disponibles en forma digital, están listos para ser minados. A través de la minería de datos y la analítica predictiva, los datos históricos pueden revelar patrones que son usados para predecir tendencias. Históricamente, la analítica predictiva, junto con el conocimiento experto, ha sido usada para ayudar con el diagnóstico de tratamientos de muchas enfermedades. Los sistemas como Next y HYCONES son los primeros ejemplos. Las soluciones predictivas en este campo pueden causar un enorme impacto en áreas donde la experiencia médica es escasa o inexistente. A medida que los datos online y los sistemas predictivos se vuelven penetrantes, permiten herramientas más rápidas y precisas para ayudar con la toma de decisiones para proveedores del cuidado de la salud. Últimamente, los sistemas predictivos están demostrando ser aún más ingeniosos. Como informé a finales del último año en otro artículo sobre la analítica predictiva y los estándares (vea Recursos), IBM y la Universidad de Ontario Institute of Technology están actualmente trabajando juntos para implementar una solución de análisis de datos y predictiva para supervisar a los bebés prematuros en los cuales las lecturas biomédicas pueden ser usadas para detectar infecciones que pongan en riesgo la vida hasta 24 horas antes de que cuando normalmente serían detectadas.

Al saber con anticipación que un grupo de pacientes tiene un bajo o alto riesgo para una enfermedad o condición, la minería de datos y la analítica predictiva también están ayudando a los proveedores del cuidado de la salud a crear medidas de tratamiento dirigidas para distintas poblaciones. Por ejemplo, en el caso de las enfermedades cardiovasculares, al trabajar mano a mano con pacientes identificados por una solución predictiva por estar en un alto riesgo, se pueden implementar medidas preventivas simples tales como reducir la ingesta de grasas transgénicas, perder peso y dejar de fumar, lo que reduce sustancialmente el riesgo de un ataque al corazón. De esta manera, los proveedores del cuidado de la salud pueden idear distintas estrategias para mantener a los pacientes de bajo riesgo en bajo riesgo, mientras se mitiga el riesgo asociado con los pacientes de alto riesgo.

Bajo la ley federal de la salud de EE.UU., los hospitales con tasas de readmisión más altas de lo esperado ahora recibirán un reembolso menor de Medicare. La Medicare Payment Advisory Commission estimó que en 2005 las readmisiones costaron al programa Medicare US$ 15 mil millones, US$ 12 mil millones de los cuales pudieron haber sido evitados (vea Recursos). Dado que un gran porcentaje de readmisiones se pudo prevenir, la analítica predictiva ya está siendo usada como una ayuda para que los hospitales recorten sus tasas de readmisión. Aunque una simple cita de seguimiento recorre un largo camino para prevenir readmisiones hospitalarias, la analítica predictiva puede señalar exactamente qué pacientes necesitan recibir un seguimiento cercano. También puede ayudar a los hospitales a identificar poblaciones que puedan necesitar más asistencia con regímenes tan simples como entender las restricciones dietéticas.

Los sistemas predictivos han sido usados durante muchos años en la industria financiera para detección de fraudes. Actualmente, la mayoría de las transacciones de tarjetas de crédito son evaluadas para su riesgo de fraude por una solución predictiva en tiempo real. Si la consideran de alto riesgo, estas soluciones pueden incluso declinar una transacción y prevenir así que suceda el fraude. Dado que el costo asociado con el fraude de Medicare es mucho más grande que el costo asociado con las readmisiones, está destinado a volverse el enfoque principal de las soluciones predictivas. El éxito comprobado conseguido con técnicas preventivas tales como redes neurales para detectar fraudes en la industria financiera puede y debe ser usado para detectar fraudes y abusos en el cuidado de la salud.

Si ha revisado una explicación de beneficios de su compañía de seguros médicos, sabe bien que cada tratamiento, enfermedad o condición es combinada con un código. Aunque toda la codificación detallada puede ayudar con la construcción de modelos de detección de fraudes y abusos, también representa un reto, ya que los datos de reclamaciones necesitan ser altamente pre-procesados y simplificados antes de servir como una entrada para un sistema predictivo. Desafortunadamente, en términos de diagnóstico asistido o cuidado preventivo, los datos de reclamaciones son notablemente pobres al no proporcionar un indicativo de qué tan severa es la enfermedad o la condición. Y así, tal vez se necesiten mejores datos para obtener mejores predicciones.

El uso de analítica predictiva en el cuidado de la salud se beneficiará de la combinación de distintos repositorios de datos. Mientras más sepamos sobre un individuo o una población, es decir, mientras se cuente con más información, las predicciones serán más precisas. Con más puntos de datos, los modelos pueden ser ajustados para un paciente o grupo de pacientes específico que finalmente generen tratamientos más precisos y efectivos que estén destinados a mejorar la eficacia general del sistema del cuidado de la salud mientras que al mismo tiempo reduzcan los costos.


-El lenguaje PMML

Las soluciones de analítica predictiva normalmente son construidas y validadas por un equipo de científicos de minería de datos. La implementación operacional real de estas soluciones es normalmente una tarea realizada por un equipo de ingenieros. Por una parte, los científicos de minería de datos son expertos en estadísticas y paquetes de estadística que usan para crear los mejores modelos predictivos. Por otra parte, los ingenieros se especializan en lenguajes de programación, bases de datos y sistemas de TI. Por esta razón, el desarrollo tradicional de una solución predictiva, es decir, el proceso de moverla del escritorio del científico al entorno donde se pondrá a trabajar, puede perderse en la traducción. En este escenario, una vez que un modelo predictivo deja el dominio del científico, necesita ser recodificado, de forma que funcione en la producción. Este proceso es laborioso, propenso a errores y puede llevarse meses.

Para evitar tal escenario, el uso de un estándar que pueda representar soluciones de minería de datos y analítica predictiva es de vital importancia. PMML es precisamente ese estándar. PMML es el invento de Data Mining Group, un consorcio de compañías de minería de datos comerciales y de código abierto (vea Recursos). Permite que una solución sea construida en un sistema y fácilmente visualizada o desplegada en otro. Por ejemplo, PMML puede ser automáticamente exportado de IBM SPSS Statistics o Modeler e importado en KNIME, una herramienta de minería de datos para construir flujos de trabajo de datos. También puede ser fácilmente movida y desplegada en ADAPA, el motor de puntuaciones de Zementis, donde puede ponerse a trabajar en minutos en cualquier entorno de producción.


PMML — Qué hay de nuevo en la Versión 4.1

PMML es el estándar de facto para representar soluciones predictivas, incluyendo el pre-procesamiento de datos de entrada en bruto así como la técnica predictiva misma. Como un estándar, PMML ha existido durante más de 10 años. La Versión 4.1 será lanzada en diciembre de 2011. Se basa en la Versión 4.0, la cual proporcionó soporte extendido para múltiples modelos. PMML 4.1 toma múltiples modelos a un nuevo nivel y facilita la expresión de conjuntos y segmentación de modelos. Múltiples modelos normalmente combinan distintas técnicas para generar una sola predicción. Los árboles de decisión y las redes neurales son técnicas bien conocidas usadas en la minería de datos y la analítica predictiva y han sido soportadas por PMML desde su creación. A medida que maduró el lenguaje, más y más técnicas fueron incorporadas en esta estructura. PMML 4.1 no es la excepción. Proporciona nuevos elementos de lenguaje para representar Tarjetas de Puntuación y K-Nearest Neighbors.

Quizá la tarjeta de puntuación más famosa en uso actualmente es aquella detrás de la puntuación de FICO, que es usada para evaluar el riesgo de incumplimiento de pago de un individuo en el área financiera. Además de ser capaz de detectar tendencias, las tarjetas de puntuación son famosas por poder explicar el razonamiento detrás de su salida o puntuación. En el cuidado de la salud, esto se vuelve un dispositivo importante, ya que existe la necesidad de saber por qué un paciente está siendo clasificado como de alto o bajo riesgo. Las redes neurales tradicionales, por otra parte, son conocidas por ser una "caja negra" simplemente porque es muy difícil extraer el razonamiento detrás de su salida. Esto es porque las redes neurales, como su nombre implica, intentan imitar la forma en que aprendemos. Como Beatriz Leao descubrió al intentar construir gráficos de conocimiento a partir de sus entrevistas con expertos médicos, les cuesta trabajo explicar el razonamiento detrás de un diagnóstico. Cuando son presionados, tienen a identificar muy pocos hallazgos que lleven a un diagnóstico particular. Los gráficos de conocimiento obtenidos de expertos médicos tienden a inclinarse. Los gráficos obtenidos de doctores en residencia, por otra parte, son extensos y consideran cada detalle en el registro médico del paciente antes de llegar a uno o varios diagnósticos. El razonamiento de este último grupo estaba estrechamente vinculado con el conocimiento obtenido de una enciclopedia médica. Como averiguó Ricardo Machado, una vez que estos nuevos gráficos de conocimiento fueron enviados a capacitación de red neural, terminaron pareciéndose a los gráficos de conocimiento obtenidos de expertos.

Poder entender las razones detrás de la predicción es representado en PMML por un atributo llamado reasonCode. PMML es un lenguaje basado en XML y por ello uno puede entender no sólo las razones detrás de la puntuación, sino también el modelo mismo. Por ejemplo, el código de PMML mostrado en el Listado 1 fue tomado desde un elemento "Scorecard" de PMML. Con una inspección rápida, uno puede ver que contiene la derivación de puntos para el campo de datos de entrada "age". Si, por ejemplo, la edad está entre 59 y 69, el modelo dicta que 12 puntos deben ser asignados a "agePoints".

En una tarjeta de puntuación, la puntuación final es computada a partir de la suma de las puntuaciones parciales obtenidas de todas sus características. En el caso de las readmisiones médicas, la puntuación final puede ser computada desde un número de factores de riesgo o características. Estos varían desde la edad y el número de readmisiones previas hasta cuestiones específicas como la creatina en la sangre y los niveles de amoniaco. Cuando todas las puntuaciones parciales son computadas, el número de puntos que contribuyó "age" es comparado con los puntos obtenidos a partir del resto de características (no mostrado en el Listado 1). El resultado de esta comparación dictará cuáles códigos de razón estarán en la salida. Mientras más influencia tenga una característica en la puntuación final, más importante será para explicarla. El caso de que la edad sea elegida como un factor importante, el código de razón "RC3" estará en la salida, lo que subsecuentemente puede ser traducido en una explicación pertinente.

Listado 1. Representando una característica de tarjeta de puntuación en PMML
<Characteristic name="agePoints" reasonCode="RC3" baselineScore="18">
   <Attribute partialScore="-1">
      <SimplePredicate field="age" operator="isMissing"/>
   </Attribute>
   <Attribute partialScore="-3">
      <SimplePredicate field="age" operator="lessOrEqual" value="38"/>
   </Attribute>
   <Attribute partialScore="0">
      <CompoundPredicate booleanOperator="and">
         <SimplePredicate field="age" operator="greaterThan" value="38"/>
         <SimplePredicate field="age" operator="lessOrEqual" value="59"/>
      </CompoundPredicate>
   </Attribute>
   <Attribute partialScore="12">
      <CompoundPredicate booleanOperator="and">
         <SimplePredicate field="age" operator="greaterThan" value="59"/>
         <SimplePredicate field="age" operator="lessOrEqual" value="69"/>
      </CompoundPredicate>
   </Attribute> 
   <Attribute partialScore="18">
      <SimplePredicate field="age" operator="greaterThan" value="69"/>
   </Attribute>
</Characteristic>

PMML 4.1 también permite que las decisiones sean incorporadas en una solución predictiva como parte del post-procesamiento de la predicción misma. Por ejemplo, cuando un modelo predictivo genera una puntuación, PMML ahora permite que esta puntuación sea comparada con uno o más umbrales. El resultado de dicha comparación puede ser usado para dividir los pacientes en un número de grupos operacionales que pueden consistir en distintos diagnósticos, estrategias de seguimiento o planes de tratamiento. En el código de PMML mostrado en el Listado 2, la puntuación final es comparada con un umbral de 67. Si la variable FinalScore es mayor que 67, entonces como se define en el segundo elemento "OutputField", la salida del modelo será "Yes", lo que implica que una cita de seguimiento necesita ser planificada. Si es menor o igual a 67, el resultado será "No", lo que implica que una cita de seguimiento no es necesaria.

Listado 2. Post-procesamiento en PMML, desde las puntuaciones hasta las decisiones
<OutputField dataType="double" feature="predictedValue" name="FinalScore" 
   optype="continuous" />  
<OutputField dataType="string" feature="decision" name="Outcome" 
optype="categorical">
   <Decisions businessProblem="Should a follow-up appointment be scheduled?"
      description="The decision depends on the likelihood of readmission.">
      <Decision value="Yes" description="Follow-up appointment is necessary.">
      <Decision value="No" description="No need for follow-up appointment.">
   </Decisions>
   <Apply function="greaterThan">
      <FieldRef field="FinalScore" />
          <Constant>67</Constant>
   </Apply>
      <!--THEN-->
      <Constant>Yes</Constant>
      <!--ELSE-->     
      <Constant>No</Constant>     
   </Apply>       
</OutputField>

PMML ya está siendo usado para acelerar las soluciones predictivas que están ayudando a los hospitales a disminuir las tasas de readmisión. También está siendo usado para acelerar los modelos de detección de fraudes. Ya que el archivo de PMML es en sí mismo un documento que explica la solución predictiva, puede ser usado para registrar todas las decisiones tomadas para construir no sólo las estrategias alrededor de la puntuación, sino la puntuación misma. Al igual que con cualquier otro segmento de la industria, PMML hace que el uso de analítica predictiva en el cuidado de la salud sea transparente. Dado que es un estándar, puede ser fácilmente comprendido por todos los sistemas y personas involucrados en el proceso del cuidado de la salud. Por lo tanto, puede ser usado para diseminar buenas prácticas así como hacer cumplir la conformidad con leyes y regulaciones. Por ejemplo, uno puede fácilmente asegurarse de que una solución no use ningún dato de identificación personal simplemente al inspeccionar el archivo de PMML resultante para esa solución.


Desde la construcción del modelo hasta la implementación del modelo

PMML permite que las soluciones predictivas sean compartidas entre aplicaciones y sistemas compatibles con PMML. De esta manera, por ejemplo, un modelo puede ser construido usando IBM SPSS Statistics, exportado en PMML y fácilmente desplegado en ADAPA, el motor de puntuaciones de Zementis. Una vez desplegado, puede ponerse a trabajar inmediatamente. En este escenario, la belleza de la representación de soluciones predictivas mediante un estándar tal como PMML consiste en la capacidad de mover instantáneamente un modelo del escritorio del científico al ambiente de producción. Siempre que los datos cambien y una solución predictiva existente necesite ser renovada, un término que normalmente implica que ese modelo necesita volver a ser construido, puede ser desplegado de nuevo en minutos. Esto suena obvio y sencillo, pero sin un estándar como PMML, la implementación de una solución predictiva puede llevarse meses, ya que una vez que un modelo es construido, necesita ser descrito, normalmente en formato textual, y subsecuentemente codificado en forma personalizada en el ambiente de producción. Como se mencionó anteriormente, además de ser propenso a errores, este proceso consume recursos valiosos y no tiene lugar en un sistema del cuidado de la salud que necesite ser ágil, adaptable y costeable.


Conclusión

Los sistemas inteligentes han sido históricamente aplicados a la clasificación y diagnóstico de distintas enfermedades. Sin embargo, los proveedores del cuidado de la salud y los pacientes apenas comienzan a beneficiarse de la analítica predictiva. A medida que más y más datos se mueven online, estamos destinados a ver muchas más soluciones predictivas, desde la supervisión de pacientes en una UCI hasta la detección de fraudes y abusos. Todas estas soluciones ahora tienen la capacidad de volverse más precisas que nunca no sólo debido a la disponibilidad de grandes volúmenes de datos digitales, sino también debido al almacenamiento costeable y el enorme poder de procesamiento disponible mediante distintas soluciones de TI, incluyendo la Computación en Nube y los entornos de Hadoop.

La disponibilidad de un estándar como PMML incrementa la transparencia, fomenta las buenas prácticas, reduce los costos, ahorra tiempo y al final puede salvar vidas. Con PMML, toda la industria del cuidado de la salud se beneficia de un solo estándar para representar todas sus necesidades de predictiva, desde el pre-procesamiento de datos y la técnica de predictiva, hasta el post-procesamiento de puntuaciones en prácticas operacionales significativas. Adoptar un estándar nunca se había sentido tan bien.

Recursos

Aprender

Obtener los productos y tecnologías

  • IBM SPSS Statistics 20 (anteriormente SPSS Statistics) pone el poder del análisis estadístico avanzado en sus manos. Ya sea que sea un principiante o un estadístico experimentado, su conjunto integral de herramientas se adaptará a sus necesidades.
  • ADAPA es una plataforma revolucionaria de gestión de decisiones de analítica predictiva, disponible como un servicio en la nube o en el sitio. Proporciona un entorno seguro, rápido y escalable para desplegar sus modelos de minería de datos y lógica empresarial y lo pone en práctica.
  • IBM WebSphere Application Server: Compile, implemente y gestione aplicaciones y servicios empresariales de SOA robustas, ágiles y reutilizables de todos los tipos mientras reduce los costos de la infraestructura de aplicación con IBM WebSphere Application Server.
  • Innove en su próximo proyecto de desarrollo de fuente abierta con software de prueba IBM, disponible para descarga o en DVD.

Comentar

Comentarios

developerWorks: Ingrese

Los campos obligatorios están marcados con un asterisco (*).


¿Necesita un IBM ID?
¿Olvidó su IBM ID?


¿Olvidó su Password?
Cambie su Password

Al hacer clic en Enviar, usted está de acuerdo con los términos y condiciones de developerWorks.

 


La primera vez que inicie sesión en developerWorks, se creará un perfil para usted. La información en su propio perfil (nombre, país/región y nombre de la empresa) se muestra al público y acompañará a cualquier contenido que publique, a menos que opte por la opción de ocultar el nombre de su empresa. Puede actualizar su cuenta de IBM en cualquier momento.

Toda la información enviada es segura.

Elija su nombre para mostrar



La primera vez que inicia sesión en developerWorks se crea un perfil para usted, teniendo que elegir un nombre para mostrar en el mismo. Este nombre acompañará el contenido que usted publique en developerWorks.

Por favor elija un nombre de 3 - 31 caracteres. Su nombre de usuario debe ser único en la comunidad developerWorks y debe ser distinto a su dirección de email por motivos de privacidad.

Los campos obligatorios están marcados con un asterisco (*).

(Por favor elija un nombre de 3 - 31 caracteres.)

Al hacer clic en Enviar, usted está de acuerdo con los términos y condiciones de developerWorks.

 


Toda la información enviada es segura.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=90
Zone=Industries
ArticleID=811140
ArticleTitle=Analítica predictiva en el cuidado de la salud
publish-date=04232012