Analítica preditiva na assistência médica

A importância de padrões abertos

À medida que registros digitais e informações se tornam a norma na assistência médica, eles permitem o desenvolvimento de soluções de analítica de prevenção. Esses modelos de prevenção, quando misturados com as operações do dia a dia dos provedores de assistência médica e empresas de seguro, têm o potencial de diminuir custos e melhorar o funcionamento geral da população. Com os modelos de prevenção se tornando mais presentes, aumenta a necessidade de um padrão que possa ser usado por todas as partes envolvidas no processo de modelagem: de desenvolvimento de modelo à implementação operacional. O Predictive Model Markup Language (PMML) é um padrão assim. Permite que soluções de prevenção sejam facilmente comparadas entre aplicativos e sistemas. Este artigo descreve o mais recente release do PMML, Versão 4.1, e várias maneiras em que pode ser usado para acelerar a adoção e uso de soluções de prevenção no segmento de mercado de assistência médica.

Alex Guazzelli, VP of Analytics, Zementis, Inc.

Photo of Alex GuazzelliDr. Alex Guazzelli é VP de Analítica da Zementis. Inc., onde é responsável por desenvolver tecnologia de núcleo e soluções preditivas no ADAPA, uma plataforma de tomada de decisões com base em PMML. Dr. Guazzelli tem Ph.D. em Ciência da Computação pela University of Southern California e foi coautor do livro "PMML in Action: Unleashing the Power of Open Standards for Data Mining and Predictive Analytics", agora em sua 2.ª edição e disponível na amazon.com (brochura e edição para o Kindle). É possível segui-lo no @DrAlexGuazzelli.



31/Ago/2012

Introduction

Soluções de analítica de prevenção são formadas por técnicas como redes neurais artificiais e árvores de decisão (entre diversas outras técnicas estatísticas) que podem adquirir padrões presentes em dados históricos. Podem, subsequentemente, aplicar o conhecimento obtido para detectar ou prever tendências em novos dados. Hoje, a analítica de prevenção permeia nossas vidas, de detecção de fraude em transações financeiras (sempre que você usa seu cartão de crédito para comprar algo em uma loja ou on-line, o potencial de fraude é analisado) a marketing e sistemas de recomendação. Neste artigo nós discutimos não apenas como essas técnicas podem ser aplicadas na assistência médica, mas também como o padrão PMML pode facilitar substancialmente a implementação operacional de qualquer solução de prevenção no espaço de assistência médica.

No começo dos anos 90, tive a sorte de trabalhar com Ricardo Machado, já falecido, um dos principais pesquisadores em Inteligência Artificial (AI) no Centro de Pesquisa Científica da IBM no Rio de Janeiro, Brasil. Ricardo e seus colaboradores publicaram muitos artigos sobre redes neurais e um sistema de prevenção especialista chamado Next. A eficiência desse sistema vinha de sua capacidade de usar "gráficos de conhecimento" obtidos de entrevistas com especialistas médicos para formar a base de um modelo capaz de alterar esses gráficos quando recebesse dados, transformando-os em uma rede neural artificial. Next foi usado com êxito para diagnosticar e classificar doenças renais. Inspirada pelos resultados obtidos com o Next, Beatriz Leão, a primeira a propor a metodologia de gráfico de conhecimento usada por Ricardo, desenvolveu um sistema chamado HYCONES, que também combina conhecimento simbólico e redes neurais. Trabalhando com Beatriz no Instituto de Cardiologia no Brasil, pudemos usar o HYCONES para detectar e classificar com êxito doenças cardíacas congênitas. Os resultados de nosso trabalho foram publicados em M.D. Computing em 1994.

Dado que a pesquisa em analítica de prevenção já é realizada há alguns anos, você pode estar se perguntando por que demorou tanto para transferir o sucesso científico para nosso cotidiano. A resposta é algo simples: o segmento de mercado de assistência médica tem sido devagar em adotar a era digital. Mesmo que você visite um medico hoje nos EUA, provavelmente a maioria das informações reunidas durante sua visita é escrita à mão em seu prontuário médicos, e raios X ainda são impressos e anexados ao seu arquivo. Portanto tornar esses dados disponíveis para mineração e analítica de prevenção continua um desafio mesmo hoje.

No entanto, também sabemos que mais e mais informações sobre pacientes e provedores estão sendo armazenadas digitalmente. Nos EUA, a Kaiser Permanente, junto com outras importantes organizações de assistência médica, por exemplo, tem estado na vanguarda da adoção de registros médicos eletrônicos. Há até mesmo um grande esforço para que isso aconteça em economias emergentes e países em desenvolvimento. Beatriz Leão, que fundou a Associação Brasileira de Informática em Saúde em 1986, entende todos os benefícios associados aos padrões e registros de saúde eletrônicos. Ao longo dos anos, ela tem trabalhado incansavelmente para desenvolver a necessária infraestrutura de informática de saúde em países africanos, primeiro como consultora da Organização Mundial de Saúde em Moçambique e depois para a Jhpiego, uma organização sem fins lucrativos afiliada com a Universidade John Hopkins, em Ruanda (consulte Resources).


Assistência médica e analítica de prevenção

Quando muitos dados estão disponíveis digitalmente, estão prontamente disponíveis para ser minerados. Por meio de mineração de dados e analítica de prevenção, dados históricos podem revelar padrões que são usados para prever tendências. Historicamente, analítica de prevenção, junto com conhecimento de especialistas, foi usada para auxiliar no diagnóstico e tratamentos de diversas doenças. Sistemas como Next e HYCONES são exemplos antigos. Soluções de prevenção nesse campo podem ter um impacto enorme em áreas nas quais conhecimento médico seja raro ou não existente. Com a popularização de dados on-line e sistemas de prevenção, surgem ferramentas de auxílio de decisão mais rápidas e mais precisas para fornecedores de assistência médica. Ultimamente, estamos descobrindo que sistemas de prevenção são ainda mais úteis. Como eu divulguei no ano passado em outro artigo sobre analítica de prevenção e padrões (consulte Resources), a IBM e a Universidade do Instituto de Tecnologia de Ontário estão atualmente trabalhando juntas para implementar uma solução de análise de dados e prevenção para monitorar bebês prematuros, na qual leituras biomédicas podem ser usadas para detectar infecções graves em até 24 horas antes do tempo em que seriam observadas normalmente.

Ao saber de antemão que um grupo de pacientes tem risco menor ou maior de sofrer uma doença ou condição, a mineração de dados e analítica de prevenção também estão ajudando provedores de assistência médica a criar medidas de tratamento direcionadas para diferentes populações. Por exemplo, no caso de doença cardiovascular, ao trabalhar junto com pacientes identificados como de alto risco por uma solução de prevenção, simples medidas de prevenção podem ser implementadas, como diminuir o consumo de gorduras trans, perder peso e parar de fumar, que podem reduzir substancialmente o risco de um ataque cardíaco. Dessa forma, provedores de assistência médica podem criar diferentes estratégias para manter pacientes de baixo risco com baixo risco, enquanto diminuem o risco associado a pacientes de alto risco.

Segundo a lei de saúde federal dos EUA, hospitais com taxas de readmissão maior que o esperado receberão menos reembolso do Medicare. A Comissão de Consultoria de Pagamento do Medicare estimou que, em 2005, readmissões tenham custado ao programa US$ 15 bilhões, dos quais US$ 12 bilhões poderiam ter sido evitados (consulte Resources). Como um grande percentual de readmissões é evitável, a analítica de prevenção já está sendo usada para ajudar hospitais a reduzir taxas de readmissão. Embora uma simples consulta de acompanhamento ajude muito a evitar readmissões em hospitais, a analítica de prevenção pode apontar exatamente quais pacientes precisam ser acompanhados de perto. Também pode auxiliar hospitais a identificar populações que possam precisar de maior assistência com orientações simples, como entender restrições nutricionais.

Sistemas de prevenção são usados há muitos anos no segmento de mercado financeiro para detecção de fraude. Hoje o risco de fraude da maioria das transações com cartão de crédito é avaliado por uma solução de prevenção em tempo real. Se consideradas de alto risco, essas soluções podem até mesmo recusar uma transação e evitar que a fraude aconteça. Como o custo de fraude no Medicare é muito maior que o custo de readmissões, esse deve se tornar o foco principal de soluções de prevenção. O sucesso comprovado com técnicas de prevenção como redes neurais para detectar fraude no segmento de mercado financeiro pode e deve ser usado para detectar fraude e abuso na assistência médica.

Se você já analisou uma explicação de benefícios de seu seguro de saúde, sabe bem que todo tratamento, doença ou condição tem um código. Embora toda a codificação detalhada possa ajudar no desenvolvimento de modelos de detecção de fraude e abuso, também representa um desafio, pois dados de solicitações precisam ser altamente pré-processados e simplificados antes de servir como entrada de um sistema de prevenção. Infelizmente, em termos de diagnóstico assistido ou cuidado preventivo, dados de solicitações são notoriamente precários ao não fornecer uma indicação da gravidade da doença ou condição. Por isso podem ser necessários dados melhores para obter prevenções melhores.

O uso de analítica de prevenção na assistência médica irá se beneficiar da fusão de diferentes repositórios de dados. Quanto mais soubermos sobre uma pessoa ou população, ou seja, quanto maior for nossa imagem, mais precisas serão as previsões. Com mais pontos de dados, modelos podem ser direcionados para um paciente ou grupo de pacientes específico, o que leva por fim a tratamentos mais precisos e efetivos, que irão melhorar a eficácia geral do sistema de assistência médica e reduzir custos.


A linguagem PMML

Soluções de analítica de prevenção são geralmente desenvolvidas e validadas por uma equipe de cientistas de mineração de dados. A implementação operacional de fato dessas soluções é geralmente uma tarefa realizada por uma equipe de engenheiros. Por um lado, cientistas de mineração de dados são especialistas em estatística e pacotes estatísticos que usam para criar os melhores modelos de prevenção. Por outro lado, engenheiros se especializam em linguagens de programação, bancos de dados e sistemas de TI. Por esse motivo, a implementação tradicional de uma solução preditiva, ou seja, o processo de passá-la do desktop do cientista para o ambiente onde irá funcionar, pode se perder na tradução. Nesse cenário, quando um modelo de prevenção sai do domínio do cientista, precisa ser recodificado para que funcione na produção. Esse processo é laborioso, sujeito a erros e pode levar meses.

Para evitar esse cenário, é essencial o uso de um padrão que possa representar mineração de dados e soluções de analítica de prevenção. PMML é um padrão assim. PMML é uma criação do Data Mining Group, um consórcio de empresas de mineração de dados comerciais e de software livre (consulte Resources). PMML permite que uma solução seja desenvolvida em um sistema e facilmente visualizada ou implementada em outro. Por exemplo, PMML pode ser automaticamente exportado de IBM SPSS Statistics ou Modeler e importado em KNIME, uma ferramenta de mineração de dados usada para desenvolver fluxos de trabalho de dados. Também pode ser facilmente movido e implementado em ADAPA, o mecanismo de scorecard da Zementis, onde pode ser colocado em funcionamento em alguns minutos em qualquer ambiente de produção.


PMML— O que há de novo na Versão 4.1

PMML é o padrão para representar soluções de prevenção, incluindo o pré-processamento de dados de entrada brutos e a própria técnica de prevenção. Como padrão, PMML existe há mais de 10 anos. A Versão 4.1 deve ser lançada em dezembro de 2011. Ela amplia a Versão 4.0, que fornecia suporte estendido para diversos modelos. PMML 4.1 leva diversos modelos para um novo nível e facilita a expressão de conjuntos e segmentação de modelo. Diversos modelos geralmente combinam diferentes técnicas de prevenção para gerar uma única predição. Árvores de decisão e redes neurais são técnicas bem conhecidas usadas na mineração de dados e em analítica de prevenção e, portanto, são suportadas por PMML desde sua origem. À medida que a linguagem amadureceu, mais e mais técnicas foram incorporadas à sua estrutura. PMML 4.1 não é exceção. Fornece novos elementos de linguagem para representar Scorecards e Vizinhos Mais Próximos-K.

Talvez o mais conhecido scorecard em uso hoje seja aquele por trás da pontuação FICO, usada para avaliar o risco de inadimplência de uma pessoa na arena financeira. Além de poder detectar tendências, scorecards são famosos por poder explicar o motivo por trás de sua saída ou pontuação. Na assistência médica esse é um recurso importante, pois é preciso saber por que um paciente está sendo classificado como de alto ou baixo risco. Redes neurais tradicionais, por outro lado, são famosas por serem uma "caixa preta", pois é muito difícil extrair a justificativa por trás de suas saídas. Isso porque redes neurais, como diz o nome, tentam imitar a maneira como nós aprendemos. Como Beatriz Leão descobriu ao desenvolver gráficos de conhecimento em suas entrevistas com especialistas médicos, eles têm dificuldade em explicar a justificativa por trás de um diagnóstico. Quando são pressionados, tendem a identificar muito poucas descobertas que levam a um diagnóstico particular. Gráficos de conhecimento obtidos de especialistas médicos tendem a ser pequenos. Por outro lado, os gráficos obtidos de médicos em residência são grandes e amplos e consideram cada pequeno detalhe no registro médico de um paciente antes de chegar a um ou alguns diagnósticos. A justificativa nesse grupo estava fortemente associada a conhecimento obtido em uma enciclopédia médica. Como Ricardo Machado descobriu, quando esses gráficos de conhecimento de novatos eram submetidos a treinamento em redes neurais, eles acabavam por se parecer com os gráficos de conhecimento obtidos de especialistas.

Poder entender os motivos por trás de uma previsão é representado em PMML por um atributo chamado reasonCode. PMML é uma linguagem baseada em XML, portanto uma pessoa pode entender não apenas os motivos por trás da pontuação, mas também o próprio modelo. Por exemplo, o código PMML mostrado na a Listagem 1 foi retirado de um elemento "Scorecard" do PMML. Com uma rápida inspeção, pode-se ver imediatamente que contém a derivação de pontos para o campo de dados de entrada "age". Se, por exemplo, a idade estiver entre 59 e 69, o modelo determina que 12 pontos devam ser atribuídos a "agePoints".

Em um scorecard, a pontuação final é calculada a partir da soma das pontuações parciais obtidas de todas as suas características. No caso de readmissões de hospital, a pontuação final pode ser calculada a partir de alguns fatores de risco ou características. Esses fatores variam de idade e número de readmissões anteriores a detalhes como nível de creatina e amoníaco no sangue. Quando todas as pontuações parciais são calculadas, o número de pontos que "age" contribui é comparado com os pontos obtidos de todas as outras características (não mostrado na Listagem 1). O resultado dessa comparação determina quais códigos de razão serão emitidos. Quanto mais uma característica influencia a pontuação final, mais importante ela será para explicar a pontuação. Caso a idade seja considerada um fator importante, o código de razão "RC3" será emitido, que pode subsequentemente ser traduzido em uma explicação pertinente.

Listagem 1. Representando a característica de um scorecard no PMML
<Characteristic name="agePoints" reasonCode="RC3" baselineScore="18">
   <Attribute partialScore="-1">
      <SimplePredicate field="age" operator="isMissing"/>
   </Attribute>
   <Attribute partialScore="-3">
      <SimplePredicate field="age" operator="lessOrEqual" value="38"/>
   </Attribute>
   <Attribute partialScore="0">
      <CompoundPredicate booleanOperator="and">
         <SimplePredicate field="age" operator="greaterThan" value="38"/>
         <SimplePredicate field="age" operator="lessOrEqual" value="59"/>
      </CompoundPredicate>
   </Attribute>
   <Attribute partialScore="12">
      <CompoundPredicate booleanOperator="and">
         <SimplePredicate field="age" operator="greaterThan" value="59"/>
         <SimplePredicate field="age" operator="lessOrEqual" value="69"/>
      </CompoundPredicate>
   </Attribute> 
   <Attribute partialScore="18">
      <SimplePredicate field="age" operator="greaterThan" value="69"/>
   </Attribute>
</Characteristic>

PMML 4.1 também permite que decisões sejam incorporadas em uma solução preditiva como parte do pós-processamento da própria prevenção. Por exemplo, quando um modelo de prevenção gera uma pontuação, o PMML agora permite que essa pontuação seja comparada com um ou mais limites. O resultado dessa comparação pode ser usado para dividir os pacientes em diversos grupos operacionais que podem consistir em diferentes diagnósticos, estratégias de acompanhamento ou planos de tratamento. No código PMML mostrado na Listagem 2, a pontuação final é comparada com um limite de 67. Se a variável FinalScore for maior que 67, então, como definido no segundo elemento "OutputField", o resultado do modelo será "Yes", o que significa que uma consulta de acompanhamento precisará ser marcada. Se menor ou igual a 67, o resultado será "No", o que significa que uma consulta de acompanhamento não será necessária.

Listagem 2. Pós-processamento no PMML, de pontuações a decisões
<OutputField dataType="double" feature="predictedValue" name="FinalScore" 
   optype="continuous" />  
<OutputField dataType="string" feature="decision" name="Outcome" 
optype="categorical">
   <Decisions businessProblem="Should a follow-up appointment be scheduled?"
      description="The decision depends on the likelihood of readmission.">
      <Decision value="Yes" description="Follow-up appointment is necessary.">
      <Decision value="No" description="No need for follow-up appointment.">
   </Decisions>
   <Apply function="greaterThan">
      <FieldRef field="FinalScore" />
          <Constant>67</Constant>
   </Apply>
      <!--THEN-->
      <Constant>Yes</Constant>
      <!--ELSE-->     
      <Constant>No</Constant>     
   </Apply>       
</OutputField>

PMML já está sendo usado para expressar soluções de prevenção que estão ajudando hospitais a diminuir taxas de readmissão. Também está sendo usado para expressar modelos de detecção de fraude. Como um arquivo PMML é em si um documento explicando a solução de prevenção, ele pode ser usado para registrar todas as decisões feitas no desenvolvimento não apenas das estratégias da pontuação, mas da própria pontuação. Como em qualquer outro segmento de mercado, o PMML torna transparente o uso da analítica de prevenção na assistência médica. Como é um padrão, pode ser facilmente entendido por todos os sistemas e pessoas envolvidos no processo de assistência médica. Portanto, pode ser usado para disseminar boas práticas e fazer cumprir leis e regulamentos. Por exemplo, é possível garantir facilmente que uma solução não use dados de identificação pessoais inspecionando o arquivo PMML resultante para a solução.


Do desenvolvimento à implementação do modelo

PMML permite que soluções de prevenção sejam compartilhadas entre aplicativos e sistemas compatíveis. Dessa forma, por exemplo, um modelo pode ser desenvolvido usando IBM SPSS Statistics, exportado em PMML e facilmente implementado em ADAPA, o mecanismo de pontuação da Zementis. Após ser implementado, pode ser colocado em funcionamento imediatamente. Nesse cenário, a beleza de representar soluções de prevenção por meio de um padrão como PMML está na capacidade de passar instantaneamente um modelo do desktop do cientista para o ambiente de produção. Quando os dados forem alterados e uma solução de prevenção existente precisar ser atualizada - um termo que geralmente implica que o modelo precisa ser reconstruído - ela pode ser implementada novamente em alguns minutos. Isso parece óbvio e simples, mas, sem um padrão como PMML, a implementação de uma solução de prevenção pode levar meses, pois quando um modelo é desenvolvido, ele precisa ser descrito, geralmente em formato textual, e depois codificado de forma customizada no ambiente de produção. Como mencionado antes, além de estar sujeito a erros, esse processo ocupa recursos valiosos e não tem lugar em um sistema de assistência médica que precise ser ágil, adaptável e de custo reduzido.


Conclusão

Sistemas inteligentes foram historicamente aplicados à classificação e diagnóstico de diferentes doenças. No entanto, provedores de assistência médica e pacientes estão apenas começando a se beneficiar da analítica de prevenção. Com mais e mais dados passando, veremos muito mais soluções preditivas no futuro, do monitoramento de pacientes em uma UTI à detecção de fraude e abuso. Todas essas soluções têm agora a capacidade de se tornar mais precisas não apenas devido à disponibilidade de grandes volumes de dados digitais, mas também devido ao armazenamento com custo reduzido e à enorme energia de processamento disponível por meio de diferentes soluções de TI, incluindo Computação em Nuvem e ambientes Hadoop.

A disponibilidade de um padrão como PMML aumenta a transparência, promove melhores práticas, diminui custos, economiza tempo e pode por fim salvar vidas. Com PMML, todo o segmento de mercado de assistência médica se beneficia de um único padrão para representar todas as suas necessidades de prevenção, de pré-processamento de dados e técnicas de prevenção a pós-processamento de pontuações em práticas operacionais significativas. Adotar um padrão nunca foi tão bom.

Recursos

Aprender

Obter produtos e tecnologias

  • IBM SPSS Statistics 20 (antigo SPSS Statistics) coloca o poder da análise estatística avançada ao seu alcance. Seja um estatístico iniciante ou experiente, seu conjunto abrangente de ferramentas atenderá às suas necessidades.
  • ADAPA é uma plataforma revolucionária de gerenciamento de decisões de analítica preditiva, disponível como um serviço na nuvem ou no local. Ela fornece um ambiente seguro, rápido e escalável para implementar seus modelos de mineração de dados e lógica de negócios, e colocá-los em uso.
  • IBM WebSphere Application Server: Crie, implemente e gerencie aplicativos de negócios SOA robustos, ágeis e reutilizáveis de todos os tipos, ao mesmo tempo que reduz custos de infraestrutura de aplicativos com o IBM WebSphere Application Server.
  • Inove seu próximo projeto de desenvolvimento de software livre com o Versão de teste do software IBM, disponível para download ou em DVD.

Discutir

Comentários

developerWorks: Conecte-se

Los campos obligatorios están marcados con un asterisco (*).


Precisa de um ID IBM?
Esqueceu seu ID IBM?


Esqueceu sua senha?
Alterar sua senha

Ao clicar em Enviar, você concorda com os termos e condições do developerWorks.

 


A primeira vez que você entrar no developerWorks, um perfil é criado para você. Informações no seu perfil (seu nome, país / região, e nome da empresa) é apresentado ao público e vai acompanhar qualquer conteúdo que você postar, a menos que você opte por esconder o nome da empresa. Você pode atualizar sua conta IBM a qualquer momento.

Todas as informações enviadas são seguras.

Elija su nombre para mostrar



Ao se conectar ao developerWorks pela primeira vez, é criado um perfil para você e é necessário selecionar um nome de exibição. O nome de exibição acompanhará o conteúdo que você postar no developerWorks.

Escolha um nome de exibição de 3 - 31 caracteres. Seu nome de exibição deve ser exclusivo na comunidade do developerWorks e não deve ser o seu endereço de email por motivo de privacidade.

Los campos obligatorios están marcados con un asterisco (*).

(Escolha um nome de exibição de 3 - 31 caracteres.)

Ao clicar em Enviar, você concorda com os termos e condições do developerWorks.

 


Todas as informações enviadas são seguras.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=80
Zone=Segmentos de mercado, Software livre
ArticleID=780723
ArticleTitle=Analítica preditiva na assistência médica
publish-date=08312012