Прогнозная аналитика в здравоохранении

Значимость открытых стандартов

По мере того, как ведение медицинской документации и данных в цифровой форме становится нормой, появляется возможность создания решений для прогнозной аналитике. Использование этих решений в повседневной деятельности учреждений здравоохранения и страховых компаний в перспективе позволит снизить издержки и улучшить общее состояние здоровья населения. Вместе с ростом популярности прогнозных моделей важнейшим вопросом становится принятие стандарта, который мог бы использоваться всеми участниками процесса моделирования на всех этапах: от создания модели до ее внедрения. Таким стандартом является язык разметки для прогнозного моделирования (PMML). С его помощью легко обеспечить возможность совместного использования прогнозных решений в разных приложениях и системах. В этой статье рассматривается текущая версия PMML (версия 4.1) и несколько способов его применения, позволяющих ускорить принятие и использование прогнозных решений в отрасли здравоохранения.

Алекс Гуадзелли, вице-президент отдела аналитики Zementis, Zementis, Inc.

Photo of Alex GuazzelliАлекс Гуадзелли — вице-президент отдела аналитики компании Zementis Inc., где он отвечает за разработку опорной технологии и прогнозных решений на PMML-платформе принятия решений ADAPA. Гуадзелли имеет ученую степень Ph.D. в области теории вычислительных машин и систем Университета Южной Калифорнии. Недавно вышла его книга «PMML в действии: использование возможностей открытых стандартов для интеллектуального анализа данных и прогнозной аналитики». Вы можете подписаться на него в Твиттере: @DrAlexGuazzelli.



29.11.2011

Введение

В решениях прогнозной аналитики используются различные методики, позволяющие которые выявлять закономерности в накопленных данных - искусственные нейронные сети, древовидные схемы решений (наряду с множеством других статистических подходов) и т. д. Полученная информация может затем использоваться для определения или прогнозирования тенденций в новых данных. Сегодня прогнозная аналитика занимает прочное место в нашей повседневной жизни — она находит применение в системах обнаружения мошенничества в финансовых транзакциях (каждый раз, когда вы расплачиваетесь за покупку кредитной картой, ее данные анализируются на предмет возможного мошенничества), в системах маркетинга и формирования рекомендаций. В этой статье рассматриваются варианты применения этих методик в здравоохранении, а также возможность стандартизации на основе PMML, и, как следствие, существенного упрощения внедрения любого прогнозного решения в области здравоохранения.

В начале 1990-х годов мне посчастливилось работать с ныне покойным Рикардо Мачадо (Ricardo Machado) — одним из ведущих исследователей в области искусственного интеллекта в Центре научных исследований IBM в Рио-де-Жанейро, Бразилия. Рикардо и его коллегам принадлежит авторство много публикаций, посвященных нейронным сетям и экспертной системе прогнозирования Next. В основе работы системы лежит использование «диаграмм знаний», полученных по результатам бесед с медицинскими экспертами. Сформированная таким образом модель позволяет изменять эти диаграммы при получении новых данных, что означает их трансформацию в искусственную нейронную сеть. Next с успехом применялась для диагностики и классификации болезней почек. Вдохновленная результатами, полученными с помощью Next, Беатрис Леао (Beatriz Leao), которая первой предложила использованную Рикардо методику на основе диаграмм знаний, разработала систему HYCONES? также объединявшую символические знания и нейронные сети. Работая с Беатрис в бразильском Институте кардиологии, мы смогли с успехом применить HYCONES для диагностики и классификации врожденных пороков сердца. Результаты наших исследований были опубликованы в журнале «M.D. Computing» в 1994 году.

Учитывая, что исследования в области прогнозной аналитики и здравоохранения ведутся уже многие годы, удивительно, почему достижения в этой области начинают применяться в повседневной жизни только сейчас. Впрочем, объяснение довольно простое — система здравоохранения с большой неохотой внедряет цифровые технологии. Даже сегодня многие врачи в США до сих пор заполняют медицинские карты от руки, распечатывают рентгеновские снимки и вставляют их в карты пациентов. Таким образом, даже сегодня доступ к этим данным для глубокого анализа и прогнозной аналитики остается серьезной проблемой.

Но также известно, что все больше информации о пациентах и лечебных учреждениях хранится в цифровой форме. В США на переднем крае перехода на электронную медицинскую документацию находятся такие крупные организации системы здравоохранения, как компания Kaiser Permanente. В странах с переходной экономикой и развивающихся странах внедрение этих технологий является еще более актуальной задачей. Беатрис Леао, основавшая в 1986 году Бразильскую ассоциацию медицинской информатики, понимает все преимущества стандартизации медицинской документации и ее хранения в электронном виде. Уже многие годы она без устали работает над созданием чрезвычайно востребованной инфраструктуры медицинской информатики в африканских странах, сначала в качестве консультанта Всемирной организации здравоохранения в Мозамбике, затем в Jhpiego — некоммерческой организации здравоохранения в Руанде, связанной с Университетом Джона Хопкинса (см.Ресурсы).


Здравоохранение и прогнозная аналитика

Переведенные в цифровую форму данные легко анализировать. Средства интеллектуального анализа и прогнозной аналитики позволяют выявлять в накопленных данных закономерности, которые используются для прогнозирования тенденций. Традиционно прогнозная аналитика вместе с экспертными знаниями применяются в диагностике и лечении многих болезней. В числе первых примеров таких систем были Next и HYCONES. В регионах, где квалифицированных медицинских специалистов недостаточно или нет совсем, прогнозные решения могут принести огромную пользу. Широкое распространение систем онлайновых данных и прогнозирования приводит к появлению более быстрых и точных средств, помогающих медицинским работникам принимать решения. В последнее время прогнозные системы становятся все совершенней. Как я уже писал в прошлогодней статье о прогнозной аналитике и стандартах (см. Ресурсы), IBM и Институт технологии Университета Онтарио в настоящее время работают над внедрением решения по анализу данных и прогнозированию с целью наблюдения за недоношенными детьми. При использовании этого решения опасные инфекции удается выявлять на основе биомедицинских показателей на 24 часа раньше, чем традиционными способами.

Обработка информации о низкой или высокой опасности возникновения определенного заболевания или состояния в группе пациентов с помощью средств интеллектуального анализа или прогнозной аналитики также помогает врачам создавать протоколы лечения с учетом особенностей разных групп. Например, в случае сердечно-сосудистых заболеваний пациентам, отнесенным с помощью прогнозного решения в группу высокого риска, можно предложить простые профилактические меры, которые могут существенно снизить риск сердечного приступа — например, сокращение трансжиров в рационе питания, соблюдение диеты и отказ от курения. Таким образом, врачи могут создавать различные стратегии для контроля состояния пациентов из группы невысокого риска и сокращения риска для жизни пациентов из группы высокого риска.

В соответствии с принятым в США федеральным законом больницы, где уровень повторной госпитализации превышает ожидаемый, теперь будут получать меньше бюджетных средств по программе Medicare. По оценкам Консультативного комитета по выплатам Medicare в 2005 году, расходы на повторную госпитализацию, оплаченные из фондов Medicare, составили 15 млрд. долларов, из которых 12 млрд. можно было бы избежать (см. Ресурсы). Учитывая, что в большинстве случаев повторной госпитализации можно избежать, уже сейчас больницы используют средства прогнозной аналитики для снижения числа повторных госпитализаций. Хотя для предотвращения повторной госпитализации часто достаточно повторного осмотра у врача, прогнозная аналитика позволяет точно определить пациентов, требующих контрольного наблюдения. С ее помощью врачам проще определять пациентов, которым могут потребоваться дополнительные лечебные рекомендации, вплоть до разъяснения правил следования диете.

Прогнозные системы уже много лет используются финансовыми учреждениями для обнаружения мошенничества. Сегодня для оценки риска мошенничества по большинству транзакций с кредитными картами используется прогнозное решение, работающее в режиме реального времени. Если решение посчитает определенную транзакцию рискованной, могут быть приняты меры вплоть до ее отклонения для предотвращения мошенничества. Поскольку расходы, связанные с мошенничеством в системе Medicare, намного превышают расходы, связанные с повторной госпитализацией, предотвращение мошенничества станет основной задачей прогнозных решений. Прогнозные технологии, которые с успехом применяются для обнаружения мошенничества в финансовой сфере, например, нейронные сети, могут и должны использоваться для выявления мошенничества и злоупотреблений в здравоохранении.

Если вы когда-либо интересовались работой медицинских страховых компаний, вы знаете, что каждому курсу лечения, болезни или состоянию присвоен код. Подробные коды помогают формировать модели обнаружения мошенничества и злоупотреблений, но до ввода в прогнозную систему требуются их тщательная обработка и упрощение. А это совсем не просто. К сожалению, в плане диагностики или профилактики страховых данных катастрофически не хватает для получения адекватного представления о степени серьезности заболевания или состояния. Поэтому для более точного прогнозирования могут понадобиться более подробные данные.

Большую пользу для прогнозной аналитики в здравоохранении принесет объединение различных хранилищ данных. Доступность большего объема информации о конкретном пациенте или группе пациентов позволит получить более подробную картину и, тем самым, повысить качество прогнозов. Чем больше точек данных включается в модель, тем эффективнее ее можно адаптировать под конкретного пациента или группы пациентов. Это позволит врачам принимать более точные и эффективные меры борьбы с болезнью, что, с одной стороны, повышает общую эффективность системы здравоохранения, а с другой — сокращает расходы.


Язык PMML

Созданием и проверкой решений прогнозной аналитики обычно занимается коллектив специалистов по интеллектуального анализу. Для развертывания этих решений в производственной среде обычно привлекаются инженеры. С одной стороны, специалисты по интеллектуальному анализу являются экспертами в области статистики и пакетов статистического анализа, используемых для создания оптимальных прогнозных моделей. С другой стороны, инженеры специализируются на языках программирования, базах данных и ИТ-системах. По этой причине весь эффект от прогнозного решения может быть утерян в процессе внедрения, то есть переноса с компьютера разработчика в производственную среду. Ведь как только прогнозная модель переходит от ученого к инженеру, начинается работа по ее подготовке к внедрению, а для этого ее сначала требуется перевести в программный код. Это сложный и кропотливый процесс, реализация которого может занять несколько месяцев.

Избежать такого сценария позволяет использование стандарта, позволяющего создавать представления решений интеллектуального анализа и прогнозной аналитики. Таким стандартом является PMML. Язык PMML разработан Data Mining Group — консорциумом компаний, которые занимаются интеллектуальным анализом коммерческих и открытых данных (см. Ресурсы). С его помощью можно создать решение в одной системе, а затем легко визуализировать или развернуть его в другой. Например, PMML можно автоматически экспортировать из IBM SPSS Statistics или Modeler и импортировать в KNIME — средство интеллектуального анализа данных для построения рабочих процессов данных. PMML можно также легко перенести и развернуть в ADAPA, системе оценки компании Zementis, в которой обеспечивается быстрое развертывание (за считанные минуты) PMML-решение в любой производственной среде.


PMML — новые характеристики версии 4.1

PMML является фактическим стандартом представления прогнозных решений, включая как предварительную обработку входных данных, так и саму прогнозную методику. PMML был принят в качестве стандарта более 10 лет назад. В декабре 2011 года выйдет версия 4.1. В ее основе лежит версия 4.0, в которой реализована расширенная поддержка нескольких моделей. В PMML 4.1 работа с несколькими моделями выходит на новый уровень: в нем проще формировать ансамбли моделей и сегментировать их. В разных моделях, как правило, объединяются различные прогнозные методики, с помощью которых формируется единый прогноз. Древовидные схемы решений и нейронные сети — два примера самых известных методик, используемых в интеллектуальном анализе данных и прогнозной аналитике. Они поддерживаются в PMML с самого начала. В каждой новой версии языка число поддерживаемых методик увеличивается, и PMML 4.1 не стала исключением. В ней появились новые языковые элементы для представления оценочных таблиц и ближайших K-соседей.

Возможно, самой известной оценочной таблицей из ныне используемых является FICO Score, которая применяется для оценки риска неплатежеспособности физического лица. С помощью оценочных таблиц можно не только выявлять тенденции, но и объяснять полученные результаты и оценки. В здравоохранении такая возможность имеет особое значение, поскольку здесь нужно знать, почему пациент отнесен к группе высокого или низкого риска. Традиционные нейронные сети, с другой стороны, традиционно рассматриваются как «черные ящики», потому что сложно понять, как получается информация на выходе. Это связано с тем, что нейронные сети, как подразумевает их название, пытаются имитировать процесс познания, свойственный человеку. Формируя диаграммы знаний на основе бесед с экспертами-медиками, Беатрис Леао обнаружила, что обоснование диагноза — сложная задача для опытных врачей. В конце концов, как правило, им удается сформулировать очень небольшое количество признаков, которые привели их к конкретному диагнозу. Диаграммы знаний, полученные на основе бесед с экспертами-медиками, обычно просты. С другой стороны, диаграммы, полученные на основе бесед с начинающими врачами, обширны и используют для постановки одного и более диагнозов все без исключения данные из медкарты пациента. Обоснования диагнозов в последней группе оказываются тесно связаны с применением знаний из медицинской энциклопедии. Как обнаружил Рикардо Мачадо, такие диаграммы знаний от начинающих врачей, будучи загружены в систему обучения нейронной сети, упрощались до уровня диаграмм знаний, полученных на основе бесед с экспертами.

Информация, необходимая для понимания оснований прогноза, представляется в PMML атрибутом reasonCode. Основой языка PMML является XML, что позволяет понимать не только причины оценки, но и саму модель. Например, код PMML, представленный в листинге 1 извлечен из элемента «оценочной таблицы» PMML. Достаточно беглого взгляда, чтобы увидеть, что он предусматривает начисление баллов на основании значения входного поля данных «возраст». Если, к примеру, возраст лежит в диапазоне от 59 до 69 лет, модель присваивает значению «agePoints» 12 баллов.

В оценочной таблице окончательная оценка вычисляется на основе суммы частичных оценок, полученных из всех характеристик. В случае повторной госпитализации окончательная оценка может вычисляться на основе ряда факторов риска или характеристик. К ним могут относиться возраст, количество повторных госпитализаций, данные анализов крови на уровень креатинина и аммония и т.д. При математической обработке всех частичных оценок количество баллов за «возраст» сравнивается с количеством баллов, полученных за все другие характеристики (в листинге 1 они не приводятся). Результатом сравнения становятся выводимые коды причин. Чем больше определенная характеристика влияет на окончательную оценку, тем больший вес она имеет в ее обосновании. В случае если в качестве важного фактора выбран возраст, выводится код причины RC3, который впоследствии может быть переведен в соответствующее обоснование.

Листинг 1. Представление характеристики оценочной таблицы в PMML
<Characteristic name="agePoints" reasonCode="RC3" baselineScore="18">
   <Attribute partialScore="-1">
      <SimplePredicate field="age" operator="isMissing"/>
   </Attribute>
   <Attribute partialScore="-3">
      <SimplePredicate field="age" operator="lessOrEqual" value="38"/>
   </Attribute>
   <Attribute partialScore="0">
      <CompoundPredicate booleanOperator="and">
         <SimplePredicate field="age" operator="greaterThan" value="38"/>
         <SimplePredicate field="age" operator="lessOrEqual" value="59"/>
      </CompoundPredicate>
   </Attribute>
   <Attribute partialScore="12">
      <CompoundPredicate booleanOperator="and">
         <SimplePredicate field="age" operator="greaterThan" value="59"/>
         <SimplePredicate field="age" operator="lessOrEqual" value="69"/>
      </CompoundPredicate>
   </Attribute> 
   <Attribute partialScore="18">
      <SimplePredicate field="age" operator="greaterThan" value="69"/>
   </Attribute>
</Characteristic>

PMML 4.1 позволяет включать в прогнозную систему правила принятия решений для последующей обработки самого прогноза. Например, если прогнозная модель генерирует оценку, PMML теперь позволяет сравнить эту оценку с одним или несколькими пороговыми значениями. Результат такого сравнения можно использовать для разделения пациентов на несколько рабочих сегментов, которые могут включать различные диагнозы, стратегии контрольного наблюдения или курсы лечения. В коде PMML, показанном в листинге 2, окончательная оценка сравнивается с пороговым значением 67. Если значение переменной FinalScore выше 67, то, как задано во втором элементе «OutputField», выходом модели будет «Yes», что подразумевает необходимость контрольного осмотра. Если значение меньше или равно 67, то выходом будет «No», то есть необходимость в контрольном осмотре отсутствует.

Листинг 2. Последующая обработка в PMML: от оценок к решениям
<OutputField dataType="double" feature="predictedValue" name="FinalScore" 
   optype="continuous" />  
<OutputField dataType="string" feature="decision" name="Outcome" 
optype="categorical">
   <Decisions businessProblem="Есть ли необходимость в контрольном осмотре?"
      description="Решение зависит от вероятности повторной госпитализации.">
      <Decision value="Yes" description="Контрольный осмотр необходим.">
      <Decision value="No" description="Нет необходимости в контрольном осмотре.">
   </Decisions>
   <Apply function="greaterThan">
      <FieldRef field="FinalScore" />
          <Constant>67</Constant>
   </Apply>
      <!--THEN-->
      <Constant>Yes</Constant>
      <!--ELSE-->     
      <Constant>No</Constant>     
   </Apply>       
</OutputField>

PMML уже используется для создания прогнозных решений, которые помогают больницам снизить показатели повторной госпитализации. Он также используется для создания моделей обнаружения мошенничества. Поскольку сам по себе файл PMML представляет собой документ, объясняющий прогнозное решение, он может использоваться для фиксации всех решений, принятых при построении не только стратегий оценки, но и самой оценки. Как и в любой другой отрасли или секторе, PMML позволяет обеспечить прозрачность использования прогнозной аналитики в системе здравоохранения. Поскольку это стандарт, его могут легко понимать все системы и люди, участвующие в процессе здравоохранения. Следовательно, его можно использовать для распространения передовых практик, а также для обеспечения соблюдения нормативно-правовых требований. Например, можно легко убедиться, что некоторое решение исключает использование данных, по которым можно установить личность, путем простого анализа соответствующего файла PMML для данного решения.


От построения модели до ее развертывания

С помощью PMML можно обеспечить возможность совместного использования прогнозных решений в разных приложениях и системах, совместимых с PMML. Таким образом, например, модель можно построить на основе статистики IBM SPSS Statistics, экспортированной в PMML, и легко развернуть в системе оценки ADAPA Zementis. Развернутая модель сразу готова к использованию. В этом сценарии главное преимущество представления прогнозных решений с помощью стандарта типа PMML состоит в возможности мгновенно перенести модель с компьютера эксперта в производственную среду. Когда меняются данные, существующее прогнозное решение необходимо обновить (под этим обычно понимается повторное построение модели), после чего его снова можно развернуть за считанные минуты. Это кажется простым и очевидным, но без стандарта, такого как PMML, развертывание прогнозного решения может занять несколько месяцев, поскольку построенную модель необходимо описать, обычно в текстовом формате, а затем преобразовать в программный код для внедрения в производственную среду. Как уже было сказано выше, этот процесс не только протекает с ошибками, но и занимает ценные ресурсы. По этой причине ему нет места в системе здравоохранения, которая должна быть оперативной, адаптируемой и экономной.


Заключение

Традиционно для классификации и диагностики различных заболеваний используются интеллектуальные системы. Но только сейчас преимущества прогнозной аналитики начинают реализовываться в медицинской сфере. По мере перевода данных в цифровой формат в будущем появятся все больше прогнозных решений, призванных контролировать состояние пациентов в реанимации, выявлять мошенничество и злоупотребления и решать другие задачи. Со временем точность всех этих решений будет расти не только по причине доступности больших объемов цифровых данных, но и благодаря использованию недорогих хранилищ данных и огромной вычислительной мощности, обеспечиваемой различными ИТ-решениями, в том числе облачными решениями и средами Hadoop.

Использование стандарта PMML повышает прозрачность, стимулирует применение передовых практик, снижает расходы, экономит время и, в конечном счете, может спасать жизни. PMML — это единый стандарт, с помощью которого все организации сферы здравоохранения могут решать все свои задачи в области прогнозирования: от предварительной обработки данных и составления прогнозов до последующей обработки оценок для создания продуманных рабочих регламентов. Сегодня подходящий момент для перехода на стандарт PMML уже настал.

Ресурсы

Научиться

Получить продукты и технологии

  • IBM SPSS Statistics 20(ранее SPSS Statistics) — вся мощь расширенного статистического анализа в ваших руках. Этот всеобъемлющий набор инструментальных средств позволит как начинающим, так и опытным статистикам в решении задач.
  • ADAPA— революционная платформа управления решениями прогнозной аналитики, доступная в виде облачного сервиса или локально устанавливаемого приложения. Это безопасная, быстрая и масштабируемая среда для развертывания и практического применения моделей интеллектуального анализа данных и бизнес-логики.

Комментарии

developerWorks: Войти

Обязательные поля отмечены звездочкой (*).


Нужен IBM ID?
Забыли Ваш IBM ID?


Забыли Ваш пароль?
Изменить пароль

Нажимая Отправить, Вы принимаете Условия использования developerWorks.

 


Профиль создается, когда вы первый раз заходите в developerWorks. Информация в вашем профиле (имя, страна / регион, название компании) отображается для всех пользователей и будет сопровождать любой опубликованный вами контент пока вы специально не укажите скрыть название вашей компании. Вы можете обновить ваш IBM аккаунт в любое время.

Вся введенная информация защищена.

Выберите имя, которое будет отображаться на экране



При первом входе в developerWorks для Вас будет создан профиль и Вам нужно будет выбрать Отображаемое имя. Оно будет выводиться рядом с контентом, опубликованным Вами в developerWorks.

Отображаемое имя должно иметь длину от 3 символов до 31 символа. Ваше Имя в системе должно быть уникальным. В качестве имени по соображениям приватности нельзя использовать контактный e-mail.

Обязательные поля отмечены звездочкой (*).

(Отображаемое имя должно иметь длину от 3 символов до 31 символа.)

Нажимая Отправить, Вы принимаете Условия использования developerWorks.

 


Вся введенная информация защищена.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=40
Zone=Open source
ArticleID=843585
ArticleTitle=Прогнозная аналитика в здравоохранении
publish-date=11292011