S
Smarter Business

医療ビッグデータ分析における国際的標準データ・モデルの活用|OHDSI OMOP CDMの概要と研究における事例

post_thumb

片山 博之
日本アイ・ビー・エム
IBMコンサルティング事業本部
ヘルスケア・ライフサイエンス・サービス

 

小牧 美保
日本アイ・ビー・エム
IBMコンサルティング事業本部
ヘルスケア・ライフサイエンス・サービス

 

古関 聰
日本アイ・ビー・エム
東京基礎研究所

ヘルスケア業界で発生する医療データの種類や量は増加の一途を辿っておりますが、医療データは診療支援や健康増進等に関連して発生するデータであり、分析に使うことを想定したデータでは必ずしもないため、いかに大量の医療データがあったとしてもそれらをデータ分析に活用するためには相当な労力が必要となります。また、医療データ分析の発展形として、例えば慢性疾患の重症度予測や疾患におけるイベント発生の推定など様々な用途に向けた医療AI開発が今後活発になると考えます。精度が高く有用な医療AIは広く使われることが望ましい一方で、各医療施設における医療データのデータ・モデルは統一されておらず、医療AIの展開においてそれぞれのデータ・モデルに対応した改修が必要となります。これらの医療データ分析をとりまく課題の解決には標準データ・モデルの普及が重要であると考えます。
そこで本ブログでは医療データ分析向けの標準データ・モデルとしてグローバルのコミュニティーで開発されているOHDSI※1OMOP CDM※2を取り上げ、その活用や普及に向けた方法を複数回にわたって考えていきたいと思います。今回は導入部としてOHDSI OMOP CDMの概要と研究における事例をご紹介します。

※1The Observational Health Data Sciences and Informatics

※2The Observational Medical Outcomes Partnership Common Data Model

OHDSI OMOP CDMの目的

医療データ分析を行う前に課題となるのが、統一されたデータの準備です。単一の施設や機関であれば、任意の形式でデータ抽出し分析すれば良いのですが、複数施設に渡るデータを扱う際には出力定義(項目定義、フォーマット、単位など)に差異が出ることは通常であり、その出力定義を一致させることに多大な労力が割かれています。この問題を解決するために、従来から様々な標準規格の整備・普及推進が取り組まれてきました。DICOM、HL7 SS-MIX2やMEDIS標準マスターはその代表的な取り組みです。また最近ではHL7 FHIRの採用も始まりつつあります。
そのような中、医療ビッグデータ分析を目的とした新しい国際的標準データ・モデルとしてOHDISIが推進するOHDSI OMOP CDMが2014年に米国で発表され、欧州、中国、韓国、そして日本でも一部活用されてきています。

OHDSIが提供するツール群

OHDSIでは、OHDSI OMOP CDMの普及にとどまらず、ITに熟知していない医療関係者であってもノーコードで一定の分析ができるように充実した分析ツール群を提供しています。また、より詳細に分析を行いたい場合にはRパッケージとしてライブラリが提供されています。OHDSIで提供されている主なツールには以下があります。

  • ATLAS及びACHILLES:コホート作成及び基礎分析を行う
  • HADES:R言語で提供されるライブラリーを入手する
  • ATENA:ボキャブラリー(Concept id等)を検索する
  • WhiteRabbit:ETL作成の際にマッピングを行う

OHDSI OMOP CDMが採用されている理由

数多くのデータ標準化が推進される中で、OHDSI OMOP CDMを採用するメリットについて整理します。(表1.参照)

  • データ交換の機能を持たない
  • 特定分野に特化しない
  • リアル・ワールド・データ(RWD)分析のために設計されたデータ・モデル
  • ボキャブラリ及びターミノロジー(標準語彙の定義)が公開されている
  • 分析ロジックを他施設と共有でき再利用が可能である
  • データ変換(ETL)をサポートするツールが提供されている
  • OHDSI OMOP CDMと直接接続して分析可能なため再現性がある

そのため研究に適しており、実際に多くの医療データ分析で評価されています。類似の規格としてOpenEHRが挙げられますが、OHDSI OMOP CDMではOHDSIから多様なツール群が提供されており実装しやすい特長があります。

表1:データ2次利用規格表1:データ2次利用規格

研究事例や最近の会議での発表例

OHDSI OMOP CDMデータを用いた最も典型的な研究には、まず、複数研究機関を跨った観察研究(Multi-station Observational Study)を挙げることができます。一般的に、複数研究機関に跨る観察研究は、研究のために収集するデータの企画が統一されているか、統一した形式にコンバートする必要があります。前述のとおり、OHDSI OMOP CDMでは、データの形式は標準語彙で記述されているため、データを統一的に扱うための障壁がありません。また、全てのデータはCDMが提供するスキーマを用いてアクセスされるため、データを処理する手続きそのものも統一化することが容易です。例えば、コホートやアウトカムの定義、データを照会・加工するロジックなどは全て共通化することが可能です。このような観察研究では、コホートの定義や、データ加工ロジックはSQLで提供され、そのSQLをそのまま各研究機関のOHDSI OMOP CDMデータベースに適用し、その結果を収集するといった研究プロトコルが実施されています。
このような複数研究機関に跨る観察研究の成果として、下記の処方や安全性に関する国際的で大規模な比較検証が挙げられます。

  • 糖尿病第一選択薬
  • 高血圧第一選択薬

例えば、Suchard他による論文”Comprehensive comparative effectiveness and safety of first-line antihypertensive drug classes”は、世界五大医学雑誌の一つであるThe Lancetに採択され、MarketScanなど6つの保険請求データベースと3つの診療機関のEMRより5百万人のOHDSI OMOP CDMデータを抽出し分析を行なっています。この研究では、代表的な高血圧の合併症、併存症55項目をアウトカムとして、アンジオテンシン変換酵素阻害薬(ACEi)やアンジオテンシンⅡ受容体拮抗薬(ARB)などの5つの高血圧薬クラスを単剤投与した場合のハザードレシオをCoxモデルにより解析し、薬クラスの投与効果の比較が行われています。この解析の結果、現在の高血圧第一選択薬の効果はほぼガイドライン通りである一方、サイアザイド系利尿薬(THZ)のACEiに対する優位性、非ジヒドロピリジン系カルシウム拮抗剤(ndCCB)に対する劣位性が確認されました。このような大規模リアルワールドデータを用いた高血圧第一選択薬の効果検証は、これまでには容易に実現できなかったものであり、OHDSI OMOP CDMを用いた研究成果として高く評価されています。

第2回は、IBMが開発しているOHDSI OMOP CDMを活用した疾患モデル構築を容易にするツールセット(IBM DPM360)を紹介します。