Phân tích dự báo trong chăm sóc y tế

Tầm quan trọng của các tiêu chuẩn mở

Khi thông tin và các hồ sơ số trở thành tiêu chuẩn trong việc chăm sóc y tế, nó cho phép xây dựng các giải pháp phân tích dự báo. Các mô hình dự báo này, khi được dùng xen kẽ với các hoạt động hàng ngày của các nhà cung cấp dịch vụ chăm sóc y tế và các công ty bảo hiểm, có tiềm năng để giảm chi phí và cải thiện sức khỏe tổng thể của nhân dân. Khi các mô hình dự báo trở nên phổ biến hơn, một điều hết sức quan trọng là cần có một tiêu chuẩn, có thể được tất cả các bên liên quan sử dụng trong quá trình mô hình hóa: từ xây dựng mô hình tới triển khai hoạt động. PMML (Predictive Model Markup Language - Ngôn ngữ đánh dấu mô hình dự báo) là một tiêu chuẩn như vậy. Nó tính đến các giải pháp dự báo dễ dàng được chia sẻ giữa các ứng dụng và các hệ thống. Bài này mô tả bản phát hành PMML mới nhất, Phiên bản 4.1 và một số cách có thể sử dụng nó để xúc tiến chấp nhận và sử dụng các giải pháp dự báo trong ngành chăm sóc y tế.

Alex Guazzelli, Phó chủ tịch Analytics, Zementis, Inc.

Photo of Alex GuazzelliTiến sĩ Alex Guazzelli là Phó chủ tịch của Analytics tại Zementis. Inc, nơi ông chịu trách nhiệm về phát triển công nghệ lõi và các giải pháp dự báo theo ADAPA, một nền tảng ra quyết định dựa vào PMML (Predictive Model Markup Language - Ngôn ngữ đánh dấu mô hình dự báo). Tiến sĩ Guazzelli có bằng tiến sĩ Khoa học Máy tính của trường Đại học Nam California và gần đây đã là đồng tác giả cuốn sách " PMML trong hành động: Giải phóng Sức mạnh của các tiêu chuẩn mở cho khai phá dữ liệu và phân tích dự báo". Bạn có thể dõi theo ông tại @DrAlexGuazzelli.



30 03 2012

Giới thiệu

Các giải pháp phân tích dự báo gồm các kỹ thuật ví dụ như mạng thần kinh nhân tạo và các cây quyết định (trong vô số các kỹ thuật thống kê khác) có khả năng tìm hiểu các mẫu hiện có trong dữ liệu lịch sử. Sau đó chúng có thể áp dụng các kiến thức thu được để phát hiện hoặc dự báo xu hướng về dữ liệu mới. Ngày nay, các phân tích dự báo lan tỏa vào cuộc sống hàng ngày của chúng ta, từ phát hiện gian lận trong các giao dịch tài chính (mỗi khi bạn sử dụng thẻ tín dụng của mình để mua một cái gì đó tại cửa hàng hoặc trực tuyến, nó được phân tích về tiềm năng gian lận) đến các hệ thống tiếp thị và tư vấn khách hàng. Trong bài này chúng tôi thảo luận không chỉ về các kỹ thuật này có thể được áp dụng trong lĩnh vực chăm sóc y tế như thế nào, mà còn về cách các tiêu chuẩn PMML có thể làm cho việc triển khai vận hành bất kỳ giải pháp dự báo nào trong lĩnh vực chăm sóc y tế dễ dàng hơn đáng kể đến mức nào.

Vào đầu những năm 90, tôi đã khá may mắn được làm việc với Ricardo Machado quá cố, một trong những nhà nghiên cứu Trí tuệ nhân tạo (AI) hàng đầu tại Trung tâm nghiên cứu khoa học của IBM ở Rio de Janeiro, Braxin. Ricardo và các cộng tác viên của ông đã xuất bản nhiều bài báo về các mạng thần kinh và một hệ chuyên gia dự báo được đặt tên là Next. Sức mạnh của hệ thống này bắt nguồn từ khả năng của nó trong việc sử dụng "các đồ thị tri thức" thu được từ các cuộc phỏng vấn với các chuyên gia y tế để hình thành cơ sở của một mô hình có khả năng thay đổi các đồ thị này khi được trình bày với dữ liệu, do đó chuyển đổi chúng thành một mạng thần kinh nhân tạo. Next đã được sử dụng thành công để chẩn đoán và phân loại bệnh thận. Lấy cảm hứng từ các kết quả thu được với Next, Beatriz Leao, người đầu tiên đề xuất phương pháp luận đồ thị tri thức mà Ricardo sử dụng, đã phát triển một hệ thống gọi là HYCONES, cũng đã kết hợp tri thức biểu tượng và các mạng thần kinh. Khi làm việc với Beatriz tại Viện Tim mạch ở Braxin, chúng tôi đã có thể sử dụng HYCONES để phát hiện và phân loại thành công bệnh tim bẩm sinh. Kết quả công việc của chúng tôi đã được xuất bản trong M.D. Computing vào năm 1994.

Khi biết các nghiên cứu về phân tích dự báo và chăm sóc y tế ấy đã có từ vài năm trước, bạn có thể tự hỏi tại sao lại mất lâu đến thế để thực tế đưa tất cả các thành công khoa học này vào cuộc sống hàng ngày của chúng ta. Câu trả lời là khá đơn giản, ngành chăm sóc y tế đã bị chậm trễ trong việc nắm lấy thời đại kỹ thuật số. Ngay cả khi bạn đến khám bệnh với một bác sĩ hiện nay ở Mỹ, rất có thể là hầu hết thông tin thu thập trong lúc khám bệnh của bạn vẫn được viết bằng tay vào hồ sơ y tế của bạn và x-quang vẫn còn in ra và đặt vào hồ sơ của bạn. Vì vậy, làm sao để cho dữ liệu này có sẵn phục vụ khai phá dữ liệu và các phân tích dự báo vẫn còn là một thách thức thậm chí ngay cả hiện nay.

Tuy nhiên, chúng ta cũng biết rằng ngày càng có nhiều thông tin hơn về bệnh nhân và các nhà cung cấp dịch vụ hiện đang được lưu trữ bằng kỹ thuật số. Ví dụ như ở Mỹ, Kaiser Permanente cùng với các tổ chức chăm sóc y tế lớn khác đã đi đầu trong việc nắm giữ các hồ sơ y tế điện tử. Thậm chí còn có một sự thúc đẩy lớn để làm điều này ở các nền kinh tế mới nổi và các nước đang phát triển. Beatriz Leao, người sáng lập Hiệp hội tin học y tế Braxin vào năm 1986, hiểu rõ tất cả các lợi ích gắn liền với các tiêu chuẩn và các hồ sơ y tế điện tử. Trong những năm qua, bà vẫn đang làm việc không ngừng để phát triển nhiều cơ sở hạ tầng tin học y tế cần thiết ở các nước châu Phi, đầu tiên với vai trò là một nhà tư vấn cho Tổ chức Y tế Thế giới tại Mozambique và sau đó cho Jhpiego, tổ chức y tế phi lợi nhuận liên kết với trường Đại học John Hopkins, ở Rwanda (xem Tài nguyên).


Chăm sóc y tế và các phân tích dự báo

Khi có sẵn nhiều dữ liệu số hóa thì dữ liệu đã sẵn sàng được khai phá. Thông qua khai phá dữ liệu và các phân tích dự báo, dữ liệu lịch sử có thể tiết lộ các mẫu được sử dụng để dự báo các xu hướng. Trước đây, các phân tích dự báo, cùng với tri thức chuyên gia, đã được sử dụng để hỗ trợ trong chẩn đoán và điều trị nhiều bệnh. Các hệ thống như Next và HYCONES là những ví dụ ban đầu. Các giải pháp dự báo trong lĩnh vực này có thể tạo ra một tác động to lớn đến các lĩnh vực ở đó có rất ít hoặc không có tri thức chuyên gia y tế. Khi dữ liệu truyền trực tuyến và các hệ thống dự báo trở nên phổ biến, chúng cho phép các công cụ trợ giúp ra quyết định nhanh hơn và chính xác hơn cho các nhà cung cấp dịch vụ chăm sóc y tế. Gần đây, các hệ thống dự báo đang chứng tỏ còn có tiềm lực hơn. Như tôi đã báo cáo cuối năm ngoái trong một bài viết khác về các phân tích dự báo và các tiêu chuẩn (xem Tài nguyên), IBM và Viện Công nghệ của trường Đại học Ontario hiện đang làm việc với nhau để thực hiện một giải pháp phân tích dữ liệu và dự báo để theo dõi trẻ sinh non trong đó có thể sử dụng các kết quả đọc y sinh học để phát hiện sớm hơn các bệnh nhiễm trùng đe dọa cuộc sống, tới mức trước 24 giờ trước khi chúng được phát hiện thấy như thường lệ.

Nhờ biết trước một nhóm các bệnh nhân có nguy cơ thấp hoặc cao đối với một căn bệnh hoặc tình trạng sức khỏe nhất định, việc khai phá dữ liệu và các phân tích dự báo cũng đang giúp các nhà cung cấp dịch vụ chăm sóc y tế tạo ra các biện pháp điều trị mục tiêu cho các nhóm người khác nhau. Ví dụ, trong trường hợp của bệnh tim mạch, nhờ bắt tay làm việc chặt chẽ với các bệnh nhân được xác định bằng một giải pháp dự báo là có nguy cơ cao, các biện pháp phòng ngừa đơn giản có thể được thực hiện như cắt giảm lượng chất béo bão hòa (trans fats) vào cơ thể, giảm cân và bỏ hút thuốc lá, có thể làm giảm đáng kể nguy cơ của một cơn đau tim. Theo cách này, các nhà cung cấp dịch vụ chăm sóc y tế có thể đưa ra những chiến lược khác nhau để giữ cho bệnh nhân có nguy cơ thấp ở mức nguy cơ thấp, trong khi giảm thiểu các nguy cơ liên quan đến các bệnh nhân có nguy cơ cao.

Theo luật y tế liên bang Mỹ, bây giờ các bệnh viện có tỷ lệ tái nhập viện cao hơn dự kiến sẽ nhận được tiền hoàn trả Medicare thấp hơn. Ủy ban tư vấn thanh toán Medicare ước tính rằng trong năm 2005 chi phí tái nhập viện của chương trình Medicare là 15 tỷ Đô la, mà 12 tỷ Đô la trong đó có thể tránh được (xem Tài nguyên). Khi biết rằng một tỷ lệ rất lớn việc tái nhập viện có thể tránh được, các phân tích dự báo đang được sử dụng như một sự trợ giúp cho các bệnh viện để cắt giảm tỷ lệ tái nhập viện. Mặc dù một cuộc hẹn khám đơn giản để theo dõi việc điều trị còn xa mới ngăn chặn được việc tái nhập viện, các phân tích dự báo có thể xác định chính xác các bệnh nhân nào cần được theo dõi chặt chẽ. Nó cũng có thể hỗ trợ các bệnh viện trong việc xác định các nhóm người có thể cần hỗ trợ thêm bằng các chế độ ăn uống đơn giản như việc hiểu biết các hạn chế về chế độ ăn kiêng.

Các hệ thống dự báo đã được sử dụng trong nhiều năm trong ngành tài chính để phát hiện gian lận. Ngày nay, phần lớn các giao dịch thẻ tín dụng được đánh giá bằng một giải pháp dự báo nguy cơ gian lận trong thời gian thực. Nếu thấy có nguy cơ cao, các giải pháp này thậm chí có thể từ chối một giao dịch và do đó ngăn chặn lừa đảo xảy ra. Vì chi phí liên quan đến gian lận Medicare lớn hơn nhiều so với chi phí liên quan đến việc tái nhập viện, nên chi phí này chắc chắn sẽ trở thành tiêu điểm chính của các giải pháp dự báo. Các thành công đã kiểm chứng đã đạt được với các kỹ thuật dự báo ví dụ như các mạng thần kinh trong việc phát hiện gian lận trong ngành tài chính có thể và nên được sử dụng để phát hiện gian lận và sự lạm dụng trong lĩnh vực chăm sóc y tế.

Nếu bạn đã xem xét một bản giải thích về các lợi ích từ công ty bảo hiểm y tế của bạn, bạn biết quá rõ là tất cả mỗi lần điều trị, bệnh tật hoặc tình trạng sức khỏe đều được cặp đôi với một mã số. Mặc dù tất cả việc mã hóa chi tiết có thể giúp xây dựng các mô hình phát hiện gian lận và lạm dụng, nó cũng vẫn là một thách thức bởi vì dữ liệu yêu cầu thanh toán cần được xử lý trước và đơn giản hóa trước khi dùng làm đầu vào cho một hệ thống dự báo. Thật không may, về chẩn đoán có hỗ trợ hay chăm sóc phòng ngừa, dữ liệu yêu cầu thanh toán rất nghèo nàn không đủ để đưa ra một chỉ báo bệnh tật hay tình trạng sức khỏe nghiêm trọng đến đâu. Và như vậy, có thể cần dữ liệu tốt hơn để có được các dự báo tốt hơn.

Việc sử dụng các phân tích dự báo trong chăm sóc y tế sẽ hưởng lợi từ sự kết hợp của các kho dữ liệu khác nhau. Chúng ta càng biết nhiều hơn về một cá nhân hay nhóm người, tức là hình ảnh càng lớn hơn thì các dự báo sẽ càng chính xác hơn. Với nhiều điểm dữ liệu hơn, các mô hình có thể được đo cắt thích ứng với một bệnh nhân hoặc một nhóm bệnh nhân cụ thể để cuối cùng dẫn đến các cách điều trị chính xác và hiệu quả hơn, việc đó sẽ chắc chắn nâng cao toàn bộ tính hiệu quả của hệ thống chăm sóc y tế trong khi đồng thời làm giảm các chi phí.


Ngôn ngữ PMML

Các giải pháp phân tích dự báo thường được một nhóm các nhà khoa học khai phá dữ liệu xây dựng và xác nhận hiệu lực. Việc triển khai hoạt động thực tế của các giải pháp này luôn là một nhiệm vụ do một nhóm kỹ sư thực hiện. Một mặt, các nhà khoa học khai phá dữ liệu là những chuyên gia về số liệu thống kê và họ sử dụng các gói phần mềm thống kê để tạo ra các mô hình dự báo tốt nhất. Mặt khác, các kỹ sư chuyên về các ngôn ngữ lập trình, các cơ sở dữ liệu và các hệ thống Công nghệ thông tin (CNTT). Vì lý do này, việc triển khai một giải pháp dự báo theo truyền thống, là quá trình di chuyển giải pháp từ máy tính để bàn của các nhà khoa học sang môi trường ở đó nó sẽ được đưa vào làm việc, có thể bị mất mát trong lúc chuyển dịch. Trong kịch bản này, mỗi khi một mô hình dự báo rời khỏi miền làm việc của nhà khoa học, nó cần được mã hóa lại sao cho nó sẽ làm việc trong môi trường sản xuất. Quá trình này rất tốn công sức, dễ bị lỗi và có thể mất nhiều tháng.

Để tránh một kịch bản như vậy, việc sử dụng một tiêu chuẩn, có thể mô tả việc khai phá dữ liệu và các giải pháp phân tích dự báo là rất quan trọng. PMML chính là một tiêu chuẩn như vậy. PMML là sản phẩm trí tuệ của Tập đoàn khai phá dữ liệu (Data Mining Group), một hiệp hội của các công ty khai phá dữ liệu thương mại và nguồn mở (xem Tài nguyên). Nó cho phép xây dựng một giải pháp thành một hệ thống và dễ dàng hiển thị trực quan hoặc triển khai trong một hệ thống khác. Ví dụ, PMML có thể được xuất khẩu tự động từ IBM SPSS Statistics hoặc Modeler và được nhập khẩu vào KNIME, một công cụ khai phá dữ liệu được sử dụng để xây dựng các luồng dữ liệu công việc. Nó cũng có thể dễ dàng được di chuyển và triển khai trong ADAPA, là máy ghi điểm Zementis, ở đây nó có thể được đưa vào làm việc chỉ sau vài phút trong bất kỳ môi trường sản xuất nào.


PMML — Có gì mới trong Phiên bản 4.1

PMML là tiêu chuẩn phổ biến mô tả các giải pháp dự báo, bao gồm cả việc xử lý trước dữ liệu đầu vào thô cũng như chính kỹ thuật dự báo đó. Là một tiêu chuẩn, PMML đã trải qua hơn 10 năm. Phiên bản 4.1 được phát hành vào 12.2011. Phiên bản 4.1 xây dựng dựa trên phiên bản 4.0, có cung cấp hỗ trợ mở rộng cho nhiều mô hình. PMML 4.1 đưa nhiều mô hình lên một mức độ mới và làm dễ dàng hơn việc thể hiện toàn bộ và phân đoạn mô hình. Nhiều mô hình thường kết hợp các kỹ thuật dự báo khác nhau để tạo ra một dự báo đơn lẻ. Các cây quyết định và các mạng thần kinh là một vài kỹ thuật nổi tiếng được sử dụng trong khai phá dữ liệu và các phân tích dự báo và vì thế đã được PMML hỗ trợ kể từ lúc còn ấp ủ. Khi ngôn ngữ này đã hoàn thiện, ngày càng có nhiều kỹ thuật hơn được tích hợp vào cấu trúc của nó. PMML 4.1 cũng không ngoại lệ. Nó cung cấp các phần tử ngôn ngữ mới để trình bày Scorecards (Các phiếu ghi điểm) và K-Nearest Neighbors (K – láng giềng gần nhất).

Có lẽ phiếu ghi điểm nổi tiếng nhất đang sử dụng hiện nay là một phiếu ghi điểm hỗ trợ điểm số FICO, được sử dụng để đánh giá rủi ro cá nhân mặc định trong lĩnh vực tài chính. Bên cạnh khả năng phát hiện các xu hướng, các phiếu ghi điểm nổi tiếng vì có thể giải thích lý do đằng sau kết quả đầu ra hoặc điểm số của chúng. Trong chăm sóc y tế, điều này trở thành một tính năng quan trọng do nhu cầu cần biết lý do tại sao một bệnh nhân lại được phân loại là có nguy cơ cao hay thấp. Mặt khác, các mạng thần kinh truyền thống được biết đến như là một "hộp đen" đơn giản bởi vì rất khó rút ra các lý do đằng sau kết quả đầu ra của chúng. Đó là vì các mạng thần kinh như tên gọi của chúng ngụ ý, cố gắng bắt chước cách chúng ta học. Như Beatriz Leao đã phát hiện ra khi cố gắng xây dựng các đồ thị tri thức từ các cuộc phỏng vấn của ông với các chuyên gia y tế, họ cũng rất khó giải thích lý do thỏa đáng đằng sau một chẩn đoán. Khi bị thúc ép, họ có xu hướng nhận dạng một vài kết quả ít ỏi dẫn đến một chẩn đoán cụ thể. Các đồ thị tri thức thu được từ các chuyên gia y tế có xu hướng nghèo nàn. Mặt khác, các đồ thị đã thu được từ các bác sĩ ở nơi cư trú thường lớn và rộng và xem xét từng chi tiết trong hồ sơ y tế của bệnh nhân trước khi đạt được một vài chẩn đoán. Lý do cơ bản trong trường hợp sau gắn chặt với những kiến thức thu được từ bách khoa toàn thư y tế. Như Ricardo Machado đã phát hiện ra, một khi các đồ thị tri thức mới này được chuyển đến để huấn luyện mạng thần kinh, chúng đã kết luận giống như các đồ thị tri thức thu được từ các chuyên gia.

Ta có thể hiểu được các lý do đằng sau một dự báo vì nó được biểu diễn bằng PMML nhờ một thuộc tính có tên là reasonCode. PMML là một ngôn ngữ dựa trên XML và do đó, người ta có thể hiểu không chỉ lý do đằng sau điểm số, mà còn hiểu cả chính mô hình của nó. Ví dụ, mã PMML hiển thị trong Liệt kê 1 được lấy từ bên trong một phân tử "Scorecard" của PMML. Kiểm tra nhanh, người ta có thể dễ dàng thấy rằng nó có chứa nguồn gốc của các điểm số dành cho trường dữ liệu đầu vào "age" (tuổi). Ví dụ, nếu tuổi giữa 59 và 69, mô hình tuyên bố rằng có 12 điểm được gán cho "agePoints".

Trong một phiếu ghi điểm, điểm số cuối cùng được tính từ tổng của các điểm từng phần đã thu được từ tất cả các đặc điểm của nó. Trong trường hợp tái nhập viện, điểm số cuối cùng có thể được tính từ một số các nhân tố hoặc các đặc điểm của nguy cơ. Chúng biến đổi theo, bắt đầu từ tuổi và số lần tái nhập viện trước đó, cho tới cả các chi tiết cụ thể, ví dụ như mức a-mô-ni-ắc và crê-a-tin trong máu. Khi đã tính toán tất cả các điểm từng phần, số điểm do tuổi ("age") đóng góp được so sánh với các điểm thu được từ tất cả các đặc điểm khác (không được hiển thị trong Liệt kê 1). Kết quả của sự so sánh này sẽ quyết định đưa ra các mã lý do nào. Đặc điểm càng có nhiều ảnh hưởng đến điểm số cuối cùng thì nó càng quan trọng trong lý giải nguyên nhân. Trong trường hợp tuổi được chọn là một nhân tố quan trọng, mã lý do "RC3" sẽ được đưa ra, rồi sau đó có thể được dịch thành một lời giải thích xác đáng.

Liệt kê 1. Trình bày một đặc điểm trong phiếu ghi điểm bằng PMML
<Characteristic name="agePoints" reasonCode="RC3" baselineScore="18">
   <Attribute partialScore="-1">
      <SimplePredicate field="age" operator="isMissing"/>
   </Attribute>
   <Attribute partialScore="-3">
      <SimplePredicate field="age" operator="lessOrEqual" value="38"/>
   </Attribute>
   <Attribute partialScore="0">
      <CompoundPredicate booleanOperator="and">
         <SimplePredicate field="age" operator="greaterThan" value="38"/>
         <SimplePredicate field="age" operator="lessOrEqual" value="59"/>
      </CompoundPredicate>
   </Attribute>
   <Attribute partialScore="12">
      <CompoundPredicate booleanOperator="and">
         <SimplePredicate field="age" operator="greaterThan" value="59"/>
         <SimplePredicate field="age" operator="lessOrEqual" value="69"/>
      </CompoundPredicate>
   </Attribute> 
   <Attribute partialScore="18">
      <SimplePredicate field="age" operator="greaterThan" value="69"/>
   </Attribute>
</Characteristic>

PMML 4.1 cũng cho phép kết hợp các quyết định thành một giải pháp dự báo như là một phần của việc xử lý sau chính dự báo đó. Ví dụ, khi một mô hình dự báo tạo ra một điểm số, lúc này PMML cho phép điểm số này được so sánh với một hoặc nhiều ngưỡng. Kết quả của việc so sánh này có thể được sử dụng để phân chia bệnh nhân vào một số nhóm có thể gồm các chẩn đoán, các chiến lược tiếp theo hoặc các kế hoạch điều trị khác nhau,. Trong mã PMML được hiển thị trong Liệt kê 2, điểm số cuối cùng được so sánh với một ngưỡng là 67. Nếu biến FinalScore lớn hơn 67, thì theo quy định trong phần tử "OutputField" thứ hai, kết quả của mô hình sẽ là "Có", ngụ ý rằng cần sắp xếp một cuộc hẹn khám tiếp theo. Nếu ít hơn hoặc bằng 67, kết quả sẽ là "Không", ngụ ý rằng một cuộc hẹn khám tiếp theo là không cần thiết.

Ví dụ 2. Xử lý sau trong PMML, từ các điểm số đến các quyết định
<OutputField dataType="double" feature="predictedValue" name="FinalScore" 
   optype="continuous" />  
<OutputField dataType="string" feature="decision" name="Outcome" 
optype="categorical">
   <Decisions businessProblem="Should a follow-up appointment be scheduled?"
      description="The decision depends on the likelihood of readmission.">
      <Decision value="Yes" description="Follow-up appointment is necessary.">
      <Decision value="No" description="No need for follow-up appointment.">
   </Decisions>
   <Apply function="greaterThan">
      <FieldRef field="FinalScore" />
          <Constant>67</Constant>
   </Apply>
      <!--THEN-->
      <Constant>Yes</Constant>
      <!--ELSE-->     
      <Constant>No</Constant>     
   </Apply>       
</OutputField>

PMML vẫn đang được sử dụng để biểu thị các giải pháp dự báo, đang giúp bệnh viện giảm tỷ lệ tái nhập viện. Nó cũng đang được sử dụng để biểu thị các mô hình phát hiện gian lận. Bởi vì tệp PMML chính là một tài liệu giải thích giải pháp dự báo, nên nó có thể được sử dụng để ghi nhật ký tất cả các quyết định dùng để xây dựng không chỉ các chiến lược xung quanh điểm số, mà còn xây dựng chính điểm số đó. Cũng như với bất kỳ ngành nghề hay phân khúc nào khác, PMML làm cho việc sử dụng các phân tích dự báo trong chăm sóc y tế trở nên minh bạch. Do PMML là một tiêu chuẩn, nên tất cả các hệ thống và những người liên quan trong quá trình chăm sóc y tế có thể dễ dàng hiểu nó. Vì vậy, có thể sử dụng nó để phổ biến các hướng dẫn thực hành tốt nhất cũng như bắt buộc tuân thủ các luật và các quy định. Ví dụ, người ta có thể dễ dàng đảm bảo chắc chắn rằng một giải pháp không sử dụng bất kỳ dữ liệu nhận dạng cá nhân nào, chỉ cần kiểm tra tệp PMML kết quả của giải pháp đó.


Từ xây dựng mô hình đến triển khai mô hình

PMML cho phép các giải pháp dự báo được chia sẻ giữa các ứng dụng và các hệ thống tuân thủ-PMML. Ví dụ, theo cách này một mô hình có thể được xây dựng bằng cách sử dụng SPSS Statistics của IBM, được xuất khẩu vào PMML và dễ dàng được triển khai thành ADAPA, máy ghi điểm Zementis. Sau khi triển khai, nó có thể được đưa vào hoạt động ngay lập tức. Trong kịch bản này, cái hay của việc biểu diễn các giải pháp dự báo qua một tiêu chuẩn như PMML nằm ở khả năng ngay lập tức di chuyển mô hình từ máy tính để bàn của các nhà khoa học sang môi trường sản xuất. Bất cứ khi nào dữ liệu thay đổi và một giải pháp dự báo hiện có cần được làm mới, thuật ngữ này thường ngụ ý rằng mô hình cần được xây dựng lại, thì mô hình có thể được triển khai lại trong vài phút. Điều này nghe có vẻ hiển nhiên và đơn giản, nhưng không có một tiêu chuẩn như PMML, việc triển khai một giải pháp dự báo có thể mất vài tháng kể từ khi một mô hình được xây dựng, nó cần được mô tả, thường là dưới dạng văn bản và rồi sau đó được mã hóa tùy chỉnh vào môi trường sản xuất. Như đã nói ở trên, ngoài việc dễ bị lỗi, quá trình này chiếm nhiều tài nguyên quý giá và không có chỗ đứng trong một hệ thống chăm sóc y tế cần phải linh hoạt, có khả năng thích nghi và chi phí hiệu quả.


Kết luận

Về mặt lich sử, các hệ thống thông minh đã được áp dụng để phân loại và chẩn đoán các bệnh khác nhau. Tuy nhiên, các nhà cung cấp dịch vụ chăm sóc y tế và các bệnh nhân chỉ mới bắt đầu được hưởng lợi từ các phân tích dự báo. Khi càng có nhiều dữ liệu hơn được chuyển trực tuyến, chúng ta nhất định sẽ thấy nhiều giải pháp dự báo hơn, từ việc theo dõi bệnh nhân trong Khu chăm sóc đặc biệt (ICU) đến phát hiện gian lận và lạm dụng. Bây giờ tất cả các giải pháp này có khả năng trở nên chính xác hơn bao giờ hết không chỉ do sẵn có một khối lượng dữ liệu số to lớn, mà còn do chi phí lưu trữ rất hiệu quả và năng lực xử lý to lớn đã có sẵn thông qua các giải pháp CNTT khác nhau, bao gồm điện toán đám mây và các môi trường Hadoop.

Việc có sẵn một tiêu chuẩn như là PMML làm tăng tính minh bạch, thúc đẩy các cách thực hành tốt nhất, làm giảm chi phí, tiết kiệm thời gian và cuối cùng có thể cứu được mạng sống. Với PMML, toàn bộ ngành kinh doanh chăm sóc y tế hưởng lợi từ một tiêu chuẩn duy nhất để mô tả tất cả các nhu cầu dự báo của nó, từ xử lý trước dữ liệu và kỹ thuật dự báo đến xử lý sau các điểm số thành các hoạt động thực hành có ý nghĩa. Nắm lấy tiêu chuẩn, chưa lúc nào tốt hơn lúc này.

Tài nguyên

Học tập

Lấy sản phẩm và công nghệ

  • IBM SPSS Statistics 20 (trước đây là SPSS Statistics) đặt vào tay bạn sức mạnh của phân tích thống kê nâng cao. Cho dù bạn là một người mới bắt đầu hay là một nhà thống kê có kinh nghiệm, bộ các công cụ toàn diện của nó sẽ đáp ứng nhu cầu của bạn.
  • ADAPA là một nền tảng quản lý ra quyết định về phân tích dự báo có tính cách mạng, sẵn có là một dịch vụ trên đám mây hoặc trên web. Nó cung cấp một môi trường an toàn, nhanh chóng và có khả năng mở rộng để triển khai các mô hình khai phá dữ liệu và logic kinh doanh của bạn và đưa chúng vào sử dụng thực tế.
  • IBM WebSphere Application Server (Máy chủ ứng dụng WebSphere của IBM): Xây dựng, triển khai và quản lý mọi kiểu dịch vụ và ứng dụng kinh doanh hướng dịch vụ (SOA) mạnh mẽ, linh hoạt và có thể tái sử dụng được, đồng thời giảm các chi phí cơ sở hạ tầng ứng dụng với IBM WebSphere Application Server.
  • Ðổi mới dự án phát triển nguồn mở tiếp theo của bạn với phần mềm dùng thử của IBM, có sẵn để tải về hoặc trên đĩa DVD.

Thảo luận

Bình luận

developerWorks: Đăng nhập

Các trường được đánh dấu hoa thị là bắt buộc (*).


Bạn cần một ID của IBM?
Bạn quên định danh?


Bạn quên mật khẩu?
Đổi mật khẩu

Bằng việc nhấn Gửi, bạn đã đồng ý với các điều khoản sử dụng developerWorks Điều khoản sử dụng.

 


Ở lần bạn đăng nhập đầu tiên vào trang developerWorks, một hồ sơ cá nhân của bạn được tạo ra. Thông tin trong bản hồ sơ này (tên bạn, nước/vùng lãnh thổ, và tên cơ quan) sẽ được trưng ra cho mọi người và sẽ đi cùng các nội dung mà bạn đăng, trừ khi bạn chọn việc ẩn tên cơ quan của bạn. Bạn có thể cập nhật tài khoản trên trang IBM bất cứ khi nào.

Thông tin gửi đi được đảm bảo an toàn.

Chọn tên hiển thị của bạn



Lần đầu tiên bạn đăng nhập vào trang developerWorks, một bản trích ngang được tạo ra cho bạn, bạn cần phải chọn một tên để hiển thị. Tên hiển thị của bạn sẽ đi kèm theo các nội dung mà bạn đăng tải trên developerWorks.

Tên hiển thị cần có từ 3 đến 30 ký tự. Tên xuất hiện của bạn phải là duy nhất trên trang Cộng đồng developerWorks và vì lí do an ninh nó không phải là địa chỉ email của bạn.

Các trường được đánh dấu hoa thị là bắt buộc (*).

(Tên hiển thị cần có từ 3 đến 30 ký tự)

Bằng việc nhấn Gửi, bạn đã đồng ý với các điều khoản sử dụng developerWorks Điều khoản sử dụng.

 


Thông tin gửi đi được đảm bảo an toàn.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=70
Zone=Nguồn mở
ArticleID=807696
ArticleTitle=Phân tích dự báo trong chăm sóc y tế
publish-date=03302012