Các giải pháp phân tích dự báo gồm các kỹ thuật ví dụ như mạng thần kinh nhân tạo và các cây quyết định (trong vô số các kỹ thuật thống kê khác) có khả năng tìm hiểu các mẫu hiện có trong dữ liệu lịch sử. Sau đó chúng có thể áp dụng các kiến thức thu được để phát hiện hoặc dự báo xu hướng về dữ liệu mới. Ngày nay, các phân tích dự báo lan tỏa vào cuộc sống hàng ngày của chúng ta, từ phát hiện gian lận trong các giao dịch tài chính (mỗi khi bạn sử dụng thẻ tín dụng của mình để mua một cái gì đó tại cửa hàng hoặc trực tuyến, nó được phân tích về tiềm năng gian lận) đến các hệ thống tiếp thị và tư vấn khách hàng. Trong bài này chúng tôi thảo luận không chỉ về các kỹ thuật này có thể được áp dụng trong lĩnh vực chăm sóc y tế như thế nào, mà còn về cách các tiêu chuẩn PMML có thể làm cho việc triển khai vận hành bất kỳ giải pháp dự báo nào trong lĩnh vực chăm sóc y tế dễ dàng hơn đáng kể đến mức nào.
Vào đầu những năm 90, tôi đã khá may mắn được làm việc với Ricardo Machado quá cố, một trong những nhà nghiên cứu Trí tuệ nhân tạo (AI) hàng đầu tại Trung tâm nghiên cứu khoa học của IBM ở Rio de Janeiro, Braxin. Ricardo và các cộng tác viên của ông đã xuất bản nhiều bài báo về các mạng thần kinh và một hệ chuyên gia dự báo được đặt tên là Next. Sức mạnh của hệ thống này bắt nguồn từ khả năng của nó trong việc sử dụng "các đồ thị tri thức" thu được từ các cuộc phỏng vấn với các chuyên gia y tế để hình thành cơ sở của một mô hình có khả năng thay đổi các đồ thị này khi được trình bày với dữ liệu, do đó chuyển đổi chúng thành một mạng thần kinh nhân tạo. Next đã được sử dụng thành công để chẩn đoán và phân loại bệnh thận. Lấy cảm hứng từ các kết quả thu được với Next, Beatriz Leao, người đầu tiên đề xuất phương pháp luận đồ thị tri thức mà Ricardo sử dụng, đã phát triển một hệ thống gọi là HYCONES, cũng đã kết hợp tri thức biểu tượng và các mạng thần kinh. Khi làm việc với Beatriz tại Viện Tim mạch ở Braxin, chúng tôi đã có thể sử dụng HYCONES để phát hiện và phân loại thành công bệnh tim bẩm sinh. Kết quả công việc của chúng tôi đã được xuất bản trong M.D. Computing vào năm 1994.
Khi biết các nghiên cứu về phân tích dự báo và chăm sóc y tế ấy đã có từ vài năm trước, bạn có thể tự hỏi tại sao lại mất lâu đến thế để thực tế đưa tất cả các thành công khoa học này vào cuộc sống hàng ngày của chúng ta. Câu trả lời là khá đơn giản, ngành chăm sóc y tế đã bị chậm trễ trong việc nắm lấy thời đại kỹ thuật số. Ngay cả khi bạn đến khám bệnh với một bác sĩ hiện nay ở Mỹ, rất có thể là hầu hết thông tin thu thập trong lúc khám bệnh của bạn vẫn được viết bằng tay vào hồ sơ y tế của bạn và x-quang vẫn còn in ra và đặt vào hồ sơ của bạn. Vì vậy, làm sao để cho dữ liệu này có sẵn phục vụ khai phá dữ liệu và các phân tích dự báo vẫn còn là một thách thức thậm chí ngay cả hiện nay.
Tuy nhiên, chúng ta cũng biết rằng ngày càng có nhiều thông tin hơn về bệnh nhân và các nhà cung cấp dịch vụ hiện đang được lưu trữ bằng kỹ thuật số. Ví dụ như ở Mỹ, Kaiser Permanente cùng với các tổ chức chăm sóc y tế lớn khác đã đi đầu trong việc nắm giữ các hồ sơ y tế điện tử. Thậm chí còn có một sự thúc đẩy lớn để làm điều này ở các nền kinh tế mới nổi và các nước đang phát triển. Beatriz Leao, người sáng lập Hiệp hội tin học y tế Braxin vào năm 1986, hiểu rõ tất cả các lợi ích gắn liền với các tiêu chuẩn và các hồ sơ y tế điện tử. Trong những năm qua, bà vẫn đang làm việc không ngừng để phát triển nhiều cơ sở hạ tầng tin học y tế cần thiết ở các nước châu Phi, đầu tiên với vai trò là một nhà tư vấn cho Tổ chức Y tế Thế giới tại Mozambique và sau đó cho Jhpiego, tổ chức y tế phi lợi nhuận liên kết với trường Đại học John Hopkins, ở Rwanda (xem Tài nguyên).
Chăm sóc y tế và các phân tích dự báo
Khi có sẵn nhiều dữ liệu số hóa thì dữ liệu đã sẵn sàng được khai phá. Thông qua khai phá dữ liệu và các phân tích dự báo, dữ liệu lịch sử có thể tiết lộ các mẫu được sử dụng để dự báo các xu hướng. Trước đây, các phân tích dự báo, cùng với tri thức chuyên gia, đã được sử dụng để hỗ trợ trong chẩn đoán và điều trị nhiều bệnh. Các hệ thống như Next và HYCONES là những ví dụ ban đầu. Các giải pháp dự báo trong lĩnh vực này có thể tạo ra một tác động to lớn đến các lĩnh vực ở đó có rất ít hoặc không có tri thức chuyên gia y tế. Khi dữ liệu truyền trực tuyến và các hệ thống dự báo trở nên phổ biến, chúng cho phép các công cụ trợ giúp ra quyết định nhanh hơn và chính xác hơn cho các nhà cung cấp dịch vụ chăm sóc y tế. Gần đây, các hệ thống dự báo đang chứng tỏ còn có tiềm lực hơn. Như tôi đã báo cáo cuối năm ngoái trong một bài viết khác về các phân tích dự báo và các tiêu chuẩn (xem Tài nguyên), IBM và Viện Công nghệ của trường Đại học Ontario hiện đang làm việc với nhau để thực hiện một giải pháp phân tích dữ liệu và dự báo để theo dõi trẻ sinh non trong đó có thể sử dụng các kết quả đọc y sinh học để phát hiện sớm hơn các bệnh nhiễm trùng đe dọa cuộc sống, tới mức trước 24 giờ trước khi chúng được phát hiện thấy như thường lệ.
Nhờ biết trước một nhóm các bệnh nhân có nguy cơ thấp hoặc cao đối với một căn bệnh hoặc tình trạng sức khỏe nhất định, việc khai phá dữ liệu và các phân tích dự báo cũng đang giúp các nhà cung cấp dịch vụ chăm sóc y tế tạo ra các biện pháp điều trị mục tiêu cho các nhóm người khác nhau. Ví dụ, trong trường hợp của bệnh tim mạch, nhờ bắt tay làm việc chặt chẽ với các bệnh nhân được xác định bằng một giải pháp dự báo là có nguy cơ cao, các biện pháp phòng ngừa đơn giản có thể được thực hiện như cắt giảm lượng chất béo bão hòa (trans fats) vào cơ thể, giảm cân và bỏ hút thuốc lá, có thể làm giảm đáng kể nguy cơ của một cơn đau tim. Theo cách này, các nhà cung cấp dịch vụ chăm sóc y tế có thể đưa ra những chiến lược khác nhau để giữ cho bệnh nhân có nguy cơ thấp ở mức nguy cơ thấp, trong khi giảm thiểu các nguy cơ liên quan đến các bệnh nhân có nguy cơ cao.
Theo luật y tế liên bang Mỹ, bây giờ các bệnh viện có tỷ lệ tái nhập viện cao hơn dự kiến sẽ nhận được tiền hoàn trả Medicare thấp hơn. Ủy ban tư vấn thanh toán Medicare ước tính rằng trong năm 2005 chi phí tái nhập viện của chương trình Medicare là 15 tỷ Đô la, mà 12 tỷ Đô la trong đó có thể tránh được (xem Tài nguyên). Khi biết rằng một tỷ lệ rất lớn việc tái nhập viện có thể tránh được, các phân tích dự báo đang được sử dụng như một sự trợ giúp cho các bệnh viện để cắt giảm tỷ lệ tái nhập viện. Mặc dù một cuộc hẹn khám đơn giản để theo dõi việc điều trị còn xa mới ngăn chặn được việc tái nhập viện, các phân tích dự báo có thể xác định chính xác các bệnh nhân nào cần được theo dõi chặt chẽ. Nó cũng có thể hỗ trợ các bệnh viện trong việc xác định các nhóm người có thể cần hỗ trợ thêm bằng các chế độ ăn uống đơn giản như việc hiểu biết các hạn chế về chế độ ăn kiêng.
Các hệ thống dự báo đã được sử dụng trong nhiều năm trong ngành tài chính để phát hiện gian lận. Ngày nay, phần lớn các giao dịch thẻ tín dụng được đánh giá bằng một giải pháp dự báo nguy cơ gian lận trong thời gian thực. Nếu thấy có nguy cơ cao, các giải pháp này thậm chí có thể từ chối một giao dịch và do đó ngăn chặn lừa đảo xảy ra. Vì chi phí liên quan đến gian lận Medicare lớn hơn nhiều so với chi phí liên quan đến việc tái nhập viện, nên chi phí này chắc chắn sẽ trở thành tiêu điểm chính của các giải pháp dự báo. Các thành công đã kiểm chứng đã đạt được với các kỹ thuật dự báo ví dụ như các mạng thần kinh trong việc phát hiện gian lận trong ngành tài chính có thể và nên được sử dụng để phát hiện gian lận và sự lạm dụng trong lĩnh vực chăm sóc y tế.
Nếu bạn đã xem xét một bản giải thích về các lợi ích từ công ty bảo hiểm y tế của bạn, bạn biết quá rõ là tất cả mỗi lần điều trị, bệnh tật hoặc tình trạng sức khỏe đều được cặp đôi với một mã số. Mặc dù tất cả việc mã hóa chi tiết có thể giúp xây dựng các mô hình phát hiện gian lận và lạm dụng, nó cũng vẫn là một thách thức bởi vì dữ liệu yêu cầu thanh toán cần được xử lý trước và đơn giản hóa trước khi dùng làm đầu vào cho một hệ thống dự báo. Thật không may, về chẩn đoán có hỗ trợ hay chăm sóc phòng ngừa, dữ liệu yêu cầu thanh toán rất nghèo nàn không đủ để đưa ra một chỉ báo bệnh tật hay tình trạng sức khỏe nghiêm trọng đến đâu. Và như vậy, có thể cần dữ liệu tốt hơn để có được các dự báo tốt hơn.
Việc sử dụng các phân tích dự báo trong chăm sóc y tế sẽ hưởng lợi từ sự kết hợp của các kho dữ liệu khác nhau. Chúng ta càng biết nhiều hơn về một cá nhân hay nhóm người, tức là hình ảnh càng lớn hơn thì các dự báo sẽ càng chính xác hơn. Với nhiều điểm dữ liệu hơn, các mô hình có thể được đo cắt thích ứng với một bệnh nhân hoặc một nhóm bệnh nhân cụ thể để cuối cùng dẫn đến các cách điều trị chính xác và hiệu quả hơn, việc đó sẽ chắc chắn nâng cao toàn bộ tính hiệu quả của hệ thống chăm sóc y tế trong khi đồng thời làm giảm các chi phí.
Các giải pháp phân tích dự báo thường được một nhóm các nhà khoa học khai phá dữ liệu xây dựng và xác nhận hiệu lực. Việc triển khai hoạt động thực tế của các giải pháp này luôn là một nhiệm vụ do một nhóm kỹ sư thực hiện. Một mặt, các nhà khoa học khai phá dữ liệu là những chuyên gia về số liệu thống kê và họ sử dụng các gói phần mềm thống kê để tạo ra các mô hình dự báo tốt nhất. Mặt khác, các kỹ sư chuyên về các ngôn ngữ lập trình, các cơ sở dữ liệu và các hệ thống Công nghệ thông tin (CNTT). Vì lý do này, việc triển khai một giải pháp dự báo theo truyền thống, là quá trình di chuyển giải pháp từ máy tính để bàn của các nhà khoa học sang môi trường ở đó nó sẽ được đưa vào làm việc, có thể bị mất mát trong lúc chuyển dịch. Trong kịch bản này, mỗi khi một mô hình dự báo rời khỏi miền làm việc của nhà khoa học, nó cần được mã hóa lại sao cho nó sẽ làm việc trong môi trường sản xuất. Quá trình này rất tốn công sức, dễ bị lỗi và có thể mất nhiều tháng.
Để tránh một kịch bản như vậy, việc sử dụng một tiêu chuẩn, có thể mô tả việc khai phá dữ liệu và các giải pháp phân tích dự báo là rất quan trọng. PMML chính là một tiêu chuẩn như vậy. PMML là sản phẩm trí tuệ của Tập đoàn khai phá dữ liệu (Data Mining Group), một hiệp hội của các công ty khai phá dữ liệu thương mại và nguồn mở (xem Tài nguyên). Nó cho phép xây dựng một giải pháp thành một hệ thống và dễ dàng hiển thị trực quan hoặc triển khai trong một hệ thống khác. Ví dụ, PMML có thể được xuất khẩu tự động từ IBM SPSS Statistics hoặc Modeler và được nhập khẩu vào KNIME, một công cụ khai phá dữ liệu được sử dụng để xây dựng các luồng dữ liệu công việc. Nó cũng có thể dễ dàng được di chuyển và triển khai trong ADAPA, là máy ghi điểm Zementis, ở đây nó có thể được đưa vào làm việc chỉ sau vài phút trong bất kỳ môi trường sản xuất nào.
PMML — Có gì mới trong Phiên bản 4.1
PMML là tiêu chuẩn phổ biến mô tả các giải pháp dự báo, bao gồm cả việc xử lý trước dữ liệu đầu vào thô cũng như chính kỹ thuật dự báo đó. Là một tiêu chuẩn, PMML đã trải qua hơn 10 năm. Phiên bản 4.1 được phát hành vào 12.2011. Phiên bản 4.1 xây dựng dựa trên phiên bản 4.0, có cung cấp hỗ trợ mở rộng cho nhiều mô hình. PMML 4.1 đưa nhiều mô hình lên một mức độ mới và làm dễ dàng hơn việc thể hiện toàn bộ và phân đoạn mô hình. Nhiều mô hình thường kết hợp các kỹ thuật dự báo khác nhau để tạo ra một dự báo đơn lẻ. Các cây quyết định và các mạng thần kinh là một vài kỹ thuật nổi tiếng được sử dụng trong khai phá dữ liệu và các phân tích dự báo và vì thế đã được PMML hỗ trợ kể từ lúc còn ấp ủ. Khi ngôn ngữ này đã hoàn thiện, ngày càng có nhiều kỹ thuật hơn được tích hợp vào cấu trúc của nó. PMML 4.1 cũng không ngoại lệ. Nó cung cấp các phần tử ngôn ngữ mới để trình bày Scorecards (Các phiếu ghi điểm) và K-Nearest Neighbors (K – láng giềng gần nhất).
Có lẽ phiếu ghi điểm nổi tiếng nhất đang sử dụng hiện nay là một phiếu ghi điểm hỗ trợ điểm số FICO, được sử dụng để đánh giá rủi ro cá nhân mặc định trong lĩnh vực tài chính. Bên cạnh khả năng phát hiện các xu hướng, các phiếu ghi điểm nổi tiếng vì có thể giải thích lý do đằng sau kết quả đầu ra hoặc điểm số của chúng. Trong chăm sóc y tế, điều này trở thành một tính năng quan trọng do nhu cầu cần biết lý do tại sao một bệnh nhân lại được phân loại là có nguy cơ cao hay thấp. Mặt khác, các mạng thần kinh truyền thống được biết đến như là một "hộp đen" đơn giản bởi vì rất khó rút ra các lý do đằng sau kết quả đầu ra của chúng. Đó là vì các mạng thần kinh như tên gọi của chúng ngụ ý, cố gắng bắt chước cách chúng ta học. Như Beatriz Leao đã phát hiện ra khi cố gắng xây dựng các đồ thị tri thức từ các cuộc phỏng vấn của ông với các chuyên gia y tế, họ cũng rất khó giải thích lý do thỏa đáng đằng sau một chẩn đoán. Khi bị thúc ép, họ có xu hướng nhận dạng một vài kết quả ít ỏi dẫn đến một chẩn đoán cụ thể. Các đồ thị tri thức thu được từ các chuyên gia y tế có xu hướng nghèo nàn. Mặt khác, các đồ thị đã thu được từ các bác sĩ ở nơi cư trú thường lớn và rộng và xem xét từng chi tiết trong hồ sơ y tế của bệnh nhân trước khi đạt được một vài chẩn đoán. Lý do cơ bản trong trường hợp sau gắn chặt với những kiến thức thu được từ bách khoa toàn thư y tế. Như Ricardo Machado đã phát hiện ra, một khi các đồ thị tri thức mới này được chuyển đến để huấn luyện mạng thần kinh, chúng đã kết luận giống như các đồ thị tri thức thu được từ các chuyên gia.
Ta có thể hiểu được các lý do đằng sau một dự báo vì nó được biểu diễn bằng
PMML nhờ một thuộc tính có tên là reasonCode.
PMML là một ngôn ngữ dựa trên XML và do đó, người ta có thể hiểu không chỉ
lý do đằng sau điểm số, mà còn hiểu cả chính mô hình của nó. Ví dụ, mã
PMML hiển thị trong Liệt kê 1 được lấy từ bên trong
một phân tử "Scorecard" của PMML. Kiểm tra nhanh, người ta có thể dễ dàng
thấy rằng nó có chứa nguồn gốc của các điểm số dành cho trường dữ liệu đầu
vào "age" (tuổi). Ví dụ, nếu tuổi giữa 59 và 69, mô hình tuyên bố rằng có
12 điểm được gán cho "agePoints".
Trong một phiếu ghi điểm, điểm số cuối cùng được tính từ tổng của các điểm từng phần đã thu được từ tất cả các đặc điểm của nó. Trong trường hợp tái nhập viện, điểm số cuối cùng có thể được tính từ một số các nhân tố hoặc các đặc điểm của nguy cơ. Chúng biến đổi theo, bắt đầu từ tuổi và số lần tái nhập viện trước đó, cho tới cả các chi tiết cụ thể, ví dụ như mức a-mô-ni-ắc và crê-a-tin trong máu. Khi đã tính toán tất cả các điểm từng phần, số điểm do tuổi ("age") đóng góp được so sánh với các điểm thu được từ tất cả các đặc điểm khác (không được hiển thị trong Liệt kê 1). Kết quả của sự so sánh này sẽ quyết định đưa ra các mã lý do nào. Đặc điểm càng có nhiều ảnh hưởng đến điểm số cuối cùng thì nó càng quan trọng trong lý giải nguyên nhân. Trong trường hợp tuổi được chọn là một nhân tố quan trọng, mã lý do "RC3" sẽ được đưa ra, rồi sau đó có thể được dịch thành một lời giải thích xác đáng.
Liệt kê 1. Trình bày một đặc điểm trong phiếu ghi điểm bằng PMML
<Characteristic name="agePoints" reasonCode="RC3" baselineScore="18">
<Attribute partialScore="-1">
<SimplePredicate field="age" operator="isMissing"/>
</Attribute>
<Attribute partialScore="-3">
<SimplePredicate field="age" operator="lessOrEqual" value="38"/>
</Attribute>
<Attribute partialScore="0">
<CompoundPredicate booleanOperator="and">
<SimplePredicate field="age" operator="greaterThan" value="38"/>
<SimplePredicate field="age" operator="lessOrEqual" value="59"/>
</CompoundPredicate>
</Attribute>
<Attribute partialScore="12">
<CompoundPredicate booleanOperator="and">
<SimplePredicate field="age" operator="greaterThan" value="59"/>
<SimplePredicate field="age" operator="lessOrEqual" value="69"/>
</CompoundPredicate>
</Attribute>
<Attribute partialScore="18">
<SimplePredicate field="age" operator="greaterThan" value="69"/>
</Attribute>
</Characteristic>
|
PMML 4.1 cũng cho phép kết hợp các quyết định thành một giải pháp dự báo
như là một phần của việc xử lý sau chính dự báo đó. Ví dụ, khi một mô hình
dự báo tạo ra một điểm số, lúc này PMML cho phép điểm số này được so sánh
với một hoặc nhiều ngưỡng. Kết quả của việc so sánh này có thể được sử
dụng để phân chia bệnh nhân vào một số nhóm có thể gồm các chẩn đoán, các
chiến lược tiếp theo hoặc các kế hoạch điều trị khác nhau,. Trong mã PMML
được hiển thị trong Liệt kê 2, điểm số cuối cùng được
so sánh với một ngưỡng là 67. Nếu biến
FinalScore lớn hơn 67, thì theo quy định trong
phần tử "OutputField" thứ hai, kết quả của mô hình sẽ là "Có", ngụ ý rằng
cần sắp xếp một cuộc hẹn khám tiếp theo. Nếu ít hơn hoặc bằng 67, kết quả
sẽ là "Không", ngụ ý rằng một cuộc hẹn khám tiếp theo là không cần
thiết.
Ví dụ 2. Xử lý sau trong PMML, từ các điểm số đến các quyết định
<OutputField dataType="double" feature="predictedValue" name="FinalScore"
optype="continuous" />
<OutputField dataType="string" feature="decision" name="Outcome"
optype="categorical">
<Decisions businessProblem="Should a follow-up appointment be scheduled?"
description="The decision depends on the likelihood of readmission.">
<Decision value="Yes" description="Follow-up appointment is necessary.">
<Decision value="No" description="No need for follow-up appointment.">
</Decisions>
<Apply function="greaterThan">
<FieldRef field="FinalScore" />
<Constant>67</Constant>
</Apply>
<!--THEN-->
<Constant>Yes</Constant>
<!--ELSE-->
<Constant>No</Constant>
</Apply>
</OutputField>
|
PMML vẫn đang được sử dụng để biểu thị các giải pháp dự báo, đang giúp bệnh viện giảm tỷ lệ tái nhập viện. Nó cũng đang được sử dụng để biểu thị các mô hình phát hiện gian lận. Bởi vì tệp PMML chính là một tài liệu giải thích giải pháp dự báo, nên nó có thể được sử dụng để ghi nhật ký tất cả các quyết định dùng để xây dựng không chỉ các chiến lược xung quanh điểm số, mà còn xây dựng chính điểm số đó. Cũng như với bất kỳ ngành nghề hay phân khúc nào khác, PMML làm cho việc sử dụng các phân tích dự báo trong chăm sóc y tế trở nên minh bạch. Do PMML là một tiêu chuẩn, nên tất cả các hệ thống và những người liên quan trong quá trình chăm sóc y tế có thể dễ dàng hiểu nó. Vì vậy, có thể sử dụng nó để phổ biến các hướng dẫn thực hành tốt nhất cũng như bắt buộc tuân thủ các luật và các quy định. Ví dụ, người ta có thể dễ dàng đảm bảo chắc chắn rằng một giải pháp không sử dụng bất kỳ dữ liệu nhận dạng cá nhân nào, chỉ cần kiểm tra tệp PMML kết quả của giải pháp đó.
Từ xây dựng mô hình đến triển khai mô hình
PMML cho phép các giải pháp dự báo được chia sẻ giữa các ứng dụng và các hệ thống tuân thủ-PMML. Ví dụ, theo cách này một mô hình có thể được xây dựng bằng cách sử dụng SPSS Statistics của IBM, được xuất khẩu vào PMML và dễ dàng được triển khai thành ADAPA, máy ghi điểm Zementis. Sau khi triển khai, nó có thể được đưa vào hoạt động ngay lập tức. Trong kịch bản này, cái hay của việc biểu diễn các giải pháp dự báo qua một tiêu chuẩn như PMML nằm ở khả năng ngay lập tức di chuyển mô hình từ máy tính để bàn của các nhà khoa học sang môi trường sản xuất. Bất cứ khi nào dữ liệu thay đổi và một giải pháp dự báo hiện có cần được làm mới, thuật ngữ này thường ngụ ý rằng mô hình cần được xây dựng lại, thì mô hình có thể được triển khai lại trong vài phút. Điều này nghe có vẻ hiển nhiên và đơn giản, nhưng không có một tiêu chuẩn như PMML, việc triển khai một giải pháp dự báo có thể mất vài tháng kể từ khi một mô hình được xây dựng, nó cần được mô tả, thường là dưới dạng văn bản và rồi sau đó được mã hóa tùy chỉnh vào môi trường sản xuất. Như đã nói ở trên, ngoài việc dễ bị lỗi, quá trình này chiếm nhiều tài nguyên quý giá và không có chỗ đứng trong một hệ thống chăm sóc y tế cần phải linh hoạt, có khả năng thích nghi và chi phí hiệu quả.
Về mặt lich sử, các hệ thống thông minh đã được áp dụng để phân loại và chẩn đoán các bệnh khác nhau. Tuy nhiên, các nhà cung cấp dịch vụ chăm sóc y tế và các bệnh nhân chỉ mới bắt đầu được hưởng lợi từ các phân tích dự báo. Khi càng có nhiều dữ liệu hơn được chuyển trực tuyến, chúng ta nhất định sẽ thấy nhiều giải pháp dự báo hơn, từ việc theo dõi bệnh nhân trong Khu chăm sóc đặc biệt (ICU) đến phát hiện gian lận và lạm dụng. Bây giờ tất cả các giải pháp này có khả năng trở nên chính xác hơn bao giờ hết không chỉ do sẵn có một khối lượng dữ liệu số to lớn, mà còn do chi phí lưu trữ rất hiệu quả và năng lực xử lý to lớn đã có sẵn thông qua các giải pháp CNTT khác nhau, bao gồm điện toán đám mây và các môi trường Hadoop.
Việc có sẵn một tiêu chuẩn như là PMML làm tăng tính minh bạch, thúc đẩy các cách thực hành tốt nhất, làm giảm chi phí, tiết kiệm thời gian và cuối cùng có thể cứu được mạng sống. Với PMML, toàn bộ ngành kinh doanh chăm sóc y tế hưởng lợi từ một tiêu chuẩn duy nhất để mô tả tất cả các nhu cầu dự báo của nó, từ xử lý trước dữ liệu và kỹ thuật dự báo đến xử lý sau các điểm số thành các hoạt động thực hành có ý nghĩa. Nắm lấy tiêu chuẩn, chưa lúc nào tốt hơn lúc này.
Học tập
- Đọc cuốn sách PMML trong hành động: Giải phóng sức mạnh của các tiêu chuẩn mở cho
khai phá dữ liệu và các phân tích dự báo (05.2010).
- PMML là gì? Khám phá năng lực của các phân tích dự báo và các tiêu
chuẩn mở (Alex Guazzelli, developerWorks, 09.2010): Xem lại các cơ
sở. PMML cho phép triển khai ngay lập tức các giải pháp dự báo. Đây là
tiêu chuẩn thực tế để biểu diễn các mô hình phân tích dự báo và được hỗ
trợ bởi các công cụ thống kê mã nguồn mở và thương mại hàng
đầu.
- Biểu diễn các giải pháp dự báo trong PMML: Di chuyển từ dữ liệu thô
sang các dự báo (Alex Guazzelli, developerWorks, 09.2010): Tìm
hiểu cách PMML biểu diễn các kỹ thuật mô hình hóa dự báo. Nghiên cứu sâu
hơn về ngôn ngữ và khám phá các cách biểu diễn dữ liệu, các phép chuyển
đổi và các hàm biểu diễn một giải pháp dự báo hoàn chỉnh.
-
Tập đoàn khai phá dữ liệu (DMG) là một
hiệp hội độc lập dẫn dắt bởi các nhà cung cấp để phát triển các tiêu chuẩn
khai phá dữ liệu, ví dụ như Predictive Model Markup Language (PMML).
- Truy cập vào trang Tài nguyên PMML của
Zementis để khám phá toàn bộ các ví dụ PMML.
- Truy cập vào trang PMML trong
Wikipedia.
- Truy cập vào trang Phân
tích dự báo trong Wikipedia.
- Truy cập vào Khai phá dữ liệu
trong Wikipedia.
- Tham gia các nhóm
thảo luận PMML trong LinkedIn.
- Truy cập vào Vùng công nghiệp
phần mềm developerWorks để lấy các tài nguyên kỹ thuật của từng
ngành nghề cụ thể dành cho các nhà phát triển.
- Để nghe các cuộc phỏng vấn và thảo luận
thú vị dành cho các nhà phát triển phần mềm, hãy truy cập vào podcasts trên developerWorks.
-
Các sự kiện kỹ thuật và webcast developerWorks: Theo sát với sự
kiện kỹ thuật và webcast trên developerWorks.
Lấy sản phẩm và công nghệ
-
IBM SPSS Statistics 20
(trước đây là SPSS Statistics) đặt vào tay bạn sức mạnh của phân tích
thống kê nâng cao. Cho dù bạn là một người mới bắt đầu hay là một nhà
thống kê có kinh nghiệm, bộ các công cụ toàn diện của nó sẽ đáp ứng nhu
cầu của bạn.
-
ADAPA là một nền tảng quản
lý ra quyết định về phân tích dự báo có tính cách mạng, sẵn có là một dịch
vụ trên đám mây hoặc trên web. Nó cung cấp một môi trường an toàn, nhanh
chóng và có khả năng mở rộng để triển khai các mô hình khai phá dữ liệu và
logic kinh doanh của bạn và đưa chúng vào sử dụng thực tế.
-
IBM
WebSphere Application Server (Máy chủ ứng dụng WebSphere của IBM):
Xây dựng, triển khai và quản lý mọi kiểu dịch vụ và ứng dụng kinh doanh
hướng dịch vụ (SOA) mạnh mẽ, linh hoạt và có thể tái sử dụng được, đồng
thời giảm các chi phí cơ sở hạ tầng ứng dụng với IBM WebSphere Application
Server.
- Ðổi mới dự án
phát triển nguồn mở tiếp theo của bạn với phần mềm dùng thử
của IBM, có sẵn để tải về hoặc trên đĩa DVD.
Thảo luận
- Tham gia vào các
blog trên developerWorks và dành tâm trí cho cộng đồng
developerWorks.

Tiến sĩ Alex Guazzelli là Phó chủ tịch của Analytics tại Zementis. Inc, nơi ông chịu trách nhiệm về phát triển công nghệ lõi và các giải pháp dự báo theo ADAPA, một nền tảng ra quyết định dựa vào PMML (Predictive Model Markup Language - Ngôn ngữ đánh dấu mô hình dự báo). Tiến sĩ Guazzelli có bằng tiến sĩ Khoa học Máy tính của trường Đại học Nam California và gần đây đã là đồng tác giả cuốn sách " PMML trong hành động: Giải phóng Sức mạnh của các tiêu chuẩn mở cho khai phá dữ liệu và phân tích dự báo". Bạn có thể dõi theo ông tại @DrAlexGuazzelli.