Dự báo tương lai, Phần 2: Các kỹ thuật mô hình hóa dự báo

Đây là bài thứ hai của một loạt bài bốn phần tập trung vào các khía cạnh quan trọng nhất của phân tích dự báo. Phần 1 đã đưa ra một tổng quan chung về phân tích dự báo. Bài này tập trung vào các kỹ thuật mô hình hóa dự báo, các thuật toán toán học tạo nên cốt lõi của phân tích dự báo.

Alex Guazzelli, Phó chủ tịch Analytics, Zementis, Inc.

Photo of Alex GuazzelliTiến sĩ Alex Guazzelli là Phó chủ tịch của Analytics tại Zementis. Inc, nơi ông chịu trách nhiệm về phát triển công nghệ lõi và các giải pháp dự báo theo ADAPA, một nền tảng ra quyết định dựa vào PMML (Predictive Model Markup Language - Ngôn ngữ đánh dấu mô hình dự báo). Tiến sĩ Guazzelli có bằng tiến sĩ Khoa học Máy tính của trường Đại học Nam California và gần đây đã là đồng tác giả cuốn sách " PMML trong hành động: Giải phóng Sức mạnh của các tiêu chuẩn mở cho khai phá dữ liệu và phân tích dự báo". Bạn có thể dõi theo ông tại @DrAlexGuazzelli.



23 08 2012

Giới thiệu

Là một xã hội, chúng ta đang tích lũy dữ liệu theo quy mô lũy thừa. IBM báo cáo rằng 90% dữ liệu có sẵn hiện nay đã được tạo ra chỉ trong hai năm qua. May mắn thay, nhiều kỹ thuật mô hình hóa dự báo, gồm các mạng thần kinh (NN - neural networks), phân cụm, các máy vec tơ hỗ trợ (các SVM) và các quy tắc kết hợp, đang tồn tại để giúp dịch các dữ liệu này thành thành giá trị và sự hiểu biết tốt hơn. Chúng làm điều đó bằng cách học các mẫu ẩn giấu trong các khối dữ liệu lịch sử lớn. Khi đã học xong, kết quả là một mô hình dự báo. Sau khi một mô hình được xác nhận hợp lệ, nó được coi là có thể tổng quát hóa kiến thức mà nó đã học được và áp dụng mô hình đó cho một tình huống mới. Do các kỹ thuật mô hình hóa dự báo có thể học từ quá khứ để dự báo tương lai, chúng đang được áp dụng cho vô số các vấn đề như các hệ thống tư vấn, phát hiện gian lận và lạm dụng và phòng ngừa các bệnh tật và tai nạn. Tính sẵn có của "dữ liệu lớn" và công suất xử lý hiệu quả về chi phí, đang mở rộng khả năng áp dụng các kỹ thuật dự báo dựa vào dữ liệu trong các ngành nghề khác nhau. Theo cách làm đó, toán học thông minh đang giúp cho càng ngày càng có nhiều công ty nhận ra tiềm năng thực sự ẩn giấu trong dữ liệu của họ.

Phân tích dự báo được các công ty và các cá nhân trên toàn thế giới sử dụng để trích ra giá trị từ dữ liệu lịch sử thu thập được từ mọi người và các cảm biến. Dữ liệu của mọi người gồm có các giao dịch khách hàng có cấu trúc (ví dụ, từ các lần mua hàng trực tuyến) hoặc dữ liệu không cấu trúc thu thập được từ các phương tiện truyền thông xã hội. Mặt khác, dữ liệu của cảm biến thu được từ hàng loạt thiết bị được sử dụng để giám sát đường xá, cầu cống, các tòa nhà, máy móc, hệ thống lưới điện và bầu khí quyển và khí hậu. Trong bài này, chúng ta tập trung vào các kỹ thuật mô hình hóa dự báo. Đây là những thuật toán toán học được sử dụng để "học" các mẫu ẩn giấu trong tất cả các dữ liệu này.

Sau khi một mô hình dự báo được xây dựng và được xác nhận hợp lệ, nó được coi là có thể tổng quát hóa kiến thức đã học được từ dữ liệu lịch sử để dự báo tương lai. Bằng cách này, ví dụ, có thể sử dụng nó để dự báo nguy cơ dao động hoặc rời bỏ đi của khách hàng, trong trường hợp về dữ liệu của mọi người hoặc nguy cơ của sự cố máy móc, trong trường hợp về dữ liệu của cảm biến. Các mô hình như vậy tính toán một điểm số hoặc nguy cơ bằng cách thực hiện một hàm hồi quy. Cũng có thể sử dụng các mô hình dự báo để thực hiện một hàm phân loại, trong đó kết quả là một lớp hay một thể loại.

Bất kể là kiểu mô hình nào, một điều là chắc chắn: Các mô hình dự báo đã đang định hình kinh nghiệm của chúng ta bất cứ chúng ta đi đâu và bất cứ chúng ta làm gì. Chúng giới thiệu các sản phẩm và các dịch vụ dựa trên thói quen của chúng ta. Chúng giúp các nhà cung cấp dịch vụ chăm sóc sức khỏe thiết kế và thực hiện các biện pháp cứu chữa phòng ngừa căn cứ vào tính nhạy cảm của chúng ta đối với một một căn bệnh cụ thể.


Sự ra đời của một mô hình dự báo

Các mô hình dự báo được sinh ra bất cứ khi nào sử dụng dữ liệu để huấn luyện một kỹ thuật mô hình hóa dự báo. Chính thức mà nói, dữ liệu + kỹ thuật mô hình hóa dự báo = mô hình.

Vậy thì một mô hình dự báo là kết quả của việc kết hợp dữ liệu và toán học, nơi việc học tập có thể được chuyển dịch thành việc tạo ra một hàm ánh xạ giữa một tập hợp các trường dữ liệu đầu vào và một biến đáp ứng hay biến đích.

Để xây dựng một mô hình dự báo, trước tiên bạn cần phải lắp ráp tập dữ liệu sẽ được sử dụng để huấn luyện. Để làm điều đó, một tập hợp các trường đầu vào đại diện cho một khách hàng, chẳng hạn, được lắp ráp lại với nhau thành một bản ghi. Bản ghi này có thể có các đặc tính như là tuổi tác, giới tính, mã bưu điện, số lượng các mặt hàng đã mua trong sáu tháng qua và số lượng các mặt hàng đã trả lại, kết hợp với một biến đích có thể được sử dụng để thông báo cho chúng ta biết liệu khách hàng này đã bỏ đi hay không trong quá khứ. Sau đó một bản ghi khách hàng có thể được mô tả bằng toán học như là một vec tơ trong một không gian nhiều chiều các đặc tính, do nhiều đặc tính đang được sử dụng để xác định đối tượng kiểu khách hàng. Khi tất cả các bản ghi khách hàng được lắp ráp với nhau, chúng trở thành một tập dữ liệu có thể chứa hàng triệu bản ghi. Hình 1 cho thấy một biểu diễn hai chiều (sử dụng đặc tính "tuổi" và "số lượng các mặt hàng đã mua") của một vài vec tơ đầu vào hay là của một vài đối tượng khách hàng.

Hình 1. Biểu diễn hai chiều của các vec tơ đầu vào, trong đó mỗi vec tơ hoặc các đối tượng khách hàng được biểu diễn bằng một ngôi sao màu vàng
Biểu diễn hai chiều của các vec tơ đầu vào, trong đó mỗi vec tơ hoặc các đối tượng khách hàng được biểu diễn bằng một ngôi sao màu vàng

Các kỹ thuật mô hình hóa dự báo cho phép xây dựng các mô hình dự báo chính xác, miễn là có đủ dữ liệu và chất lượng dữ liệu không đáng lo ngại. Dữ liệu xấu cung cấp các mô hình xấu, bất kể các các kỹ thuật dự báo tốt thế nào chăng nữa. Và do đó có câu nói là, chất lượng đầu ra là một hàm của chất lượng đầu vào.


Các kỹ thuật mô hình hóa dự báo phổ biến

Hiện nay, có vô số các kỹ thuật dự báo để xây dựng mô hình. Các hệ thống và các nhà cung cấp khác nhau hỗ trợ các kỹ thuật khác nhau, nhưng các môi trường xây dựng mô hình nguồn mở và thương mại cũng hỗ trợ nửa tá các kỹ thuật hay tương tự như vậy. Mặc dù một số kỹ thuật dành riêng cho một lớp vấn đề đơn lẻ, một số là tổng quát và có thể được sử dụng cho một loạt các ứng dụng. Ví dụ, các máy vec tơ hỗ trợ (các SVM) nằm trong thể loại này.

Một máy vec tơ hỗ trợ (SVM) ánh xạ các vec tơ dữ liệu đầu vào tới một không gian có số chiều cao hơn, ở đó một "siêu phẳng tối ưu" chia tách các dữ liệu được xây dựng. Có hai siêu phẳng (hyperplane) song song được xây dựng trên mỗi bên của siêu phẳng này. Hình 2 cho thấy một ví dụ trong đó một siêu phẳng tối ưu được hiển thị đang chia tách hai thể loại dữ liệu (các hình tam giác và các hình vuông). Siêu phẳng chia tách tối ưu là một siêu phẳng làm tăng tối đa khoảng cách giữa hai siêu phẳng song song. Khoảng cách giữa hai siêu phẳng càng lớn hơn thì mô hình được giả định càng chính xác hơn. Các điểm dữ liệu nằm trên một trong hai siêu phẳng song song xác định khoảng cách lớn nhất được biết đến như là các vec tơ hỗ trợ.

Hình 2. Khung nhìn hai chiều của một siêu phẳng tối ưu chia tách dữ liệu và các vec tơ hỗ trợ
Khung nhìn hai chiều của một siêu phẳng tối ưu chia tách dữ liệu và các vec tơ hỗ trợ

Các máy vec tơ hỗ trợ, cũng như các mạng thần kinh và các mô hình hồi quy logic ký hiệu, là các kỹ thuật tổng quát rất mạnh, mặc dù khác nhau về toán học, nhưng đều tạo ra các kết quả tương đương nhau ở mức độ nào đó. Các cây quyết định là một kỹ thuật mô hình hóa dự báo tổng quát nữa nổi bật về khả năng của nó trong việc giải thích lý do cơ bản đằng sau kết quả đầu ra đã tạo ra. Vì chúng dễ sử dụng và dễ hiểu, nên cây quyết định là kỹ thuật mô hình hóa dự báo được sử dụng phổ biến nhất.

Mặt khác, các kỹ thuật phân cụm rất phổ biến bất cứ khi nào biến đích hoặc biến đáp ứng không quan trọng hoặc không có sẵn. Như tên gọi đã gợi ý, các kỹ thuật phân cụm có khả năng phân cụm dữ liệu đầu vào theo mức độ giống nhau. Hình 3 cho thấy một ví dụ trong đó dữ liệu đầu vào đã được chia thành hai cụm. Trong khi dữ liệu trong cụm đầu tiên được mô tả bằng cách sử dụng các hình tam giác màu xanh lá cây, thì dữ liệu trong cụm thứ hai được mô tả bằng cách sử dụng các hình vuông màu đỏ.

Hình 3. Khung nhìn hai chiều về kết quả của việc phân cụm một tập dữ liệu đầu vào thành hai cụm: các hình tam giác màu xanh lá cây và các hình vuông màu đỏ
Khung nhìn hai chiều về kết quả của việc phân cụm một tập dữ liệu đầu vào thành hai cụm: các hình tam giác màu xanh lá cây và các hình vuông màu đỏ

Khi một biến đích hay số đo tương tự là không quan trọng, mà các cách kết hợp giữa các mục đầu vào là quan trọng, có thể sử dụng một kỹ thuật được gọi là các quy tắc kết hợp để tìm ra chúng. Ví dụ, có thể sử dụng các quy tắc kết hợp để phát hiện ra là những người mua tã lót và sữa, cũng mua bia.

Mặc dù tất cả các kỹ thuật dự báo có các điểm mạnh và các điểm yếu khác nhau, độ chính xác của mô hình phụ thuộc rất nhiều vào dữ liệu thô đầu vào và các đặc tính được sử dụng để huấn luyện mô hình dự báo. Như đã đề cập ở trên, việc xây dựng mô hình đòi hỏi rất nhiều việc phân tích dữ liệu và xử lý dữ liệu. Thông thường, từ hàng trăm trường dữ liệu thô có sẵn, chỉ chọn ra một tập con các trường và thực hiện xử lý trước các trường trước khi cung cấp cho một kỹ thuật mô hình hóa dự báo. Theo cách này, bí mật đằng sau một mô hình dự báo tốt thường phụ thuộc nhiều hơn vào việc xử lý tốt dữ liệu so với kỹ thuật được sử dụng để huấn luyện mô hình. Điều đó không có nghĩa là kỹ thuật dự báo không quan trọng. Nếu sử dụng sai kỹ thuật hoặc chọn tập các tham số đầu vào sai, dữ liệu tốt cũng sẽ chẳng giúp được gì.

Các mạng thần kinh (NN) chẳng hạn, dùng được với tất cả các hình dạng và các biểu mẫu. Việc lựa chọn một cấu trúc mạng đúng rất quan trọng để xây dựng một mô hình dự báo tốt. Như thể hiện trong Hình 4, các mạng thần kinh hướng thuận (feed-forward) có một tầng đầu vào, với số nút đúng bằng số lượng các trường đầu vào và các đặc tính đang được xem xét và một tầng đầu ra, mà trong trường hợp một hàm hồi quy thì tầng đầu ra này được tạo nên bởi chỉ một nút duy nhất đại diện cho trường cần dự báo. Mặc dù ở giữa các tầng đầu vào và đầu ra, mạng thần kinh có thể được cấu hình với số lượng các tầng ẩn và các nút ẩn tùy ý, vấn đề ở đây là nếu bạn chọn cung cấp cho mạng thần kinh quá ít các nút ẩn, thì nó có thể không học được hàm ánh xạ giữa các trường đầu vào và đích. Nếu có quá nhiều nút ẩn thì nó sẽ bị quá khớp (over fit), có nghĩa là, nó sẽ học toàn bộ dữ liệu đầu vào, nhưng sẽ không thể dự báo các sự kiện trong tương lai.

Hình 4. Mạng thần kinh hướng thuận với tầng đầu vào, tầng ẩn và tầng đầu ra
Mạng thần kinh hướng thuận với tầng đầu vào, tầng ẩn và tầng đầu ra

Các kỹ thuật phân cụm đòi hỏi cung cấp số lượng các cụm trước khi huấn luyện. Trong trường hợp này, nếu số lượng các cụm quá nhỏ, mô hình có thể không thấy được các sự khác biệt quan trọng trong dữ liệu đầu vào, vì nó sẽ bị buộc phải cho các dữ liệu khác nhau vào trong cùng một thùng. Mặt khác, nếu số lượng các cụm là quá lớn, nó có thể bỏ sót những nét tương đồng quan trọng. Trong ví dụ thể hiện trong Hình 3, nếu đã thiết lập số lượng các cụm là ba thay vì là hai, thêm một cụm nữa sẽ được tạo ra, và có lẽ nó đã che mờ bản chất thật sự của dữ liệu (các hình tam giác màu vàng hay là hình vuông màu tím ?).

Các mô hình dự báo cũng có thể đồng thời được lợi từ các kỹ thuật mô hình hóa khác nhau. Điều này là do có thể kết hợp nhiều mô hình với nhau theo một tập hợp mô hình (Hình 5). Theo cách này, đầu ra của tập hợp này được thiết kế để sử dụng các tập hợp điểm mạnh khác nhau vốn có trong các mô hình và các kỹ thuật khác nhau.

Hình 5. Biểu diễn sơ đồ của một tập hợp mô hình trong đó các điểm số từ tất cả các mô hình được tính toán và dự báo cuối cùng được xác định bằng một cơ chế bỏ phiếu hoặc tính trung bình
Biểu diễn sơ đồ của một tập hợp mô hình trong đó các điểm số từ tất cả các mô hình được tính toán và dự báo cuối cùng được xác định bằng một cơ chế bỏ phiếu hoặc tính trung bình

Học có giám sát so với học không giám sát

Các máy vec tơ hỗ trợ, các cây quyết định, các mạng thần kinh và các mô hình hồi quy sử dụng phương thức học có giám sát để tạo ra hàm ánh xạ giữa một tập các trường dữ liệu đầu vào và một biến đích. Sau đó, kết quả đã biết được sử dụng giống như một giáo viên để giám sát việc học tập của học sinh của mình. Bất cứ khi nào học sinh mắc lỗi, giáo viên này cung cấp cho học sinh của mình câu trả lời đúng với hy vọng rằng cuối cùng học sinh này sẽ hiểu đúng. Ví dụ, khi được đưa cho một tập đầu vào cụ thể, đầu ra của học sinh sẽ khớp với đích.

Ví dụ, hãy xem xét việc huấn luyện một mạng thần kinh (như trong Hình 4) để dự báo sự dao động hoặc rời bỏ đi của khách hàng do mất dần khách hàng. Chúng ta bắt đầu bằng cách ráp nối lại một tập các trường dữ liệu đầu vào biểu diễn một khách hàng cụ thể, đã dao động trong quá khứ. Tập này có thể gồm có giới tính, tuổi tác, cũng như các đặc tính liên quan đến sự hài lòng, chẳng hạn như số lượng các lời than phiền. Khách hàng này, bây giờ được biểu diễn bằng một tập hợp các trường dữ liệu và kết quả bỏ đi, sau đó được cung cấp cho mạng thần kinh để học tập. Các dữ liệu này có thể được cung cấp nhiều lần cho đến khi mạng thần kinh đó có thể học được mối quan hệ giữa đầu vào và đích. Tuy nhiên, khách hàng này không phải là một trường hợp đơn độc. Đó chỉ là một trong rất nhiều khách hàng. Chính quá trình này cần phải được lặp đi lặp lại cho tất cả khách hàng, những người bỏ đi và những người không bỏ đi. Để học phân biệt giữa hai kết quả có thể xảy ra, mạng thần kinh sẽ cần tạo ra một biểu diễn trừu tượng cho các khách hàng đã bỏ đi và đã không bỏ đi.

Một thuật toán toán học nổi tiếng được sử dụng cho các mạng thần kinh hướng thuận (feed-forward) được gọi là lan truyền ngược. Nó cho phép sai số hay sự khác nhau giữa đích và kết quả đầu ra, được lan truyền ngược lại thông qua mạng, sau đó được sử dụng để điều chỉnh các trọng số liên kết nối các nút mạng. Theo cách này, cuối cùng mạng sẽ học thuộc được nhiệm vụ, dù là từng tí một. Tuy nhiên, nếu không có một đích, quá trình như vậy sẽ không khả thi.

Việc học tập không giám sát không đòi hỏi có giáo viên hoặc mục tiêu. Các kỹ thuật phân cụm thuộc về thể loại này. Như thể hiện trong Hình 3, các điểm dữ liệu chỉ đơn giản được nhóm lại với nhau dựa trên sự giống nhau của chúng. Trong trường hợp dự báo sự bỏ đi của khách hàng, một kỹ thuật phân cụm nhiều khả năng có thể gán các khách hàng bỏ đi và các khách hàng không bỏ đi vào các cụm khác nhau, mặc dù kết quả đầu ra không cho sẵn trong quá trình huấn luyện mô hình.


Phân tích hộp đen

Hộp đen là một thuật ngữ được sử dụng để xác định các kỹ thuật mô hình hóa dự báo nào đó mà ta không có khả năng giải thích lập luận của chúng. Mặc dù cực kỳ mạnh mẽ, các kỹ thuật như các mạng thần kinh và các máy vec tơ hỗ trợ đều thuộc loại này. Hãy xem xét mô hình mạng thần kinh chính xác cao của chúng ta, được huấn luyện để phân biệt các khách hàng bỏ đi và các khách hàng không bỏ đi. Nếu nó đưa ra một nguy cơ bỏ đi cao đối với một khách hàng cụ thể, nó sẽ không thể nói cho chúng ta biết lý do tại sao. Điều này dẫn đến một câu hỏi quan trọng: liệu một mô hình dự báo có cần biết cách giải thích lập luận của nó không? Vâng, câu trả lời rất có thể là "còn tùy". Trong trường hợp mà nguy cơ do một mô hình dự báo đưa ra được dùng để khởi đầu một hành động bất lợi, thì thường là nên có và trong một số trường thậm chí là bắt buộc phải có một lời giải thích. Ví dụ, khi sử dụng một điểm số nguy cơ để từ chối một đơn xin vay tiền hoặc một giao dịch thẻ tín dụng.

Bất cứ khi nào việc giải thích là phải có, bạn cần xem xét sử dụng một kỹ thuật mô hình hóa dự báo xác định rõ ràng các lý do cho các quyết định của nó. Các thẻ tính điểm rất phù hợp với một tiêu chí như vậy. Dựa trên các mô hình hồi quy, các thẻ tính điểm là một kỹ thuật phổ biến được các tổ chức tài chính sử dụng để đánh giá nguy cơ. Với các thẻ tính điểm, tất cả các trường dữ liệu trong một bản ghi đầu vào được gắn với các mã số lý do cụ thể. Trong quá trình xử lý, các trường dữ liệu được đánh trọng số dựa vào một điểm số nguy cơ cơ sở. Sau khi nhận biết được các trường có ảnh hưởng cao nhất đến kết quả cuối cùng, thì các mã số lý do gắn liền với chúng sau đó được trả về cùng với kết quả đầu ra.

Giống như với các thẻ tính điểm, các cây quyết định cũng dễ giải thích và dễ hiểu. Trong một cây quyết định, toàn bộ quá trình ra quyết định được biểu diễn bằng một tập các điều kiện dễ đọc với con người, đó là, một tập các quy tắc. Một nút lá trong một cây quyết định đạt được sau khi một tập các điều kiện được tính toán là đúng. Hình 6 cho thấy biểu diễn đồ họa của một cây quyết định được sử dụng để phân loại cây Iris thành ba lớp riêng biệt dựa vào chiều dài cánh hoa. Các lớp đích là: Iris-Setosa, Iris-Virginica và Iris- Versicolor. Để biết thêm thông tin về tập dữ liệu Iris, xin hãy tham khảo Asuncion, A. & Newman, D.J. (2007). Kho lưu trữ học máy UCI. Irvine, CA: Đại học California, Trường Khoa học Thông tin và Máy tính (xem phần Tài nguyên). Lưu ý rằng cây này có thể được biểu diễn bởi một tập các quy tắc. Ví dụ, để xác định các cây Iris-Setosa, quy tắc này chỉ nói rằng: "Nếu chiều dài cánh hoa ngắn hơn 2,6 thì cây đó là Iris Setosa với xác suất bằng 1".

Hình 6. Một cây quyết định đơn giản được sử dụng để phân loại cây Iris. Các lớp có thể là: Iris-Setosa, Iris- Versicolor và Iris-Virginica
Một cây quyết định đơn giản được sử dụng để phân loại cây Iris.

Mặc dù lập luận đằng sau các quyết định được tạo ra bằng các kỹ thuật mô hình hóa hộp đen là khó giải thích, bản thân các mô hình không cần khó giải thích. May mắn thay, bây giờ việc biểu diễn quá trình xử lý trước dữ liệu cũng như các mô hình dự báo là khá đơn giản với PMML (Predictive Model Markup Language - Ngôn ngữ đánh dấu mô hình dự báo). PMML là tiêu chuẩn thực tế được tất cả các công ty phân tích hàng đầu sử dụng để sản xuất và tiêu dùng các giải pháp dự báo. Là ngôn ngữ đánh dấu mô hình dự báo, nó cho phép tất cả các kỹ thuật dự báo đã đề cập trong bài này được biểu diễn theo một định dạng tiêu chuẩn, duy nhất. Sau khi được biểu diễn dưới dạng một tệp PMML, một mô hình dự báo có thể được di chuyển ngay lập tức từ máy tính để bàn của nhà khoa học, nơi phát triển nó, sang môi trường vận hành, nơi nó được đưa vào hoạt động. Theo cách này, các mô hình mới hoặc bất kỳ các cập nhật nào cho các mô hình hiện có đều có thể được triển khai hoạt động ngay lập tức. Là một tiêu chuẩn mở có thể được tất cả mọi người hiểu rõ, PMML được sử dụng làm một cầu nối không chỉ giữa các hệ thống phát triển và triển khai mô hình, mà còn giữa tất cả mọi người liên quan đến quá trình phân tích trong một công ty. Theo cách này, nó đảm bảo cho tính trong suốt, phổ biến kiến thức và các cách thực hành tốt nhất. Để biết thêm thông tin về PMML, xem phần Tài nguyên.


Kết luận

Một biển dữ liệu luôn mở rộng xung quanh chúng ta và việc phân tích cho phép chúng ta dẫn dắt nó một cách an toàn. Dữ liệu lịch sử được thu thập từ mọi người và các cảm biến đang biến đổi thế giới của chúng ta, vì nó cho phép xây dựng các mô hình có thể sử dụng quá khứ để dự báo tương lai, theo nghĩa đen. Thực tế, những cái được gọi là các mô hình dự báo ấy là một sản phẩm của các kỹ thuật toán học thông minh được áp dụng cho dữ liệu.

Các mạng thần kinh, các máy vec tơ hỗ trợ, các cây quyết định, hồi quy tuyến tính và hồi quy logic ký hiệu, phân cụm, các quy tắc kết hợp và các thẻ tính điểm là các kỹ thuật mô hình hóa dự báo phổ biến nhất được các nhà khoa học dữ liệu hiện nay sử dụng để học các mẫu ẩn giấu trong dữ liệu. Mặc dù có khả năng học và tổng quát hóa, những kỹ thuật này không chỉ đói dữ liệu, mà còn có xu hướng tiêu thụ rất nhiều công suất xử lý. Do đó, các giải pháp dự báo bây giờ chỉ mới đang trải qua một sự bùng nổ trong tất cả các ngành nghề, do sự ra đời của: 1) dữ liệu lớn bắt nguồn từ con người và cảm biến; 2) các nền tảng xử lý hiệu quả về chi phí như dựa trên đám mây và Hadoop; và 3 ) PMML, một tiêu chuẩn mở đã chín muồi và tinh lọc được sử dụng để biểu diễn toàn bộ một giải pháp dự báo. Kết hợp với nhau, ba yếu tố này đem lại các mô hình mạnh mẽ, có thể bắt đầu đưa ra các quyết định ngay lập tức, bất kể công ty ở quy mô nào.

Trong thực tế, các nhà khoa học dữ liệu đang tích cực làm việc để xây dựng các giải pháp dự báo với dữ liệu mà chúng ta, với tư cách là một xã hội, đang thu thập theo một nhịp độ không ngừng tăng lên. Khi kết hợp với các kỹ thuật phân tích thông minh, dữ liệu này cho chúng ta khả năng biến đổi thế giới này thành một thế giới thông minh hơn, nơi việc phòng chống bệnh tật, tội phạm và tai nạn trở thành hiện thực chứ không chỉ là một dự báo.

Tài nguyên

Học tập

Lấy sản phẩm và công nghệ

  • IBM SPSS Statistics 20 đặt sức mạnh của phân tích thống kê tiên tiến vào tay của bạn. Cho dù bạn là một người mới bắt đầu hay là nhà thống kê có kinh nghiệm, tập hợp đầy đủ các công cụ của nó sẽ đáp ứng các nhu cầu của bạn.
  • ADAPA là một nền tảng quản lý ra quyết định phân tích dự báo có tính cách mạng, có sẵn như một dịch vụ trên đám mây hoặc dịch vụ tại chỗ. Nó cung cấp một môi trường an toàn, nhanh chóng và có khả năng mở rộng để triển khai các mô hình khai phá dữ liệu và logic kinh doanh của bạn và đưa chúng vào sử dụng trong thực tế.
  • Hãy dùng thử bản dùng thử 90 ngày của Xưởng tối ưu hóa CPLEX ILOG của IBM: Nhanh chóng phát triển các ứng dụng hỗ trợ ra quyết định dựa trên sự tối ưu hóa.
  • Đánh giá IBM WebSphere Application Server: Xây dựng, triển khai và quản lý các dịch vụ và ứng dụng nghiệp vụ SOA mạnh, nhanh nhẹn và có thể dùng lại được trong khi giảm các chi phí cơ sở hạ tầng ứng dụng với Máy chủ ứng dụng WebSphere của IBM.
  • Tìm thêm nhiều phần mềm đánh giá: Tải về một phiên bản dùng thử, làm việc với sản phẩm trong một môi trường sandbox trực tuyến hoặc truy cập nó trong đám mây.

Thảo luận

Bình luận

developerWorks: Đăng nhập

Các trường được đánh dấu hoa thị là bắt buộc (*).


Bạn cần một ID của IBM?
Bạn quên định danh?


Bạn quên mật khẩu?
Đổi mật khẩu

Bằng việc nhấn Gửi, bạn đã đồng ý với các điều khoản sử dụng developerWorks Điều khoản sử dụng.

 


Ở lần bạn đăng nhập đầu tiên vào trang developerWorks, một hồ sơ cá nhân của bạn được tạo ra. Thông tin trong bản hồ sơ này (tên bạn, nước/vùng lãnh thổ, và tên cơ quan) sẽ được trưng ra cho mọi người và sẽ đi cùng các nội dung mà bạn đăng, trừ khi bạn chọn việc ẩn tên cơ quan của bạn. Bạn có thể cập nhật tài khoản trên trang IBM bất cứ khi nào.

Thông tin gửi đi được đảm bảo an toàn.

Chọn tên hiển thị của bạn



Lần đầu tiên bạn đăng nhập vào trang developerWorks, một bản trích ngang được tạo ra cho bạn, bạn cần phải chọn một tên để hiển thị. Tên hiển thị của bạn sẽ đi kèm theo các nội dung mà bạn đăng tải trên developerWorks.

Tên hiển thị cần có từ 3 đến 30 ký tự. Tên xuất hiện của bạn phải là duy nhất trên trang Cộng đồng developerWorks và vì lí do an ninh nó không phải là địa chỉ email của bạn.

Các trường được đánh dấu hoa thị là bắt buộc (*).

(Tên hiển thị cần có từ 3 đến 30 ký tự)

Bằng việc nhấn Gửi, bạn đã đồng ý với các điều khoản sử dụng developerWorks Điều khoản sử dụng.

 


Thông tin gửi đi được đảm bảo an toàn.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=70
Zone=Nguồn mở
ArticleID=831420
ArticleTitle=Dự báo tương lai, Phần 2: Các kỹ thuật mô hình hóa dự báo
publish-date=08232012