Các doanh nghiệp và khách hàng toàn cầu ngày càng thay đổi. Nó không chỉ còn là dữ liệu khách hàng. Mục đích của một nền tảng phân tích Big Data và Business Intelligence tích hợp là khai thác sâu hơn các câu hỏi vì sao, ở đâu, cái gì và như thế nào về khách hàng, sản phẩm và công ty. Bài này sẽ thảo luận về việc tích hợp Business Intelligence và phân tích Big Data.

Peter J. Jamack, Nhà tư vấn phân tích Big Data, Peter J Jamack

Ảnh của Peter JamackPeter J Jamack là một nhà tư vấn phân tích Big Data với hơn 13 năm kinh nghiệm trong lĩnh vực Business Intelligence (BI - Trí tuệ doanh nghiệp), Data Warehouse (kho dữ liệu), Phân tích, Big Data và Quản lý thông tin. Ông đã tích hợp dữ liệu có cấu trúc và phi cấu trúc vào các giải pháp phân tích tổng hợp sáng tạo, làm việc với những nền tảng Big data và MPP khác nhau để cung cấp các nền tảng phân tích tổng hợp, quy mô lớn cho các khách hàng trong lĩnh vực bảo hiểm, chính phủ, truyền thông, tài chính, bán lẻ, tiếp thị, truyền thông xã hội và phần mềm. Bạn có thể liên hệ với Peter tại info@peterjamack.com.



30 06 2013

Hệ thống doanh nghiệp trên thế giới đang thay đổi, sự năng động của khách hàng đang thay đổi, và chính khách hàng cũng đang thay đổi. Tất cả đang chạy đua để tìm ra lý do cho câu hỏi tại sao thay vì tìm ra đó là ai và sự việc đó như thế nào. Nó không còn đơn thuần chỉ để hiểu làm thế nào một công ty có những bước chuyển đổi từ A đến B. Các doanh nghiệp đang ở trong một cuộc chiến cạnh tranh thời gian thực để biết khi khách hàng mua một cái gì đó, họ mua ở đâu, và những gì họ đang suy nghĩ trước khi họ bước vào một cửa hàng hoặc truy cập vào một website. Sức mạnh của Big Data, phân tích Big Data (Big Data analytics), nền tảng Business Intelligence (BI) tích hợp và phân tích Big Data có thể giúp doanh nghiệp làm được điều đó.

Lĩnh vực phân tích Big Data và BI vẫn còn mới. Làm thế nào để tích hợp các khái niệm tương đồng nhưng khác nhau? Nó không chỉ còn là về dữ liệu hoặc công nghệ, mà đó là tất cả mọi thứ — truyền thông mạng xã hội, hành vi của khách hàng, và phân khúc khách hàng, những điều đó cũng chỉ là một vài đặc trưng mà thôi. Bạn không thể dựa vào trong một số ứng dụng Big Data và mong muốn nhìn thấy tương lai được. Cả BI, quản lý dữ liệu chủ (MDM - Master Data Mangement), Big Data, và khả năng phân tích phải được tích hợp vào cùng một nền tảng, và triển khai thành một giải pháp trực quan sáng tạo.

Điểm tương đồng và khác biệt giữa BI và Big Data analytics

BI không phải là một khái niệm mới. Data warehouses, data mining, và các công nghệ database đã hiện hữu trong các hình thức khác nhau trong nhiều năm. Big data có thể là một thuật ngữ mới, nhưng nhiều chuyên gia IT đã làm việc với dữ liệu lớn trong các ngành khác nhau trong nhiều năm qua.

Tuy nhiên bây giờ Big Data không chỉ là về dữ liệu lớn. Điểm mới ở đây là đi sâu và phân tích dữ liệu bán cấu trúc và phi cấu trúc. 15 năm trước, chúng ta không phân tích các email, tập tin PDF, hoặc video. Có cảm giác như Internet chỉ mới xuất hiện gần đây thôi; và điện toán phân tán cũng chỉ mới ra đời ngày hôm qua, nhưng điểm mới ở đây là khả năng phổ biến và mở rộng hệ thống chỉ trong chớp mắt — thậm chí đối với một ngân sách hạn hẹp. Tương tự như vậy, muốn dự đoán tương lai không phải là một khái niệm mới, nhưng điểm mới chính là có thể truy cập và lưu trữ tất cả các dữ liệu được tạo ra.

Có nhiều thông tin cho rằng 90 phần trăm các dữ liệu tồn tại ngày nay là từ hai năm trước. Và dữ liệu đang tăng trưởng nhanh. Nếu 90 phần trăm tất cả dữ liệu trên toàn thế giới được tạo ra trong hai năm qua thì ta có thể nói gì về dữ liệu đó?

Nhiều doanh nghiệp có nhiều cơ sở dữ liệu và nhiều nhà cung cấp cơ sở dữ liệu, với nhiều terabyte hoặc thậm chí petabyte dữ liệu. Một số các hệ thống tích lũy dữ liệu trên 30 hoặc 40 năm. Nhiều doanh nghiệp xây dựng toàn bộ kho dữ liệu và nền tảng phân tích ra dữ liệu cũ này. Tập đoàn bán lẻ lớn như Wal-Mart, đã trở thành công ty tỷ đô la trước thời Big Data. Vì vậy, dữ liệu không phải là yếu tố quyết định chính mà chính là cách thức kinh doanh của họ.

Dữ liệu như một dịch vụ có thể điều khiển một doanh nghiệp. Tuy nhiên hãy suy nghĩ về Amazon. Đó là một công ty thương mại điện tử trực tuyến. Bây giờ, mọi người nhìn vào Amazon như là một công ty cung cấp nền tảng dịch vụ, phần mềm, Big Data, và trung tâm dữ liệu điện toán đám mây. Trong những năm qua, Amazon xây dựng giới thiệu các công cụ đáng kinh ngạc từ các công nghệ mã nguồn mở khác nhau. Zynga, công ty game Facebook được biết đến với tựa game ăn khách Farmville, đã sử dụng các dịch vụ đám mây của Amazon để mở rộng cơ sở dữ liệu và phân tích riêng của mình.

Đối với dữ liệu có ích cho người dùng, nó phải tích hợp với tài chính của khách hàng và dữ liệu bán hàng, với các sản phẩm dữ liệu, với các tiếp thị dữ liệu, truyền thông xã hội, với các dữ liệu nhân khẩu học, với các dữ liệu đối thủ cạnh tranh, và nhiều hơn nữa.


Những thách thức trong việc xây dựng một hệ thống BI và Big data analytics

Thiết kế một nền tảng tích hợp không bao giờ là dễ dàng. Extract, Transfer, và Load (ETL) luôn luôn là giai đoạn dài nhất trong các dự án Data Warehouse. Có nhiều giải pháp ETL khác nhau, đôi khi chúng có tác dụng, đôi khi không. Nếu ETL không được thực hiện tốt, thì bạn ngẫu nhiên bạn sẽ có dữ liệu không chính xác và không tin cậy. Dữ liệu không tin cậy sẽ tạo ra một hệ thống không đáng tin và không sử dụng được. Tất nhiên chẳng ai muốn điều đó cả.

Có thể bạn sẽ dễ dàng nghĩ rằng đây có thể một thứ gì đó giống như một cơ sở dữ liệu sản phẩm. Nhưng nó sẽ trở thành một trò chơi với nhiều phiên bản, lỗi, bản cập nhật, bản phát hành khác nhau, chu kỳ phát hành khác nhau, giấy phép khác nhau, và giấy phép khác nhau dựa trên địa điểm. Và đó chỉ là trong một công ty với một vài sản phẩm. Nó sẽ trở nên phức tạp hơn trong trường hợp các công ty bán lẻ có hàng ngàn sản phẩm khác nhau.

Nền tảng Big Data và BI tích hợp có thể có dữ liệu phi cấu trúc từ các email. Chúng có thể bao gồm dữ liệu bán cấu trúc từ các bản ghi log. Hệ thống Email có thể được phân tán trong cơ sở dữ liệu khác nhau trong nhiều trung tâm dữ liệu trên toàn cầu. Trong một dự án, việc tích hợp thêm vài tường lửa, hay đột nhiên di chuyển dữ liệu từ nơi này sang nơi khác cũng là một cơn ác mộng. Trong một dự án khác, hệ thống bản ghi log có thể là phi định dạng, bán định dạng hoặc một mớ hỗn độn.

Có một lý do mà tại sao các công nghệ Big data như Apache Hadoop khuyến khích di chuyển hệ thống đến nơi có dữ liệu thay vì di chuyển dữ liệu vào hệ thống. Phải mất thời gian để di chuyển dữ liệu qua đường mạng, giữa các bức tường lửa. Bạn có thể bị mất dữ liệu, các gói dữ liệu, tập tin. Độ tin tưởng sẽ trở thành một vấn đề lớn.

Một khái niệm cốt lõi của NoSQL và Hadoop là để di chuyển các ứng dụng đến dữ liệu, ngoại trừ việc điều này không phải là đơn giản. Nếu bạn có 100 hệ thống khác nhau, bạn có thêm vào 100 trường hợp của cùng một ứng dụng cho mỗi hệ thống không? Mặc dù một số người nghĩ rằng họ có thể làm chủ MDM, nhưng thực ra là chẳng có ai cả. Khi bạn có một sản phẩm MDM, MDM bán hàng, và một khách hàng MDM mà không tích hợp hoặc tham gia dễ dàng, việc thêm một ứng dụng vào mỗi hệ thống không có nghĩa là tích hợp hay tham gia vào chúng. Nó vẫn là một hệ thống với nhiều rào cản mà không ai có thể kết nối.

Ngay cả khi một doanh nghiệp được cài đặt một ứng dụng Big Data trên một nền tảng hoàn hảo mà có thể tích hợp và kết nối với các dạng khác nhau của dữ liệu, thì cũng sẽ có lúc xảy ra những vấn đề nghiêm trọng. Sự thật là bạn không thể đột nhiên chạy các thuật toán phức tạp trên một hệ thống mà người dùng đang sử dụng. Điều này có thể thất bại. Nó có thể làm chậm hiệu suất thực thi. Nó có thể lấy hết dữ liệu. Có thể có vấn đề bảo mật. Cài đặt một ứng dụng yêu cầu một lượng lớn không gian, bộ nhớ và tốc độ có thể khiến một hệ thống cũ hỏng hóc. Thậm chí nó có thể không hoạt động chính xác trên hệ thống cũ. Nếu nó hoạt động, nó có gì khác so với hệ thống đang tồn tại không, bạn chọn MDM không kết nối hay hệ thống BI?

Một nền tảng BI và Big Data analytics cần sự sáng tạo. Nó phải là thế hệ tiếp theo. Nó phải sử dụng công nghệ trong bộ nhớ hoặc cấu hình một hệ thống sử dụng các công cụ như Hadoop và Apache Cassandra như area, sandbox, hệ thống lưu trữ và có một hệ thống ETL mới và cải tiến. Nó phải tích hợp dữ liệu cấu trúc, phi cấu trúc và bán cấu trúc. Có rất nhiều phần trong bài toán khó này.


Giải pháp

Một nền tảng BI tích hợp và Big Data analytics là một hệ thống khác nhau. Bạn có quyền lựa chọn việc mua hay tự xây dựng. Bạn phải xem xét các hệ thống hiện có, các trường hợp sử dụng, mức độ kinh nghiệm và năng lực của nhân viên của bạn. Một số công ty có thể muốn xây dựng một hệ thống mã nguồn mở chỉ sử dụng Hadoop (Hadoop Distributed File System [HDFS] và MapReduce), Zookeeper, Solr, Sqoop, Hive, HBase, Nagios, và Cacti, trong khi người khác có thể tìm kiếm hỗ trợ nhiều hơn và cố gắng xây dựng một hệ thống sử dụng IBM ® InfoSphere ® BigInsights ™ và IBM Netezza. Các công ty khác có thể muốn tách dữ liệu có cấu trúc và phi cấu trúc, và xây dựng một giao diện (GUI) lớp người dùng đồ họa cho người dùng bình thường, người dùng có nhiều quyền hạn, và các ứng dụng.

Nó thực sự phụ thuộc vào công ty. Và nó không chỉ là một hệ thống plug-and-play. Mặc dù bạn quyết định mua hay tự xây dựng thì ở mỗi cấp độ đều có những phần khác nhau.

ETL

ETL, giai đoạn hiện thực và kiểm soát dữ liệu, và tất cả quá trình liên quan luôn luôn là một bước tiến quan trọng đầu tiên. Bạn không thể đặt ứng dụng Big Data vào một hệ thống giao dịch và mong muốn mọi thứ hoạt động mà không làm ảnh hưởng hệ thống ban đầu, hay mong đợi nó tích hợp tốt với mọi thứ khi mà hệ thống vẫn đang hoạt động. Do đó, một số dữ liệu cần được đưa vào Hadoop hay bất cứ hệ thống noSQL nào khác hay một Data Warehouse xử lý song song (MPP). Có nhiều công cụ và phương pháp để làm việc này, và hầu hết chúng phụ thuộc vào hệ thống, mã nguồn, dữ liệu, kích thước và nhân lực.

Bạn có thể bắt đầu với Sqoop. Nó là một công cụ tuyệt vời để xử lý dữ liệu từ hệ thống quản lý cơ sở dữ liệu quan hệ. Bổ sung thêm các công cụ mã nguồn mở khác như Flume hoặc Scribe có hỗ trợ ghi log. Ngoài ra còn có các công cụ ETL như Talend hoặc IBM InfoSphere DataStage ®, cả hai đều đã tích hợp Big Data. Những công cụ này trực quan hơn và không cần phải có một tiến sĩ máy tính để xây nên cơ sở hạ tầng. Cả hai công cụ cung cấp các tài liệu kỹ thuật, các bản cập nhật, và giao diện trực quan, chúng luôn được cải thiện, và đang được sử dụng trong nhiều ngành công nghiệp và trong các doanh nghiệp.

Một số công ty chỉ thích dùng mã nguồn mở. Các công ty khác có thể có nhiều hệ thống được xây dựng trên các sản phẩm IBM khác nhau. Rõ ràng, tích hợp những gì đã được sử dụng với các công nghệ mới là một việc quan trọng cần xem xét.

Đó là thời gian bạn dành để xây dựng hệ thống ETL, và thật đáng buồn nếu kết quả không như bạn mong đợi. Hadoop có nhiều thành phần mà bạn có thể cần tới hơn là Sqoop. Việc tích hợp và bổ sung nhiều thành phần có thể gây phản tác dụng, đặc biệt là nếu bạn không có kinh nghiệm và kiến thức hoặc muốn tự xây dựng công cụ ETL. Quá trình này đòi hỏi thời gian và sự kiên nhẫn. Có thể bạn cũng sẽ gặp nhiều trở ngại. Bạn có thể sử dụng một công cụ mã nguồn mở cho các cộng đồng sau này. Hoặc bạn có thể cấu hình và phát triển các công cụ ETL của riêng mình với các ứng dụng nội bộ khác nhau và các công cụ mã nguồn mở, và sau đó, nếu cộng đồng mã nguồn mở có những thay đổi hay một vài nhân viên phát triển của bạn không còn làm việc nữa, lúc này tự dưng bạn sẽ có một hệ thống mà chẳng ai biết cách để duy trì hay sửa chữa.

Các doanh nghiệp khôn ngoan tập trung vào nhân viên, kinh nghiệm, ngân sách, tiềm năng và thực tế của họ. Ví dụ, nếu một doanh nghiệp có đội ngũ nhân viên IT tương đối nhỏ thì việc so sánh cách xây dựng hệ thống với Google hay Facebook chưa phải là một ý tưởng tốt. Đừng bao giờ so sánh công ty nhỏ của bạn với các công ty có đã có sẵn hệ thống máy chủ và các chuyên gia máy tính làm việc trên những hệ thống và cơ sở hạ tầng cụ thể. Đôi khi, sử dụng dịch vụ điện toán đám mây hoặc nhân viên bên ngoài có thể là lựa chọn duy nhất. Những lần khác, các thiết bị Big Data như Netezza chính là lựa chọn tốt nhất.

Lưu trữ

Lưu trữ dữ liệu là một yếu tố rất lớn và có thể yêu cầu bạn sử dụng nhiều công nghệ khác nhau. Trong hệ thống Hadoop, ta có HBase. Nhưng một số công ty sử dụng Cassandra, Neo4j, Netezza, HDFS, và các công nghệ khác, tùy thuộc vào những gì cần thiết. HDFS là một hệ thống lưu trữ tập tin. HBase là một hệ thống lưu trữ theo cột (column) tương tự như Cassandra. Nhiều công ty sử dụng Cassandra cho việc phân tích gần hơn với thời gian thực. Tuy nhiên HBase cũng đang ngày càng được phát triển.

Bạn có thể xem xét giữa HBase hoặc Cassandra khi muốn sử dụng một hệ thống quản lý cơ sở dữ liệu mã nguồn mở cho việc phân tích Big Data. Theo các nền tảng Data Warehouse, Netezza là một trong những công nghệ hàng đầu trong công nghệ phân tích và BI. Sự lựa chọn tốt nhất để tích hợp Big Data là sử dụng một nền tảng tích hợp bao gồm Hadoop và Cassandra cho dữ liệu phi cấu trúc hoặc bán cấu trúc và Netezza cho dữ liệu có cấu trúc.

IBM Netezza Customer Intelligence Appliance kết hợp một số công nghệ khác nhau vào một nền tảng. Ở lớp trên cùng, đó là lớp người dùng, nó dựa trên phần mềm IBM Cognos® BI, một sản phẩm phân tích và báo cáo kinh doanh thông minh. Cognos BI là một sản phẩm ấn tượng mà nhiều doanh nghiệp sử dụng cho nhiều mục đích BI khác nhau và Data Warehouse. Tại các kho dữ liệu lớp lưu trữ, Netezza là công cụ tuyệt vời cho hệ thống cơ sơ dữ liệu MPP. Hệ thống này hướng đến dữ liệu có cấu trúc, nhưng khi sử dụng Hadoop hoặc Cassandra cho dữ liệu phi cấu trúc và bán cấu trúc bạn tạo ra một nền tảng tích hợp BI và Big Data analytics.

Giao diện người dùng (GUI)

Tại lớp đầu cuối và giao diện đồ họa người dùng (GUI), có nhiều phần khác nhau trong hệ thống. Người dùng có quyền hạn có thể sử dụng các công cụ như IBM SPSS® Statistics, hoặc phiên bản R, để khai phá dữ liệu, mô hình dự báo, máy học, và xây dựng các thuật toán phức tạp và điển hình. Các nhân viên kinh doanh của bạn có thể sử dụng các công cụ như Cognos để làm các báo cáo BI, báo cáo Big Data, biểu đồ, và các bảng thống kê. Cognos là một công cụ tuyệt vời cung cấp cho người dùng nhiều cách khác nhau để khám phá dữ liệu hay xem các báo cáo đơn giản.

Có nhiều phần trong giao diện GUI và lớp đầu cuối (front-end), như các công cụ máy học (ví dụ như Apache Mahout) hay Apache Hive (dùng ngôn ngữ truy vấn có cấu trúc - Structured Query Language - SQL), nhưng những công cụ cũng có thể là một phần của cơ sở hạ tầng. Yếu tố lớn nhất là tích hợp dữ liệu có cấu trúc và phi cấu trúc như một phần của cơ sở hạ tầng BI, Data Warehouse, và Big Data analytics. Đó có phải là dịch vụ không? Và đối tượng người dùng là ai?

Người dùng không quan tâm đến cơ sở hạ tầng. Họ cũng không quan tâm tới việc tích hợp của nó. Họ chỉ quan tâm đến việc nhận được xữ liệu ở thời điểm thích hợp.


Kết luận

Tích hợp BI và big data analytics là nhiệm vụ không dễ dàng. Mục đích của bất kỳ hệ thống dữ liệu hay phân tích là làm cho dữ liệu trở nên hữu ích và có tính sẵn sàng cao cho người dùng. Ứng dụng Big data là một trong những cách làm được điều đó. Còn hệ thống mã nguồn mở Hadoop là một hướng khác. Nhưng cả hai đều đòi hỏi thời gian, sự kiên nhẫn và sáng tạo.

Một hệ thống mã nguồn mở là giải pháp nhanh và ít tốn kém để thực hiện, nhưng bạn cần một đội ngũ nhân viên có kinh nghiệm. Nếu bạn không có kinh nghiệm trong lĩnh vực Big Data, thì tốt nhất là bạn nên thuê một công ty chuyên về Big Data làm cho bạn, mặc dù có thể hơi tốn kém. Hãy nhớ rằng không phải ai cũng muốn mở công ty làm về phần mềm hay phần cứng. Đôi khi việc xây dựng một nền tảng BI tích hợp và Big Data đòi hỏi phải tốn chi phí mua và phát triển ở nơi bạn cần tới.

Tài nguyên

Học tập

Lấy sản phẩm và công nghệ

  • Truy cập trang Hadoop.org để tìm hiểu mọi thứ về Hadoop.
  • Truy cập trang HBase.org để tìm hiểu thông tin về Apache HBase.
  • Trang dự án Hive cung cấp các thông tin bạn cần để tìm hiểu Apache Hive.
  • Sqoop là một dự án Apache khác mà bạn cũng nên tìm hiểu.
  • Tìm hiểu thêm về Mahout.
  • Truy cập trang dự án Cassandra để tìm hiểu mọi thứ về Cassandra.
  • Tìm hiểu về IBM Netezza.
  • Big Data Analytics của TDWI là một ứng dụng phân tích nâng cao các tập hợp dữ liệu lớn, hỗn tạp thường bao gồm nhiều loại dữ liệu và luồng khác nhau.
  • Tìm hiểu thêm về SPSS Statistics.
  • Tìm hiểu thêm về InfoSphere BigInsights.
  • Chọn các sản phẩm dùng thử của IBM phù hợp với bạn: tải về sản phẩm dùng thử, dùng thử trực tuyến, sử dụng trong môi trường đám mây hay dùng chúng thông qua SOA Sandbox để tìm hiểu cách triển khai hiệu quả kiến trúc hướng dịch vụ.

Thảo luận

  • Tham gia vào cộng đồng developerWorks. Kết nối với các thành viên developerWorks để khám phá các trang blog, diễn đàn, nhóm và thư viện.

Bình luận

developerWorks: Đăng nhập

Các trường được đánh dấu hoa thị là bắt buộc (*).


Bạn cần một ID của IBM?
Bạn quên định danh?


Bạn quên mật khẩu?
Đổi mật khẩu

Bằng việc nhấn Gửi, bạn đã đồng ý với các điều khoản sử dụng developerWorks Điều khoản sử dụng.

 


Ở lần bạn đăng nhập đầu tiên vào trang developerWorks, một hồ sơ cá nhân của bạn được tạo ra. Thông tin trong bản hồ sơ này (tên bạn, nước/vùng lãnh thổ, và tên cơ quan) sẽ được trưng ra cho mọi người và sẽ đi cùng các nội dung mà bạn đăng, trừ khi bạn chọn việc ẩn tên cơ quan của bạn. Bạn có thể cập nhật tài khoản trên trang IBM bất cứ khi nào.

Thông tin gửi đi được đảm bảo an toàn.

Chọn tên hiển thị của bạn



Lần đầu tiên bạn đăng nhập vào trang developerWorks, một bản trích ngang được tạo ra cho bạn, bạn cần phải chọn một tên để hiển thị. Tên hiển thị của bạn sẽ đi kèm theo các nội dung mà bạn đăng tải trên developerWorks.

Tên hiển thị cần có từ 3 đến 30 ký tự. Tên xuất hiện của bạn phải là duy nhất trên trang Cộng đồng developerWorks và vì lí do an ninh nó không phải là địa chỉ email của bạn.

Các trường được đánh dấu hoa thị là bắt buộc (*).

(Tên hiển thị cần có từ 3 đến 30 ký tự)

Bằng việc nhấn Gửi, bạn đã đồng ý với các điều khoản sử dụng developerWorks Điều khoản sử dụng.

 


Thông tin gửi đi được đảm bảo an toàn.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=70
Zone=Information Management, Nguồn mở
ArticleID=936015
ArticleTitle=Phân tích Business Intelligence dựa trên Big Data
publish-date=06302013