Phân tích dữ liệu môi trường truyền thông xã hội và dữ liệu có cấu trúc với BigInsights InfoSphere

Khởi đầu nhanh với BigSheets

Nếu bạn muốn làm việc với "Big Data" mà không cần viết mã hoặc các kịch bản lệnh, bạn sẽ cần nghiên cứu BigSheets. BigSheets là một công cụ kiểu-bảng tính dùng cho các nhà phân tích kinh doanh được cung cấp với IBM InfoSphere BigInsights, một nền tảng dựa trên dự án nguồn mở Apache Hadoop. Bài này hướng dẫn bạn những điều cơ bản về sử dụng BigSheets để phân tích dữ liệu môi trường truyền thông xã hội và dữ liệu có cấu trúc được thu thập thông qua các ứng dụng ví dụ mẫu kèm theo BigInsights. Bạn sẽ tìm hiểu cách mô hình hóa dữ liệu này trong BigSheets, thao tác dữ liệu này bằng cách sử dụng macro và các hàm dựng sẵn, tạo ra các biểu đồ để hiển thị trực quan công việc của mình và xuất các kết quả phân tích của mình theo một trong những định dạng kết quả phổ biến.

Cynthia M. Saracco, Kỹ sư phần mềm cấp cao, IBM

Ảnh của Cynthia SaraccoCynthia M. Saracco làm về quản lý cơ sở dữ liệu và các công nghệ XML tại Phòng thí nghiệm thung lũng Silicon của IBM. Bà là đồng tác giả của ba cuốn sách và đã giảng dạy các khóa đại học về các công nghệ phần mềm khác nhau.


Tác giả chuyên gia của
        developerWorks

Anshul Dawra, Kỹ sư phần mềm cấp cao, IBM

Ảnh của Anshul DawraAnshul Dawra là một Kỹ sư phần mềm cao cấp trong nhóm Quản lý thông tin của IBM tại Các phòng thí nghiệm thung lũng Silicon ở San Jose, CA. Ông là một kiến trúc sư trong nhóm pureQuery và Extended Insight. Trước khi gia nhập nhóm pureQuery, ông làm về thiết kế và phát triển của IBM Server Data Driver (Trình điều khiển dữ liệu máy chủ của IBM) cho JDBC và SQLJ.



19 02 2013

Bạn có thể đã nghe nói về Big Data (dữ liệu lớn) và tác động của nó đối với việc phân tích kinh doanh. Và có lẽ bạn đang tự hỏi tổ chức của mình có thể thu nhặt được những hiểu biết gì từ việc nắm bắt, xử lý và quản lý dữ liệu lớn được thu thập từ các trang web, các cảm biến điện tử hoặc các bản ghi nhật ký phần mềm, cùng với các dữ liệu truyền thống mà bạn đã có. Chắc chắn, không thiếu các dự án của bên thứ ba và nguồn mở được thiết kế để giúp bạn giải quyết các khía cạnh khác nhau của các dự án Big Data của mình. Nhưng hầu hết các dự án đều được hướng về phía các lập trình viên, các quản trị viên và các chuyên gia kỹ thuật với các kỹ năng cụ thể.

Điều gì sẽ xảy ra nếu bạn muốn làm cho Big Data có thể tới được các nhà phân tích kinh doanh, các nhà lãnh đạo ngành kinh doanh và các nhân viên khác, những người không phải là các lập trình viên? BigSheets đáng giá hơn vẻ bề ngoài của nó. Đó là một công cụ kiểu-bảng tính đi kèm với InfoSphere BigInsights, cho phép những người không phải là lập trình viên có thể khám phá, thao tác và hiển thị trực quan dữ liệu được lưu trữ trong hệ thống tệp phân tán của bạn. Các ứng dụng ví dụ mẫu kèm theo BigInsights giúp bạn thu thập và nhập dữ liệu từ nhiều nguồn khác nhau. Trong bài này, chúng tôi sẽ giới thiệu cho bạn về BigSheets và hai ứng dụng ví dụ mẫu đi kèm theo nó.

Nền tảng

BigInsights là một nền tảng phần mềm có thể giúp các công ty phát hiện và phân tích những hiểu biết kinh doanh ẩn dấu trong các khối lượng lớn của rất nhiều lĩnh vực dữ liệu — dữ liệu thường bị bỏ qua hoặc bị vứt bỏ vì nó quá không thực tế hoặc quá khó xử lý bằng cách sử dụng các phương tiện truyền thống.

Để giúp các doanh nghiệp lấy được giá trị từ những dữ liệu đó một cách hiệu quả, Ấn bản Doanh nghiệp của BigInsights bao gồm một số dự án nguồn mở, gồm có Apache Hadoop và một số công nghệ đã phát triển của IBM, gồm BigSheets. Hadoop và các dự án liên quan của nó cung cấp một framework phần mềm hiệu quả cho các ứng dụng chuyên về dữ liệu, khai thác các môi trường tính toán phân tán để đạt được khả năng mở rộng quy mô cao.

Các công nghệ của IBM làm phong phú thêm framework nguồn mở này với phần mềm phân tích, tích hợp phần mềm doanh nghiệp, các phần mở rộng nền tảng và các công cụ. Để biết thêm thông tin về BigInsights, hãy xem phần Tài nguyên. BigSheets là một công cụ phân tích dựa trên trình duyệt ban đầu được nhóm Emerging Technologies của IBM phát triển. Hiện nay, BigSheets được gắn với BigInsights để cho phép những người dùng doanh nghiệp và không phải là lập trình viên khám phá và phân tích dữ liệu trong các hệ thống tệp phân tán. BigSheets trình bày một giao diện như-bảng tính để người dùng có thể mô hình hóa, lọc, kết hợp, khám phá và vẽ biểu đồ dữ liệu được thu thập từ nhiều nguồn khác nhau. Giao diện bàn điều khiển web của BigInsights gồm có một ngăn (tab) ở trên đỉnh để truy cập BigSheets. Xem phần Tài nguyên để biết thêm chi tiết về giao diện bàn điều khiển web này.

Hình 1 mô tả một bộ sưu tập dữ liệu ví dụ mẫu trong BigSheets. Trong khi nó trông giống như một bảng tính điển hình, bộ sưu tập này chứa các dữ liệu từ các blog được đăng lên các trang web công cộng và các nhà phân tích thậm chí có thể nhấn chuột vào các liên kết có trong bộ sưu tập để truy cập vào trang web đã xuất bản nội dung nguồn.

Hình 1. Bộ sưu tập ví dụ mẫu BigSheets dựa trên dữ liệu của môi trường truyền thông xã hội, có các liên kết đến nội dung nguồn
Hình ảnh hiển thị bảng tính với các cột cho ngôn ngữ, kích cỡ bài đăng, tiêu đề bài đăng và ngày xuất bản

Sau khi định nghĩa một bộ sưu tập BigSheets, một nhà phân tích có thể lọc hoặc chuyển đổi dữ liệu của nó như mong muốn. Ở hậu trường, BigSheets dịch các lệnh của người dùng, được thể hiện thông qua một giao diện đồ họa, thành các kịch bản lệnh Pig được thực hiện dựa vào một tập hợp con của các dữ liệu bên dưới. Theo cách này, một nhà phân tích có thể nhiều lần khám phá các biến đổi khác nhau một cách hiệu quả. Khi đã hài lòng, người sử dụng có thể lưu và chạy bộ sưu tập, làm cho BigSheets bắt đầu công việc MapReduce trên bộ dữ liệu đầy đủ, viết các kết quả vào hệ thống tệp phân tán và hiển thị các nội dung của bộ sưu tập mới. Các nhà phân tích có thể lật trang và thao tác tập hợp dữ liệu đầy đủ như mong muốn.

Bổ sung cho BigSheets là một số ứng dụng ví dụ mẫu đã dựng sẵn mà những người dùng doanh nghiệp có thể khởi chạy chúng từ giao diện bàn điều khiển web của BigInsights để thu thập dữ liệu từ các trang web, các hệ thống quản lý cơ sở dữ liệu quan hệ (RDBMS), các hệ thống tệp từ xa và các nguồn khác. Chúng tôi sẽ dựa vào hai ứng dụng như vậy cho công việc được mô tả ở đây. Tuy nhiên, điều quan trọng cần hiểu rõ là các lập trình viên và các quản trị viên có thể sử dụng các công nghệ BigInsights khác để thu thập, xử lý và chuẩn bị dữ liệu cho việc phân tích tiếp theo trong BigSheets. Các công nghệ này gồm có Jaql, Flume, Pig, Hive, các ứng dụng MapReduce và các công nghệ khác.

IBM Watson

IBM Watson là một dự án nghiên cứu mà nó thực hiện các phân tích phức tạp để trả lời các câu hỏi được trình bày theo một ngôn ngữ tự nhiên. Phần mềm của Watson tra cứu dữ liệu được thu thập từ nhiều nguồn khác nhau và sử dụng Hadoop để xử lý hiệu quả dữ liệu này qua một hệ thống các máy chủ IBM Power 750. IBM Watson đầu tiên được dùng trong một cuộc thi trò chơi trên truyền hình vào năm 2011, đánh bại hai người chơi dẫn đầu. Xem phần Tài nguyên để biết thêm các chi tiết về IBM Watson và chương trình trò chơi Jeopardy!.

Trước khi bắt đầu, chúng ta hãy xem xét các kịch bản ứng dụng ví dụ mẫu. Việc này đòi hỏi phân tích dữ liệu của môi trường truyền thông xã hội về IBM Watson và, cuối cùng, nối dữ liệu này với dữ liệu nội bộ của IBM đã mô phỏng về các nỗ lực tiếp cận môi trường truyền thông được trích ra từ một DBMS quan hệ. Ý tưởng là khám phá khả năng hiển thị, đưa tin và "lan truyền" xung quanh một nhãn hàng, dịch vụ hay dự án nổi bật — một yêu cầu chung trong nhiều tổ chức. Chúng tôi sẽ không trình bày hết các khả năng phân tích cho một ứng dụng như vậy ở đây, do ý định của chúng tôi chỉ đơn giản là nêu bật cách các khía cạnh quan trọng của BigSheets có thể giúp các nhà phân tích bắt đầu nhanh chóng công việc với dữ liệu lớn như thế nào. Tuy nhiên, công việc mà chúng ta sẽ tìm hiểu sẽ giúp bạn hiểu những gì là có thể với một chút nỗ lực — và có lẽ mang đến một hay hai bất ngờ về sự nổi tiếng của IBM Watson.


Bước 1: Thu thập dữ liệu của bạn

Trước khi khởi chạy BigSheets, bạn cần một số dữ liệu dùng cho việc phân tích của mình. Trước hết, chúng ta sẽ tập trung vào việc thu thập dữ liệu của môi trường truyền thông xã hội.

Thu thập dữ liệu của môi trường truyền thông xã hội

Như bạn có thể dự kiến, việc thu thập và xử lý dữ liệu được trích ra từ các trang web của môi trường truyền thông xã hội có thể là thách thức, do các trang web khác nhau nắm giữ thông tin khác nhau và sử dụng các cấu trúc dữ liệu khác nhau. Hơn nữa, việc xác định và dò tìm qua rất nhiều các trang web cá nhân có thể rất tốn thời gian.

Ở đây, chúng tôi đã sử dụng ứng dụng ví dụ mẫu BoardReader kèm theo BigInsights để khởi chạy một tìm kiếm về các blog, các nguồn cấp tin tức, các diễn đàn thảo luận và các trang web video. Hình 2 minh họa các tham số đầu vào mà chúng tôi đã cung cấp cho ứng dụng BoardReader của BigInsights, chúng tôi đã khởi chạy nó từ trang Applications (Các ứng dụng của) giao diện bàn điều khiển Web của BigInsights. Nếu bạn chưa quen với giao diện bàn điều khiển web và danh mục các ứng dụng mẫu của nó, hãy xem phần Tài nguyên.

Hình 2. Gọi ứng dụng BoardReader từ giao diện bàn điều khiển web BigInsights
Hình ảnh hiển thị phần đầu màn hình của ứng dụng BoardReader

Hãy xem xét nhanh các tham số đầu vào được hiển thị trong Hình 2. Results Path (Đường dẫn Các kết quả) chỉ rõ thư mục của hệ thống tệp phân tán Hadoop (HDFS) với kết quả của của ứng dụng. Các tham số tiếp theo cho biết rằng chúng tôi đã hạn chế các kết quả được trả về tới tối đa là 25.000 kết quả phù hợp và khoảng thời gian tìm kiếm bắt đầu từ 01.01.2011 đến cuối 31.03.2012. Properties File (Tệp Đặc tính) tham khảo kho lưu trữ thông tin của BigInsights mà chúng tôi đã điền vào bằng khóa bản quyền của BoardReader của chúng tôi. (Mỗi khách hàng phải liên hệ với BoardReader để nhận được một khóa bản quyền hợp lệ). Và "IBM Watson" là chủ đề tìm kiếm của chúng ta.

Sau khi chạy ứng dụng, hệ thống tệp phân tán có chứa bốn tệp mới trong thư mục kết quả, như được hiển thị ở dưới cùng của Hình 3.

Hình 3. Kết quả của ứng dụng được lưu trữ trong BigInsights
Khung nhìn Trình thám hiểm của thư mục HDFS

Để giữ cho mọi thứ đơn giản, trong bài này, chúng tôi sẽ chỉ sử dụng dữ liệu tin tức và blog. Nếu bạn muốn làm theo cùng với kịch bản ứng dụng ví dụ mẫu của chúng tôi, hãy thực hiện các ứng dụng BoardReader với các tham số mà chúng tôi đã quy định hoặc tải về dữ liệu ví dụ mẫu. Lưu ý rằng việc tệp tải xuống chỉ chứa một tập hợp con thông tin mà BoardReader thu thập từ các nguồn cấp tin tức và các blog. Cụ thể là, chúng tôi đã loại bỏ nội dung toàn văn bản/HTML của các bài đăng và các mục tin tức cũng như siêu dữ liệu cụ thể từ các tệp mẫu. Dữ liệu này không cần thiết cho các nhiệm vụ phân tích được trình bày ở đây và chúng tôi cũng muốn giữ cho kích cỡ của mỗi tệp ở mức dễ sử dụng.

Mỗi tệp được ứng dụng BoardReader trả về đều theo định dạng JSON. Bạn có thể hiển thị một phần nhỏ của dữ liệu này như là văn bản trong trang Files (Các tệp) của giao diện bàn điều khiển web của BigInsights, nhưng khó đọc các kết quả. Lúc này, bạn sẽ thấy cách chuyển đổi dữ liệu này thành "các trang bảng tính" hoặc các bộ sưu tập dữ liệu BigSheets, đó là cách dễ hơn nhiều để tìm hiểu. Nhưng điều đáng lưu ý là mỗi tệp có chứa một cấu trúc JSON hơi khác một chút — một tình huống cần giải quyết khi mô hình hóa một bộ sưu tập, mà nó hợp nhất các tập hợp dữ liệu blog và tin tức. Trong các dự án dữ liệu lớn, điều khá phổ biến là phải chuẩn bị hoặc chuyển đổi các cấu trúc dữ liệu của bạn theo cách nào đó để đơn giản hóa việc phân tích tiếp theo.

Thu thập dữ liệu từ một DBMS quan hệ

Sau khi tìm hiểu một số khía cạnh nhất định về dữ liệu của môi trường truyền thông xã hội này, chúng ta sẽ nối nó với dữ liệu được trích ra từ một DBMS quan hệ. Nhiều dự án dữ liệu lớn đòi hỏi phân tích các nguồn thông tin mới, chẳng hạn như dữ liệu của môi trường truyền thông xã hội, trong bối cảnh có mặt thông tin doanh nghiệp, bao gồm dữ liệu được lưu trữ trong một DBMS quan hệ. BigInsights cung cấp kết nối đến các DBMS quan hệ và các kho dữ liệu khác nhau, gồm có Netezza, DB2®, Informix®, Oracle, Teradata và những cái khác.

Đối với kịch bản ví dụ mẫu của chúng tôi, chúng tôi đã điền vào một bảng DB2 có dữ liệu mô phỏng về các nỗ lực tiếp cận môi trường truyền thông của IBM. Việc nối dữ liệu quan hệ này với thông tin được trích ra từ các trang web môi trường truyền thông xã hội có thể cung cấp cho chúng ta một số dấu hiệu về tính hiệu quả và đạt được những nỗ lực công khai khác nhau. Trong khi BigInsights cung cấp truy cập truy vấn DBMS quan hệ động thông qua một giao diện dòng lệnh, chúng tôi đã sử dụng ứng dụng ví dụ mẫu Data Import (Nhập khẩu dữ liệu) của giao diện bàn điều khiển web của BigInsights để trích ra dữ liệu quan tâm.

Hình 4 minh họa các tham số đầu vào mà chúng tôi đã cung cấp cho ứng dụng này. Tệp đặc tính mykeys trong kho lưu trữ thông tin BigInsights chứa các tham số đầu vào JDBC cần thiết để thiết lập một kết nối cơ sở dữ liệu, gồm URL JDBC (ví dụ, jdbc:db2://myserver.ibm.com:50000/sample), lớp trình điều khiển JDBC (ví dụ, com.ibm.db2.jcc.DB2Driver) và mã định danh (ID) và mật khẩu người dùng DBMS. Các tham số đầu vào khác gồm có một câu lệnh SQL SELECT đơn giản để lấy dữ liệu quan tâm từ cơ sở dữ liệu đích, định dạng kết quả (tệp các giá trị được phân cách bằng dấu phẩy) và thư mục kết quả của BigInsights cho các kết quả.

Hình 4. Gọi ứng dụng nhập khẩu dữ liệu từ giao diện bàn điều khiển web BigInsights
Phần đầu màn hình hiển thị ứng dụng nhập khẩu DBMS

Lưu ý rằng trước khi thực hiện ứng dụng này, chúng tôi đã tải lên các tệp trình điều khiển DBMS thích hợp vào thư mục hệ thống tệp phân tán BigInsights cần thiết (/biginsights/oozie/sharedLibraries/dbDrivers). Do DB2 Express-C đã là DBMS nguồn của chúng tôi, nên chúng tôi tải lên các tệp its db2jcc4.jar và db2jcc_license_cu.jar.

Để làm theo cùng với công việc liên quan đến DBMS trong kịch bản ứng dụng ví dụ mẫu của chúng tôi, hãy tải về bản miễn phí của DB2 Express-C (xem phần Tài nguyên để có một liên kết), tạo ra và điền vào một bảng ví dụ mẫu và thực thi ứng dụng Data Import của BigInsights như đã mô tả. Ngoài ra, bạn có thể tải về tệp CSV được trích ra từ DB2 và tải nó lên trực tiếp vào BigInsights.


Bước 2: Tạo các bộ sưu tập BigSheets

Để bắt đầu phân tích dữ liệu của bạn bằng BigSheets, bạn cần phải tạo ra các bộ sưu tập— các cấu trúc kiểu-bảng tính — mà nó mô hình hóa các tệp quan tâm trong hệ thống tệp phân tán của bạn. Đối với kịch bản của chúng tôi, những tệp này gồm dữ liệu blog dựa trên-JSON được ứng dụng BoardReader của IBM thu thập và dữ liệu dựa trên -CSV được trích ra từ DB2 bởi ứng dụng Data Import của IBM.

Hãy làm theo những bước sau đây để tạo bộ sưu tập:

  1. Từ trang Files của giao diện bàn điều khiển web, hãy sử dụng trình dẫn hướng hệ thống tệp để chọn tệp news-data.txt (xem Hình 3).
  2. Trong ô cửa sổ bên phải, chọn nút Sheets (Các trang bảng tính) để thay đổi định dạng hiển thị từ Text (Văn bản) sang Sheets. Như thể hiện trong Hình 5, nút này được đặt ở bên phải của đặc tả Viewing Size (Kích cỡ khung nhìn).
  3. Chỉ rõ "trình đọc" (reader) thích hợp hoặc trình chuyển dịch (translator) định dạng dữ liệu cho tệp của bạn. Như Hình 5 cũng cho thấy, BigSheets cung cấp các trình đọc dựng sẵn khác nhau để làm việc với các định dạng dữ liệu phổ biến. Đối với tệp ví dụ mẫu này, trình đọc JSON Array (Mảng JSON) là thích hợp.
  4. Lưu bộ sưu tập mới của bạn, đặt tên nó là "Watson_news" (các tin tức_Watson).
Hình 5. Tạo một bộ sưu tập với một "trình đọc" thích hợp
Phần đầu màn hình hiển thị JSON Array được chọn làm trình đọc

Làm theo quá trình tương tự để tạo ra một bộ sưu tập riêng cho tệp blogs-data.txt, đặt tên bộ sưu tập là "Watson_blogs". Cuối cùng, hãy tạo một bộ sưu tập thứ ba cho tệp CSV với dữ liệu DBMS, chọn Dữ liệu CSV (Comma Separated Values) của BigSheets làm trình đọc cho tệp này. Đặt tên bộ sưu tập này là "Media_Contacts".

Điều đáng lưu ý là bạn có thể tạo ra một bộ sưu tập dựa trên các nội dung của một thư mục, chứ không phải là một tệp duy nhất. Để làm như vậy, hãy sử dụng trình dẫn hướng hệ thống tệp để nhận dạng thư mục đích, nhấn chuột vào nút Sheets trong ô cửa sổ bên phải và chỉ rõ trình đọc thích hợp được áp dụng cho tất cả các tệp trong thư mục. Tuy nhiên, kịch bản ứng dụng được mô tả trong bài này yêu cầu ba bộ sưu tập riêng, như được mô tả ở trên.


Bước 3: Điều chỉnh bộ sưu tập của bạn

Rất nhiều lần, các nhà phân tích cũng muốn điều chỉnh định dạng, nội dung và cấu trúc của các bộ sưu tập của họ trước khi nghiên cứu các khía cạnh khác nhau của chính dữ liệu đó. BigSheets cung cấp một số các macro và các hàm để hỗ trợ các hoạt động chuẩn bị dữ liệu như vậy. Trong phần này, chúng ta sẽ tìm hiểu hai lựa chọn sau: loại bỏ dữ liệu không cần thiết bằng cách xóa các cột và hợp nhất dữ liệu từ hai bộ sưu tập thông qua một phép hợp.

Xóa các cột

Ứng dụng BoardReader của BigInsights trả về dữ liệu tin tức và blog điền vào các cột khác nhau trong mỗi bộ sưu tập BigSheets. Chúng tôi chỉ cần một tập hợp con của các cột này dùng cho việc phân tích mà chúng tôi sẽ thảo luận trong bài này, do đó một bước đầu quan trọng đòi hỏi phải tạo ra các bộ sưu tập mới chỉ giữ lại các cột mà chúng tôi muốn:

  1. Từ trang chủ BigSheets, hãy mở bộ sưu tập Watson_news mà bạn đã tạo ra từ tệp news-data.txt.
  2. Nhấn chuột vào Build New Collection (Xây dựng bộ sưu tập mới).
  3. Chuyển hướng đến cột IsAdult, như hiển thị trong Hình 6. Nhấn chuột vào mũi tên xuống trong tiêu đề cột và Remove (Loại bỏ) cột. Làm điều này với tất cả các cột trong bộ sưu tập, ngoại trừ các cột Country, FeedInfo, Language, Published, SubjectHtml, Tags, Type và Url.
  4. Lưu và thoát ra, đặt tên cho bộ sưu tập mới là "Watson_news_revised". Khi được nhắc, hãy chạy bộ sưu tập này. Lưu ý rằng một thanh trạng thái ở bên phải của nút Run cho phép bạn theo dõi tiến trình công việc. (Ở hậu trường, BigSheets thực hiện các kịch bản lệnh Pig để bắt đầu các công việc MapReduce khi bạn chạy một bộ sưu tập. Như bạn có thể tưởng tượng, hiệu năng thời gian chạy phụ thuộc vào khối lượng dữ liệu được liên kết với bộ sưu tập của bạn và các tài nguyên hệ thống có sẵn).
Hình 6. Loại bỏ một cột khỏi một bộ sưu tập
Hình ảnh hiển thị xóa một cột

Vì cuối cùng chúng tôi muốn hợp nhất dữ liệu blog và tin tức vào một bộ sưu tập duy nhất để phân tích thêm, hãy làm theo cách tiếp cận tương tự để tạo ra một bộ sưu tập mới của dữ liệu blog, mà nó chỉ chứa các cột dành cho Country, FeedInfo, Language, Published, SubjectHtml, Tags, Type và Url. Hãy đặt tên cho bộ sưu tập blog mới là "Watson_blogs_revised".

Sát nhập hai bộ sưu tập thành một thông qua một phép hợp

Tiếp theo, sát nhập các bộ sưu tập vừa mới chỉnh sửa (Watson_news_revised và Watson_blogs_revised) thành một bộ sưu tập duy nhất, sẽ dùng như là cơ sở để tìm hiểu tin tức về IBM Watson. Để làm như vậy, sử dụng toán tử hợp của BigSheets. Lưu ý rằng nó đòi hỏi tất cả các trang bảng tính có cùng một cấu trúc. Nếu bạn đã làm theo các chỉ dẫn trong phần trước, bạn sẽ có hai bộ sưu tập như vậy để sát nhập, mỗi bộ có các cột Country, FeedInfo, Language, Published, SubjectHtml, Tags, Type và Url, theo thứ tự đó.

Để sát nhập các bộ sưu tập:

  1. Mở bộ sưu tập Watson_news_revised và nhấn chuột vào Build New Collection.
  2. Nhấn vào Add sheets > Load để thêm các nội dung của bộ sưu tập khác vào mô hình làm việc của bạn. (Xem Hình 7.) Khi được nhắc, hãy chọn Watson_blogs_revised collection (bộ sưu tập Watson_blogs_revised), đặt tên trang bảng tính của bạn là "Blogs" và nhấn chuột vào dấu chọn màu xanh lá cây để áp dụng hoạt động này.
    Hình 7. Chuẩn bị nạp một bộ sưu tập vào một trang bảng tính mới
    Phần đầu màn hình hiển thị các tùy chọn để thêm một tờ bảng tính
  3. Kiểm tra màn hình của bạn, trong đó sẽ có trang bảng tính mới. Lưu ý rằng góc dưới bên trái của bộ sưu tập của bạn có một ngăn (tab) mới cho nó. (Xem Hình 8.)
    Hình 8. Xem xét một trang bảng tính mới
    Phần đầu màn hình hiển thị tờ bảng tính vừa mới nạp
  4. Nhấn Add sheets > Union để tạo ra một trang bảng tính khác để hợp nhất dữ liệu blog với dữ liệu tin tức. Khi được nhắc, nhấn chuột vào trình đơn thả xuống và chọn Watson_news_revised làm trang bảng tính mà bạn sẽ hợp nhất với dữ liệu blog mà bạn vừa nạp. (Xem Hình 9.) Nhấn chuột vào dấu cộng (+) bên cạnh hộp, rồi nhấn vào dấu chọn màu xanh lá cây ở phía dưới cùng để bắt đầu hợp nhất.
    Hình 9. Chỉ rõ các trang bảng tính để hợp nhất
    Phần đầu màn hình hiển thị các tờ bảng tính dùng cho phép hợp
  5. Lưu và thoát ra, đặt tên nó là Watson_news_blogs. Chạy bộ sưu tập này.

Tiếp theo, phân tích dữ liệu trong bộ sưu tập mới này.


Bước 4: Khai thác bộ sưu tập để kiểm tra tin tức về IBM Watson

Một lĩnh vực mà chúng ta muốn khai thác đòi hỏi mối quan tâm và tin tức toàn cầu về IBM Watson. Ban đầu, bạn có thể bị lôi kéo lựa chọn bộ sưu tập Watson_news_blogs dựa trên các giá trị cột country. Tuy nhiên, nếu bạn kiểm tra dữ liệu, bạn sẽ thấy rằng nhiều hàng có chứa các giá trị rỗng (null) với cột này. Đây là trường hợp điển hình của dữ liệu được thu thập từ các trang web môi trường truyền thông xã hội và các nguồn khác. Thông thường, dữ liệu mong muốn còn thiếu, buộc các nhà phân tích phải xem xét các phương tiện khác để đi sâu vào các lĩnh vực quan tâm.

Sắp xếp các bản ghi

Hầu hết các mục blog và tin tức của chúng ta đều chỉ thị ngôn ngữ ban đầu, vì vậy chúng ta sẽ sắp xếp các bản ghi của mình theo ngôn ngữ và kiểu để giúp chúng ta tìm hiểu tin tức toàn cầu về IBM Watson trong các bài đăng tin tức và blog:

  1. Mở bộ sưu tập Watson_news_blogs và nhấn vào Build New Collection.
  2. Từ tiêu đề Language (Ngôn ngữ), hãy để lộ ra trình đơn thả xuống và nhấn vào Sort > Advanced. Khi được nhắc, hãy chọn cột Language và cột Type từ trình đơn Add Columns to Sort (Thêm các cột để sắp xếp). Thay đổi giá trị sắp xếp của Language là Descending (Giảm dần) và kiểm tra xem Language có là cột sắp xếp chính không, như thể hiện trong Hình 10. Nhấn chuột vào mũi tên màu xanh lá cây để áp dụng hoạt động này dựa vào một tập hợp con dữ liệu của bạn.
    Hình 10. Chuẩn bị sắp xếp một bộ sưu tập trên hai cột, với cột Language làm cột chính
    Phần đầu màn hình hiển thị thiết lập hoạt động sắp xếp
  3. Kiểm tra 50 bản ghi ví dụ mẫu được hiển thị và lưu ý các ngôn ngữ khác nhau được trích dẫn.
  4. Lưu và thoát khỏi bộ sưu tập của bạn, đặt tên nó Watson_sorted. Sau đó chạy bộ sưu tập dựa vào tập hợp dữ liệu đầy đủ. Khi bạn kiểm tra các kết quả trả về, bạn sẽ thấy có nhiều bản ghi với các ngôn ngữ cụ thể, chẳng hạn như tiếng Việt, hơn so với bạn đã làm trong bước trước.

Vẽ biểu đồ các kết quả

Mặc dù bạn có thể lật trang thông qua các bộ sưu tập của mình để tìm hiểu tin tức về IBM Watson theo các ngôn ngữ khác nhau, cách dễ nhất để hiển thị trực quan "sự lan truyền" trên toàn thế giới chỉ có thể là vẽ biểu đồ các kết quả. Làm như vậy sẽ tạo ra một khung nhìn rộng, có thể dùng làm nguồn cảm hứng cho các nỗ lực thăm dò và phân tích thêm. BigSheets hỗ trợ một loạt kiểu biểu đồ, bao gồm các biểu đồ thanh, các biểu đồ tròn, đám mây thẻ và các biểu đồ khác. Chúng tôi sẽ sử dụng một biểu đồ hình tròn đơn giản ở đây:

  1. Với bộ sưu tập Watson_sorted đã mở, hãy nhấn vào Add chart > Chart > Pie. (Thêm biểu đồ> Biểu đồ> Hình tròn). (Ngăn Add chart - Thêm biểu đồ ở góc dưới bên trái của bộ sưu tập bên cạnh ngăn Result).
  2. Khi được nhắc, hãy cung cấp các giá trị mà bạn đã chọn cho tên và tiêu đề của biểu đồ. Chọn cột Language làm giá trị mà bạn muốn vẽ biểu đồ, giữ nguyên thiết lập trường Count (Đếm) theo giá trị mặc định của nó. Thiết lập lại giá trị Limit (Giới hạn) là 12, vì thế biểu đồ hình tròn sẽ phản ánh dữ liệu về 12 ngôn ngữ xuất hiện thường xuyên nhất trong bộ sưu tập này. Xem Hình 11.
    Hình 11. Các tham số đầu vào để tạo ra một biểu đồ hình tròn
    Phần đầu màn hình hiển thị tên, tiêu đề, giá trị, tổng số đếm và giới hạn của biểu đồ
  3. Nhấn chuột vào dấu chọn màu xanh lá cây và chạy biểu đồ khi được nhắc.

Như bạn có thể dự kiến, biểu đồ hình tròn kết quả chỉ ra rằng gần 79% dữ liệu tin tức và blog mà chúng tôi đã thu thập đã được xuất bản bằng tiếng Anh. Nhưng bạn có thể dự đoán ngôn ngữ phổ biến nhất tiếp sau cho IBM Watson không? Biểu đồ hình tròn được minh họa trong Hình 12 chỉ ra rằng đó là tiếng Nga. Bằng cách di chuột trên bất kỳ lát mỏng nào của một biểu đồ hình tròn đã hiển thị trong BigSheets, bạn có thể xác định giá trị bên dưới của nó (trong trường hợp này là giá trị cột Language).

Hình 12. Đo mối quan tâm toàn cầu về IBM Watson theo ngôn ngữ, dựa trên dữ liệu tin tức và blog có sẵn
Hình ảnh hiển thị biểu đồ hình tròn đo mối quan tâm toàn cầu về IBM Watson

Xóa các giá trị dữ liệu

Nếu bạn di chuột qua các lát mỏng lớn nhất thứ năm và thứ sáu của biểu đồ hình tròn được hiện thị trong Hình 12 (với tỷ lệ phần trăm là 2,6 và 1,9), bạn sẽ thấy rằng chúng là hai biến thể tiếng Trung Quốc. Điều này minh họa một tình hình phổ biến khác liên quan đến dữ liệu được thu thập từ các nguồn dữ liệu khác nhau, chẳng hạn như các trang web môi trường truyền thông xã hội khác nhau — các giá trị dữ liệu mà bạn có thể muốn xử lý giống hệt thường được biểu diễn hơi khác một chút.

Hãy tìm hiểu cách sử dụng BigSheets để thay đổi các giá trị này sao cho các biến thể tiếng Trung Quốc được thay thế bằng một giá trị duy nhất của "tiếng Trung Quốc":

  1. Nếu cần, hãy mở bộ sưu tập Watson_sorted và nhấn vào nút Edit (bên dưới tên của bộ sưu tập ở góc trên bên trái).
  2. Điều hướng đến cột Language và nhấn vào mũi tên xuống trong tiêu đề cột để trưng ra trình đơn thả xuống. Chọn Insert Right > New Column để tạo một cột mới để chứa dữ liệu đã xóa. Khi được nhắc, hãy đặt tên cột mới là LanguageRevised và nhấn chuột vào dấu chọn màu xanh lá cây để hoàn thành hoạt động này.
  3. Với con trỏ của bạn được đặt trên cột LanguageRevised, hãy nhập công thức sau đây vào hộp fx (đặc tả công thức) ở phía trên cùng của trang bảng tính: IF(SEARCH('Chin*', #Language) > 0, 'Chinese', #Language). Xem Hình 13.
    Hình 13. Chỉ rõ một công thức để lấy một giá trị của cột
    Hình ảnh hiển thị đặc tả công thức
    Công thức này làm cho BigSheets tìm kiếm các giá trị bắt đầu bằng "Chin" trong cột Language của trang bảng tính này. Khi nó tìm thấy các giá trị như vậy, nó ghi "Chinese" (tiếng Trung Quốc) vào cột LanguageRevised; nếu không, nó sao chép các giá trị đã tìm thấy trong cột Language vào cột LanguageRevised. InfoCenter BigInsights (đã có trong phần Tài nguyên). Nhấn vào dấu chọn màu xanh lá cây để áp dụng công thức này.
  4. Lưu và thoát khỏi công việc của bạn. Khi một cảnh báo xuất hiện về dữ liệu không đồng bộ, hãy chạy định nghĩa sửa đổi của bộ sưu tập này.
  5. Tạo một biểu đồ hình tròn 12-lát mới dựa trên các giá trị trong cột LanguageRevised và so sánh các kết quả với biểu đồ hình tròn mà bạn đã tạo ra trước đó (dựa trên dữ liệu "thô" trong cột Language). Lưu ý rằng biểu đồ hình tròn mới của bạn cho thấy rằng "tiếng Trung Quốc" là ngôn ngữ phổ biến nhất thứ hai, tiếp theo là Nga, Tây Ban Nha và Đức.

Nghiên cứu sâu hơn: Lọc các kết quả và trích ra dữ liệu URL

Dữ liệu mà bạn vừa mới kiểm tra có thể gây ra một loạt các câu hỏi yêu cầu kiểm tra thêm. Đây là trường hợp khá điển hình của việc phân tích dữ liệu lớn, thường được lặp lại và thăm dò theo tự nhiên. Hãy nghiên cứu sâu hơn một chút tin tức về IBM Watson theo các bài đăng tin tức và blog dựa trên tiếng Anh để cố gắng tìm ra việc đưa tin này ở Vương quốc Anh.

Phù hợp với tính chất giới thiệu của bài này, chúng ta sẽ có cách tiếp cận đơn giản để kiểm tra chủ đề này. Cụ thể, chúng ta sẽ lấy một bộ sưu tập mới từ bộ sưu tập Watson_sorted vẫn giữ các bản ghi bằng tiếng Anh với các tên miền URL kết thúc bằng ".uk" hoặc một giá trị Country là "GB" (viết tắt của Great Britain). Để đạt được điều này, chúng ta sẽ cần sử dụng toán tử bộ lọc BigSheets cũng như một macro để trích ra dữ liệu máy chủ URL từ một chuỗi URL đầy đủ:

  1. Mở bộ sưu tập Watson_sorted và xây dựng một bộ sưu tập mới.
  2. Thêm một trang bảng tính có sử dụng hoạt động Filter (Lọc).
  3. Khi được nhắc, hãy chọn Match all (So khớp tất cả) và chỉ rõ Language là tiếng Anh trong ba hộp trình đơn thả xuống, như thể hiện trong Hình 14. Sau đó nhấn chuột vào dấu chọn màu xanh lá cây để áp dụng hoạt động này cho một tập hợp con các dữ liệu của bộ sưu tập.
    Hình 14. Lọc dựa trên một giá trị cột
    Hình ảnh hiển thị quá trình lọc tiếng Anh
  4. Lưu công việc của bạn (đặt tên trang bảng tính này là Watson_sorted_English_UK ), nhưng không thoát ra, vì bạn sẽ tiếp tục tinh chỉnh bộ sưu tập này.
  5. Thêm một trang bảng tính khác để gọi một Macro. Khi được nhắc, hãy nhấn vào Categories > url > URLHOST. Chọn cột URL của bộ sưu tập của bạn làm cột đích chứa các giá trị URL. (Macro sẽ đọc các giá trị trong cột này và trích ra thông tin máy chủ URL từ chuỗi lớn hơn. Ví dụ, dựa vào một giá trị URL của "http://www.georgeemsden.co.uk/2011/09/how-long-before-your-laptop-finds-a-cure-for-cancer/," macro này sẽ trả về "www.georgeemsden.co.uk" làm tên máy chủ URL).
  6. Nhấn vào ngăn Carry Over (Để lại) ở dưới cùng của ô cửa sổ này, như thể hiện trong Hình 15. Điều này quan trọng bởi vì nó cho phép bạn chỉ rõ bạn muốn giữ lại các cột nào của bộ sưu tập hiện tại (hoặc "để lại").
    Hình 15. Làm việc với macro URLHOST
    Hình ảnh hiển thị mục Carry over được chọn
  7. Nhấn vào Add all (Thêm tất cả) để giữ lại tất cả các cột hiện có và áp dụng hoạt động này. Lưu công việc của bạn, nhưng không thoát ra.
  8. Thêm một trang bảng tính khác để lọc thêm dữ liệu. Khi được nhắc, phối hợp bất kỳ trong hai tiêu chí sau đây: "URLHOST ends with uk" và "Country is GB", như thể hiện trong Hình 16. (Do tính chất dàn trải của dữ liệu trong bộ sưu tập này, chúng ta cần phối hợp cả hai điều kiện này để phát hiện các trang chủ URL đặt tại Anh). Áp dụng hoạt động này.
    Hình 16. Lọc dữ liệu dựa trên hai cột
    Lọc hai cột
  9. Lưu và thoát khỏi bộ sưu tập, sau đó chạy nó.

Việc sắp xếp các kết quả trên cột URLHOST hoặc vẽ một biểu đồ sẽ cho phép bạn nhanh chóng xác định các trang web của Vương quốc Anh trong bộ sưu tập kết quả đã trình bày IBM Watson thường xuyên nhất. Ví dụ, Hình 17 mô tả một biểu đồ đám mây thẻ mà chúng tôi đã tạo ra cho10 trang web hàng đầu như vậy. Như với bất kỳ đám mây thẻ BigSheets nào, phông chữ càng lớn chỉ thị sự xuất hiện càng nhiều của giá trị dữ liệu và việc di chuyển trên một giá trị dữ liệu cho thấy số lần đã xuất hiện trong bộ sưu tập.

Hình 17. 10 trang web hàng đầu của Vương quốc Anh có tin tức về IBM Watson
Đám mây thẻ

Bước 5: Kiểm tra thêm, kết hợp dữ liệu môi trường truyền thông xã hội và dữ liệu có cấu trúc

Trước khi kết thúc giới thiệu này về BigSheets, chúng ta hãy tìm hiểu một vài lĩnh vực quan tâm khác liên quan đến bộ dữ liệu ví dụ mẫu của chúng tôi:

  • Số lượng các trang web riêng trình bày IBM Watson và 12 trang web hàng đầu trên thế giới có trình bày về IBM Watson. Để thực hiện điều này, chúng tôi sẽ giới thiệu thêm các macro và kiểu biểu đồ khác.
  • Tin tức trên các trang web đã là chủ đề về các nỗ lực tiếp cận môi trường truyền thông của IBM. Để đạt được điều này, chúng tôi sẽ nối dữ liệu được trích ra từ một cơ sở dữ liệu quan hệ với dữ liệu môi trường truyền thông xã hội trong BigInsights. (Với bài này, chúng tôi đã tạo ra dữ liệu hư cấu về quan hệ công chúng của IBM).

Cuối cùng, chúng ta sẽ thảo luận cách xuất khẩu các nội dung của một bộ sưu tập vào một định dạng dữ liệu phổ biến có thể dễ dàng được các ứng dụng của bên thứ ba sử dụng.

Xác định quy mô tin tức và 12 trang web hàng đầu

Một khía cạnh về đánh giá tính hiệu quả của chiến dịch tiếp cận môi trường truyền thông đòi hỏi việc đánh giá quy mô tin tức. Trong ví dụ này, bạn sẽ sử dụng BigSheets để xác định số lượng các trang blog và tin tức riêng có đưa tin về IBM Watson.

  1. Mở bộ sưu tập Watson_news_blogs và xây dựng một bộ sưu tập mới.
  2. Thêm một trang bảng tính có tên là "Url Hosts" sử dụng macro URLHOST để trích ra tên máy chủ URL từ chuỗi ký tự đầy đủ được cung cấp trong cột URL. Chỉ giữ lại cột URL. (Nếu cần, hãy tham khảo các chỉ dẫn trong Bước 4 để biết các chi tiết về macro URLHOST).
  3. Thêm một trang bảng tính khác, áp dụng toán tử Distinct (Phân biệt) cho trang bảng tính mà bạn vừa tạo ra.
  4. Lưu và thoát khỏi bộ sưu tập này, chạy nó khi được nhắc. Quan sát xem có nhiều hơn một chút so với 2.800 trang web riêng biệt không, như được hiển thị ở góc dưới bên phải của Hình 18. Nếu bạn mở bộ sưu tập Watson_news_blogs, bạn sẽ thấy có hơn 7.200 tổng số bản ghi.
    Hình 18. Xác định số lượng các trang chủ riêng biệt
    Hình ảnh hiển thị các trang máy chủ khác

Bây giờ bạn biết rằng một số trang web có chứa nhiều bài đăng, bạn có thể muốn xác định 12 trang web hàng đầu có chứa nhiều bài đăng nhất về IBM Watson và hiển thị trực quan các kết quả trong một thanh biểu đồ. Điều đó dễ làm và các kết quả thậm chí có thể làm bạn ngạc nhiên:

  1. Nếu cần, hãy mở bộ sưu tập mà bạn vừa tạo ra.
  2. Nhấn vào Add chart > Chart > Column. Cung cấp các giá trị mà bạn đã chọn dùng cho tên và tiêu đề của biểu đồ. Giữ lại các giá trị mặc định cho các trục X và Y. Đặt Limit đến 12. Áp dụng các giá trị cài đặt này và chạy biểu đồ. Hình 19 minh họa các kết quả. Nếu bạn đã dự kiến IBM hoặc một trang được IBM tài trợ là một trong ba trang hàng đầu, thì bạn đã nhầm.
    Hình 19. Vẽ biểu đồ 12 trang web hàng đầu đưa tin về IBM Watson dựa trên số lượng bài đăng
    Hình ảnh hiển thị 12 trang máy chủ hàng đầu

Nếu bạn kiểm tra các URL với hai trang web hàng đầu, bạn sẽ thấy rằng chúng là các biến thể của bizjournals.com, cho biết rằng bạn có thể muốn quay trở lại bộ sưu tập và chuyển đổi hoặc xóa dữ liệu này. Như đã đề cập, việc phân tích dữ liệu lớn thường đòi hỏi thăm dò, xử lý và sàng lọc dữ liệu nhiều lần.

Cuối cùng, việc xác định 12 trang web hàng đầu có thể làm cho bạn muốn tìm hiểu về số lượng các bài đăng cho mỗi trang chủ URL. Hãy gói ví dụ này bằng cách thực hiện một cách tiếp cận dễ dàng để có được thông tin đó:

  1. Nếu cần, mở bộ sưu tập và chỉnh sửa nó.
  2. Nhấn vào Add Sheet > Pivot. Đặt tên cho trang bảng tính này là "Pivot" (Trụ), xác định trang bảng tính của các máy chủ URL làm trang bảng tính đầu vào và chọn URLHOST làm cột trụ. Xem Hình 20.
    Hình 20. Tạo một trang bảng tính Pivot để chứa dữ liệu tổng hợp
    Hình ảnh hiển thị Pivot
  3. Nhấn vào ngăn Calculate (Tính toán) ở dưới cùng của trình đơn này. Chỉ rõ tên của một cột mới để chứa dữ liệu tổng hợp (ví dụ, CountURLHOST) và nhấn chuột vào dấu cộng (+). Đối với giá trị của cột mới, hãy chọn COUNT (Đếm) và xác định URLHOST làm cột đích cho hoạt động đếm. (Xem Hình 21).
    Hình 21. Xác định các tham số tính toán ban đầu cho trang bảng tính Pivot mới của bạn
    Hình ảnh hiển thị các tham số tính toán Pivot đầu tiên
  4. Trong khi vẫn còn trên ngăn Calculate, hãy tạo một cột khác tên là MergeURL để chứa danh sách sát nhập của các URL đầy đủ có liên kết với các giá trị URLHOST trong cột đầu tiên của bộ sưu tập của bạn. Một danh sách như vậy có thể có ích sau này. Để tạo ra danh sách này và đưa nó vào làm một cột mới trong bộ sưu tập kết quả, hãy nhấn chuột vào dấu cộng, chọn MERGE (Sát nhập) cho giá trị cột mới, Url là cột đích và một dấu phẩy (,) là dấu phân cách trường. Hãy kiểm tra xem đặc tính tính toán của bạn có xuất hiện như Hình 22 không và áp dụng hoạt động này.
    Hình 22. Thêm một phép tính thứ hai vào trang bảng tính Pivot của bạn
    Hình ảnh hiển thị các tham số tính toán Pivot cuối cùng
  5. Nếu muốn, hãy sắp xếp các giá trị trong cột tổng hợp (CountURLHOST) theo thứ tự giảm dần.
  6. Lưu và thoát khỏi bộ sưu tập, sau đó chạy nó. Duyệt qua các kết quả, một tập hợp con trong số đó được hiển thị trong Hình 23.
    Hình 23. Kiểm tra dữ liệu tổng hợp có chứa trong một trang bảng tính Pivot
    Hình ảnh hiển thị dữ liệu được gộp chung vào một khung nhìn Pivot

Mối tương quan giữa các nỗ lực tiếp cận môi trường truyền thông nội bộ với tin tức bên ngoài

Cho đến bây giờ, công việc BigSheets của chúng tôi đã chỉ đòi hỏi dữ liệu được thu thập từ các trang web bên ngoài. Tuy nhiên, nhiều dự án dữ liệu lớn yêu cầu kết hợp dữ liệu bên ngoài với dữ liệu nội bộ của công ty, chẳng hạn như dữ liệu trong một DBMS quan hệ. Trong phần này, bạn sẽ sử dụng BigSheets để nối hai bộ sưu tập: một bộ sưu tập mô hình hóa dữ liệu môi trường truyền thông xã hội và một bộ sưu tập mô hình hóa dữ liệu quan hệ. Bằng cách nối hai bộ sưu tập này, bạn sẽ có thể tìm hiểu xem các nỗ lực tiếp cận môi trường truyền thông công ty tương quan như thế nào đến việc đưa tin của các trang web của bên thứ ba. Lưu ý rằng dữ liệu quan hệ ví dụ mẫu mà chúng tôi cung cấp là một tệp CSV cho bài này có chứa thông tin mô phỏng về các liên hệ của môi trường truyền thông IBM. Dưới đây là cách nối các bộ sưu tập và hiển thị trực quan các kết quả:

  1. Mở bộ sưu tập Watson_news_blogs và xây dựng một bộ sưu tập mới.
  2. Thêm một trang bảng tính bằng cách sử dụng macro URLHOST để trích ra thông tin tên máy chủ. Giữ lại tất cả các cột hiện tại và đặt tên cho trang bảng tính này là URLHOST.
  3. Thêm một trang bảng tính để nạp bộ sưu tập Media_Contacts mà bạn đã xây dựng trước đó dựa trên dữ liệu RDBMS nhập khẩu. (Bạn đã tạo ra bộ sưu tập này ở Bước 2.) Đặt tên cho trang bảng tính mới này là Contacts (Liên hệ).
  4. Đổi tên cột cuối cùng của trang bảng tính Contacts thành LastContact. (Cột này đã được tạo ra bằng cách gọi hàm SQL TIMESTAMP() dựa vào dữ liệu RDBMS ban đầu. Các giá trị của nó cho biết khi nào môi trường truyền thông đích được liên hệ lần cuối).
  5. Thêm một trang bảng tính khác để kết hợp các trang bảng tính URLHOST và Contacts dựa trên các giá trị của các cột URLHOST và URL, tương ứng (xem Hình 24). Đặt tên cho trang bảng tính mới này là Combine (Kết hợp).
    Hình 24. Kết hợp (nối) dữ liệu từ hai trang bảng tính
    Hình ảnh hiển thị việc kết hợp hai tờ bảng tính
  6. Để việc kiểm tra các kết quả trở nên dễ dàng hơn, hãy xóa cột ID và URL có nguồn gốc từ trang bảng tính Media_Contacts. Tổ chức lại các cột còn lại để cho chúng xuất hiện theo một thứ tự trực quan hơn, chẳng hạn như URLHOST, NAME, Published, LastContact, FeedInfo, Country, Language, SubjectHtml, Tags, Type, Url.
  7. Lưu bộ sưu tập và chạy nó. Đọc lướt qua các kết quả hoặc vẽ biểu đồ (nếu muốn) để đánh giá khối lượng các bài đăng cho mỗi trang web của môi trường truyền thông đích. (Hình 25 mô tả một biểu đồ thanh ngang tóm tắt dữ liệu này).
    Hình 25. Đánh giá số lượng các bài đăng về IBM Watson ở các trang khác nhau
    Hình ảnh hiển thị biểu đồ thanh ngang

Xuất ra bộ sưu tập của bạn

Trong một số trường hợp, các kết quả phân tích BigSheets của bạn có thể có ích cho các ứng dụng bên dưới hoặc giúp ích cho đồng nghiệp, những người không được ủy quyền làm việc trực tiếp với BigInsights. May mắn thay, thật dễ xuất ra một hoặc nhiều bộ sưu tập của bạn thành các định dạng dữ liệu phổ biến. Chỉ cần mở bộ sưu tập đích và sử dụng chức năng Export As (Xuất khẩu là) (ở bên trái của nút ấn Run) và chọn JSON, CSV, ATOM, RSS hoặc HTML làm định dạng đích. Các kết quả sẽ được hiển thị trong trình duyệt của bạn và bạn có thể lưu kết quả vào hệ thống tệp cục bộ của mình.


Xem qua các vấn đề ngoài các vấn đề cơ bản

Bây giờ, bạn có vài ý tưởng về những gì mà BigSheets có thể làm. Hy vọng rằng, bạn đã thấy các macro, các hàm và các toán tử dựng sẵn cho phép bạn tìm hiểu, chuyển đổi và phân tích các dạng dữ liệu lớn khác nhau như thế nào mà không cần viết mã theo ngôn ngữ Java™ hoặc ngôn ngữ tạo kịch bản lệnh.

Trong khi chúng tôi giữ cho kịch bản của mình đơn giản để giúp bạn để tăng tốc độ nhanh chóng dựa trên các vấn đề cơ bản của BigSheets, công nghệ này — và các công nghệ BigInsights bổ sung — còn nhiều thứ hơn những thứ mà chúng tôi có thể trình bày trong một bài viết giới thiệu. Ví dụ, nhiều dự án phân tích môi trường truyền thông xã hội đòi hỏi phải đi sâu vào nội dung của các bài đăng để đánh giá tâm lý, phân loại nội dung, loại bỏ những đánh giá sai, v.v. Những nỗ lực này yêu cầu trích ra bối cảnh từ dữ liệu văn bản, một khả năng được cung cấp thông qua các thành phần khác của BigInsights, sẽ là đề tài của một bài viết trong tương lai. May mắn thay, các khả năng phân tích văn bản như vậy có thể được kết hợp với BigSheets thông qua các trình cắm thêm tùy chỉnh.

Ngoài ra, các nhiệm vụ phân tích nào đó có thể yêu cầu một ngôn ngữ truy vấn dễ dàng thể hiện các điều kiện khác nhau, xử lý và chuyển đổi cấu trúc dữ liệu lồng nhau, áp dụng các cấu kiện logic điều kiện phức tạp, v.v. Thật vậy, BigInsights bao gồm Jaql, một ngôn ngữ truy vấn dựa trên-JSON, mà các lập trình viên thường sử dụng để đọc và chuẩn bị dữ liệu cho việc phân tích tiếp theo trong BigSheets. Một bài báo trong tương lai sẽ tìm hiểu Jaql.


Tóm tắt

Bài này khám phá cách BigInsights cho phép các nhà phân tích kinh doanh làm việc với dữ liệu lớn mà không cần viết mã hoặc các kịch bản lệnh. Đặc biệt, nó đã giới thiệu hai ứng dụng ví dụ mẫu để thu thập dữ liệu môi trường truyền thông xã hội và dữ liệu RDBMS và giải thích làm thế nào mà các nhà phân tích có thể mô hình hóa, thao tác, phân tích, kết hợp và hiển thị trực quan dữ liệu này bằng cách sử dụng BigSheets, một công cụ kiểu bảng tính được thiết kế dành cho các nhà phân tích kinh doanh. Để giữ cho mọi thứ đơn giản, bài này đã tìm hiểu một tập hợp con các toán tử và các hàm của BigSheets, tập trung vào những thứ nào có liên quan nhiều nhất đến kịch bản ứng dụng ví dụ mẫu của chúng tôi liên quan đến việc đưa tin về IBM Watson, một dự án nghiên cứu sử dụng Apache Hadoop để thực hiện các phân tích phức tạp nhằm trả lời các câu hỏi được trình bày theo một ngôn ngữ tự nhiên.

Nếu bạn đã sẵn sàng bắt đầu với một dự án dữ liệu lớn, hãy xem phần Tài nguyên để có các liên kết đến các bản tải về phần mềm, kiến thức trực tuyến và các tài liệu khác liên quan đến BigInsights.

Lời cảm ơn

Đặc biệt cảm ơn Stephen Dodd, phó chủ tịch của Effyis Inc., về ủy quyền cho chúng tôi tạo ra dữ liệu kết quả BoardReader ví dụ mẫu có sẵn để tải về với bài viết này. Cũng xin cảm ơn Diana Pupons-Wickham và Gary Robinson của IBM đã xem qua bài viết này.


Tải về

Mô tảTênKích thước
Sample social media data and relational datasampleData.zip1030KB

Tài nguyên

Học tập

Lấy sản phẩm và công nghệ

  • Hãy dùng thử một bản sao đánh giá của IBM InfoSphere BigInsights Basic Edition (Ấn bản cơ sở về InfoSphere BigInsights của IBM).
  • Xây dựng dự án phát triển tiếp theo của bạn bằng phần mềm dùng thử của IBM, có sẵn để tải trực tiếp từ developerWorks.
  • Bây giờ bạn có thể sử dụng DB2 miễn phí. Hãy tải về DB2 Express-C, một phiên bản miễn phí của Ấn bản DB2 Express cho cộng đồng, cung cấp các tính năng dữ liệu cốt lõi như Ấn bản DB2 Express và cung cấp một cơ sở vững chắc để xây dựng và triển khai các ứng dụng.

Thảo luận

Bình luận

developerWorks: Đăng nhập

Các trường được đánh dấu hoa thị là bắt buộc (*).


Bạn cần một ID của IBM?
Bạn quên định danh?


Bạn quên mật khẩu?
Đổi mật khẩu

Bằng việc nhấn Gửi, bạn đã đồng ý với các điều khoản sử dụng developerWorks Điều khoản sử dụng.

 


Ở lần bạn đăng nhập đầu tiên vào trang developerWorks, một hồ sơ cá nhân của bạn được tạo ra. Thông tin trong bản hồ sơ này (tên bạn, nước/vùng lãnh thổ, và tên cơ quan) sẽ được trưng ra cho mọi người và sẽ đi cùng các nội dung mà bạn đăng, trừ khi bạn chọn việc ẩn tên cơ quan của bạn. Bạn có thể cập nhật tài khoản trên trang IBM bất cứ khi nào.

Thông tin gửi đi được đảm bảo an toàn.

Chọn tên hiển thị của bạn



Lần đầu tiên bạn đăng nhập vào trang developerWorks, một bản trích ngang được tạo ra cho bạn, bạn cần phải chọn một tên để hiển thị. Tên hiển thị của bạn sẽ đi kèm theo các nội dung mà bạn đăng tải trên developerWorks.

Tên hiển thị cần có từ 3 đến 30 ký tự. Tên xuất hiện của bạn phải là duy nhất trên trang Cộng đồng developerWorks và vì lí do an ninh nó không phải là địa chỉ email của bạn.

Các trường được đánh dấu hoa thị là bắt buộc (*).

(Tên hiển thị cần có từ 3 đến 30 ký tự)

Bằng việc nhấn Gửi, bạn đã đồng ý với các điều khoản sử dụng developerWorks Điều khoản sử dụng.

 


Thông tin gửi đi được đảm bảo an toàn.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=70
Zone=Information Management
ArticleID=858499
ArticleTitle=Phân tích dữ liệu môi trường truyền thông xã hội và dữ liệu có cấu trúc với BigInsights InfoSphere
publish-date=02192013