Sử dụng các ngôn ngữ như-SQL với khung công tác MapReduce

Làm cho Hadoop dễ truy cập hơn bằng các giao diện khai báo bậc cao

Hãy chọn triển khai khung công tác MapReduce phù hợp nhất cho các công việc phân tích dữ liệu quy mô lớn dựa vào các kỹ năng, các sở thích và các yêu cầu của bạn. Khung công tác MapReduce là một mô hình lập trình đơn giản và mạnh mẽ, cho phép phát triển dễ dàng các ứng dụng song song có khả năng mở rộng để xử lý khối lượng dữ liệu rất lớn trên các cụm máy tính thương mại lớn. Nó tách ứng dụng ra khỏi các chi tiết về chạy một chương trình phân tán. Tuy nhiên, nhiều nhà lập trình chưa quen với phong cách lập trình MapReduce và thích sử dụng một ngôn ngữ "như-SQL" để thực hiện các nhiệm vụ của mình. Trong bài này, hãy xem một tổng quan về các ngôn ngữ và các hệ thống bậc cao được thiết kế để giải quyết những vấn đề này và thêm các giao diện khai báo trên đỉnh của khung công tác MapReduce.

Sherif Sakr, Nhà nghiên cứu khoa học, National ICT Australia

Tiến sĩ Sherif Sakr là một nhà nghiên cứu khoa học trong Tập đoàn các Hệ thống phần mềm tại National ICT Australia (NICTA), Sydney, Úc. Ông cũng là một giảng viên kiêm nhiệm tại Trường Khoa học và Kỹ thuật Máy tính (CSE) ở trường Đại học New South Wales (UNSW). Ông đã nhận bằng tiến sĩ Khoa học Máy tính của trường Đại học Konstanz, Đức vào năm 2007. Ông đã nhận bằng Cử nhân và bằng Thạc sĩ Khoa học máy tính của mình từ phòng Hệ thống thông tin tại Khoa Thông tin và Máy tính của trường Đại học Cairo, Ai Cập, tương ứng, năm 2000 và 2003. Năm 2011, Tiến sĩ Sakr đã giữ chức vụ nhà nghiên cứu khoa học thỉnh giảng tại Tập đoàn điện toán eXtreme (XCG) tại Microsoft Research, Redmond, Mỹ. Tiến sĩ Sakr là một nhà phát triển có chứng chỉ Cloudera về Apache Hadoop.



05 10 2012

Giới thiệu

Trong hai thập kỷ vừa qua, sự gia tăng ổn định về công suất tính toán đã tạo ra một luồng dữ liệu rộng lớn, mà dần dần đã dẫn đến một sự thay đổi hình mẫu trong kiến trúc điện toán và các cơ chế xử lý dữ liệu quy mô lớn. Ví dụ, các kính viễn vọng mạnh mẽ trong thiên văn học, các máy gia tốc hạt trong vật lý và các bộ gen trong sinh học trao khối dữ liệu khổng lồ vào tay các nhà khoa học. Facebook thu thập 15 terabyte dữ liệu mỗi ngày vào một kho dữ liệu quy mô Petabyte. Nhu cầu về khai phá dữ liệu quy mô lớn và các ứng dụng phân tích dữ liệu ngày càng tăng trong cả ngành công nghiệp phần mềm (ví dụ, phân tích dữ liệu web, phân tích luồng nhấn chuột và phân tích bản ghi nhật ký giám sát-mạng) lẫn các ngành khoa học (ví dụ, phân tích dữ liệu do các bộ mô phỏng quy mô rất lớn tạo ra, triển khai bộ cảm biến và thiết bị phòng thí nghiệm có thông lượng cao). Mặc dù các hệ thống cơ sở dữ liệu song song có lợi cho một số các ứng dụng phân tích dữ liệu này, nhưng chúng rất đắt tiền, khó quản lý và thiếu khả năng chịu lỗi với các truy vấn chạy lâu dài.

MapReduce là một khung công tác được Google giới thiệu cho việc lập trình các cụm máy tính thương mại để thực hiện xử lý dữ liệu quy mô lớn trong một lần chạy. Khung công tác này được thiết kế theo cách mà một cụm MapReduce có thể mở rộng đến hàng ngàn các nút về mặt khả năng chịu lỗi. Nhưng mô hình lập trình MapReduce có những hạn chế riêng của mình. Luồng dữ liệu một đầu vào và hai tầng của nó vô cùng cứng nhắc, ngoài thực tế là nó ở bậc rất thấp. Ví dụ, bạn phải viết mã tùy chỉnh cho ngay cả những hoạt động phổ biến nhất. Do đó, nhiều nhà lập trình cảm thấy khó chịu với khung công tác MapReduce và thích sử dụng SQL như một ngôn ngữ khai báo bậc cao. Một số dự án (Apache Pig, Apache Hive và HadoopDB) đã được phát triển để giảm bớt nhiệm vụ của các nhà lập trình và cung cấp các giao diện khai báo mức cao trên đỉnh của khung công tác MapReduce.

Trước hết hay xem xét khung công tác MapReduce và sau đó xem xét các khả năng của các hệ thống khác nhau cung cấp các giao diện bậc cao cho khung công tác MapReduce.


Khung công tác MapReduce

Một lợi thế chính về cách tiếp cận của khung công tác MapReduce là ở chỗ nó tách các ứng dụng ra khỏi các chi tiết về chạy một chương trình phân tán, chẳng hạn như các vấn đề về phân phối dữ liệu, lập lịch biểu và khả năng chịu lỗi. Trong mô hình này, việc tính toán lấy một tập các cặp giá trị/khóa đầu vào và tạo ra một tập các cặp giá trị/khóa đầu ra. Người dùng khung công tác MapReduce biểu thị tính toán này bằng cách sử dụng hai hàm: Map (Ánh xạ) và Reduce (Giảm). Hàm Map lấy một cặp đầu vào và tạo ra một tập các cặp giá trị/khóa trung gian. Khung công tác MapReduce nhóm lại với nhau tất cả các giá trị trung gian gắn liền với khóa trung gian giống nhau I (luôn thay đổi) và chuyển chúng cho hàm Reduce. Hàm reduce nhận một khóa trung gian I với tập các giá trị của nó và kết hợp chúng lại với nhau. Thông thường, chỉ có giá trị đầu ra không hoặc một được tạo ra cho mỗi lần gọi hàm reduce. Lợi thế chính của mô hình này là ở chỗ nó cho phép các tính toán lớn được song song hóa và được thực hiện lại dễ dàng để sử dụng nó như là cơ chế chính về khả năng chịu lỗi.

Dự án Hadoop của Apache (Apache Hadoop) là phần mềm Java™ nguồn mở hỗ trợ các ứng dụng phân tán chuyên về dữ liệu bằng cách thực hiện việc triển khai khung công tác MapReduce. Ban đầu nó được Yahoo! phát triển như một bản sao của cơ sở hạ tầng MapReduce của Google nhưng sau đó đã trở thành nguồn mở. Hadoop quan tâm đến việc chạy mã của bạn trên một cụm các máy tính. Nói chung, khi một tập dữ liệu lớn hơn dung lượng lưu trữ của một máy tính vật lý đơn lẻ, việc phân vùng nó trên một số máy tính riêng biệt trở nên cần thiết. Các hệ thống tệp quản lý lưu trữ trên một mạng các máy tính được gọi là các hệ thống tệp phân tán. Hadoop đi kèm với một hệ thống tệp phân tán được gọi là HDFS (Hệ thống tệp phân tán Hadoop). Cụ thể là, HDFS là một hệ thống tệp phân tán lưu trữ các tệp trên tất cả các nút trong một cụm Hadoop. Nó chia tách các tệp thành các khối lớn và phân phối chúng trên các máy tính khác nhau, cộng với việc tạo nhiều bản sao của mỗi khối sao cho nếu có một máy tính bị hỏng, thì không có dữ liệu nào bị mất.

Chương trình MapReduce trong Liệt kê 1 được biểu diễn bằng mã-giả (pseudo-code) để đếm số các lần xuất hiện của mỗi từ trong một chuỗi các dòng văn bản. Trong Liệt kê 1, hàm map phát ra mỗi từ cộng với một dấu hiệu liên quan của các lần xuất hiện trong khi hàm reduce cộng tất cả các dấu hiệu đã phát ra với một từ cụ thể.

Liệt kê 1. Chương trình MapReduce
     map(String key, String value):
     //key: line number, value: line text
     for each word w in value:
          EmitIntermediate(w, ?1?);

     reduce(String key, Iterator values):
          //key: a word, values: a list of counts
     int wordCount = 0;
     for each v in values:
          wordCount += ParseInt(v);
     Emit(AsString(wordCount));

Bây giờ giả sử chuỗi đầu vào của dòng văn bản trong Liệt kê 2.

Liệt kê 2. Chuỗi đầu vào
1, This is Code Example 
2, Example Color is Red 
3, Car Color is Green

Liệt kê 3 cho thấy kết quả đầu ra của hàm map của đầu vào này.

Liệt kê 3. Kết quả đầu ra của hàm map
 ('This', 1), ('is', 1). ('Code', 1), ('Example', 1) 
 ('Example', 1), ('Color', 1), ('is', 1), ('Red', 1) 
 ('Car', 1), ('Color', 1), ('is', 1), ('Green', 1)

Liệt kê 4 cho thấy kết quả đầu ra của hàm reduce (kết quả).

Liệt kê 4. Kết quả đầu ra của hàm reduce
('Car', 1), ('Code', 1), ('Color', 2), ('Example', 2), ('Green', 1), ('Red', 1)
 , ('This', 1), ('is', 3)

Với các nhà lập trình, một tính năng quan trọng của khung công tác MapReduce là chỉ có hai nguyên hàm khai báo bậc cao (là mapreduce) có thể được viết bằng bất kỳ ngôn ngữ lập trình nào được chọn mà không cần lo lắng về các chi tiết thực hiện song song của chúng. Mặt khác, mô hình lập trình MapReduce có những hạn chế riêng của mình:

  1. Luồng dữ liệu một đầu vào và hai tầng của nó vô cùng cứng nhắc. Để thực hiện các nhiệm vụ có một luồng dữ liệu khác nhau (ví dụ, các phép nối hoặc n giai đoạn), bạn phải nghĩ ra các cách giải quyết không nhàm chán khác.
  2. Mã tùy chỉnh được viết cho ngay cả những hoạt động phổ biến nhất (ví dụ, phép chiếu và lọc), dẫn đến mã thường khó sử dụng lại và bảo trì.
  3. Tính chất không trong suốt của các hàm mapreduce cản trở khả năng của hệ thống để thực hiện các tối ưu hóa.

Hơn nữa, nhiều nhà lập trình chưa quen với khung công tác MapReduce và thích sử dụng SQL (vì họ thành thạo hơn về nó) như là một ngôn ngữ khai báo bậc cao để biểu thị nhiệm vụ của họ trong khi để lại tất cả các chi tiết tối ưu hóa thực hiện cho các công cụ phụ trợ. Ngoài ra, cũng đúng là các sự trừu tượng hóa của ngôn ngữ bậc cao cho phép hệ thống bên dưới thực hiện tốt hơn các tối ưu hóa tự động.

Hãy xem xét các ngôn ngữ và các hệ thống được thiết kế để giải quyết các vấn đề này và thêm hương vị SQL trên đỉnh của khung công tác MapReduce.


Pig

Dự án Pig của Apache (Apache Pig) được thiết kế như một công cụ để thực hiện các luồng dữ liệu song song trên Hadoop. Nó sử dụng một ngôn ngữ, được gọi là Pig Latin để biểu diễn các luồng dữ liệu này. Với Pig Latin, bạn có thể mô tả cách dữ liệu từ một hoặc nhiều đầu vào cần đọc, xử lý và sau đó lưu trữ tới một hoặc nhiều đầu ra song song. Ngôn ngữ này lấy một vị trí trung gian giữa việc biểu diễn các nhiệm vụ khi sử dụng mô hình truy vấn khai báo bậc cao theo cách của SQL và lập trình theo thủ tục/bậc thấp khi sử dụng MapReduce. Các luồng dữ liệu Pig Latin có thể là các luồng tuyến tính đơn giản, nhưng cũng có thể là các luồng công việc phức tạp gồm nhiều điểm nối đến nhiều đầu vào và phân chia dữ liệu thành nhiều luồng để được xử lý bằng các toán tử khác nhau.

Một chương trình Pig Latin gồm có một loạt các hoạt động hoặc các phép chuyển đổi, được áp dụng cho dữ liệu đầu vào để tạo ra kết quả đầu ra. Nói chung, các hoạt động mô tả một luồng dữ liệu mà môi trường thực hiện của Pig chuyển nó thành một biểu diễn có thể thực hiện được và sau đó được thực hiện. Ở dưới các vỏ bọc này, Pig chuyển các phép chuyển đổi thành một loạt các công việc MapReduce.

Với Pig, các cấu trúc dữ liệu phong phú hơn nhiều, thường là nhiều giá trị và lồng nhau; và bộ các phép chuyển đổi, mà bạn có thể áp dụng cho các dữ liệu, mạnh hơn rất nhiều. Cụ thể là, mô hình dữ liệu Pig Latin gồm bốn kiểu sau:

  1. Atom (Nguyên tử) là một giá trị nguyên tử đơn giản như là một chuỗi hoặc một số, ví dụ, "John".
  2. Tuple (Bộ dữ liệu) là một chuỗi các trường, mỗi trường có thể là bất kỳ kiểu dữ liệu nào, ví dụ, ("John", "Melbourne").
  3. Bag (Túi) là một bộ sưu tập về các bộ dữ liệu với các bản sao có thể. Lược đồ của các bộ dữ liệu hợp thành rất linh hoạt ở đó không phải tất cả các bộ dữ liệu trong một túi cần phải có cùng số lượng và kiểu trường giống nhau. Túi trong Hình 1 liệt kê hai bộ dữ liệu : ("John","Melbourne") và "Alice",("UNSW" "Sydney").
    Hình 1. Một Túi (Bag)
    Một Túi mẫu có hai bộ dữ liệu
  4. Map (Ánh xạ) là một bộ sưu tập về các mục dữ liệu, nơi mà mỗi mục có một mã khóa liên kết mà có thể tìm kiếm mục này thông qua khóa đó. Như với các túi, lược đồ của các mục dữ liệu hợp thành rất linh hoạt, tuy nhiên, các khóa được yêu cầu là các nguyên tử dữ liệu > Map trong Hình 2 liệt kê các mục dữ liệu: K1-->("John","Melbourne") và K2-->30.
    Hình 2. Một ánh xạ (Map)
    Một Ánh xạ mẫu có hai mục dữ liệu

Pig Latin gồm các toán tử cho nhiều hoạt động dữ liệu truyền thống (join, sort, filter, group by, union, và v.v..), cũng như khả năng cho những người dùng phát triển các hàm riêng của họ để đọc, xử lý và ghi dữ liệu.

MapReduce cung cấp hoạt động group by (nhóm bởi) trực tiếp (về cơ bản trong đó là sự sắp xếp cộng với các giai đoạn giảm) và nó cung cấp hoạt động order by (sắp xếp bởi) gián tiếp thông qua cách mà nó thực hiện tạo nhóm. Bộ lọc và phép chiếu có thể được thực hiện không đáng kể trong giai đoạn ánh xạ. Tuy nhiên, các toán tử khác, đặc biệt là phép nối, không được cung cấp và thay vào đó phải do người dùng viết ra. Pig cung cấp một số cách thực hiện quan trọng, phức tạp về các hoạt động dữ liệu tiêu chuẩn. Ví dụ, vì số các bản ghi cho mỗi khóa trong một bộ dữ liệu hiếm khi được phân bố đều, nên dữ liệu được gửi đến các bộ giảm (reducer) thường bị sai lệch. Đó là, một bộ giảm sẽ nhận được dữ liệu nhiều hơn gấp 10 lần hoặc lớn hơn nữa so với các bộ giảm khác. Pig có các toán tử join và order by sẽ xử lý trường hợp này và (trong một số trường hợp) cân bằng lại các bộ giảm. Bảng 1 mô tả các toán tử chính của ngôn ngữ Pig Latin.

Trong MapReduce, việc xử lý dữ liệu bên trong giai đoạn ánh xạ và giảm là không trong suốt với một hệ thống. Điều này có nghĩa là MapReduce không có cơ hội để tối ưu hóa hoặc kiểm tra mã của người dùng. Trái lại, Pig có thể phân tích một kịch bản lệnh Pig Latin và hiểu luồng dữ liệu mà người dùng đang mô tả. MapReduce không có một hệ thống kiểu. Đây là cố ý và nó mang lại cho người dùng sự linh hoạt để sử dụng các kiểu dữ liệu và khung công tác tuần tự riêng của họ. Nhưng nhược điểm là ở chỗ điều này hạn chế nhiều hơn khả năng của hệ thống trong việc kiểm tra mã của người dùng với các lỗi xảy ra trước và trong thời gian chạy. Tất cả những điểm này có nghĩa là Pig Latin có chi phí viết và bảo trì mã thấp hơn nhiều so với mã Java dùng cho MapReduce.

Bảng 1. Các toán tử chính của ngôn ngữ Pig Latin
Toán tửMô tả
LOADTải dữ liệu từ hệ thống tệp hoặc thiết bị lưu trữ khác vào một quan hệ
DUMPIn một quan hệ tới giao diện điều khiển hệ thống FILTER
DISTINCTLoại bỏ các hàng trùng lặp khỏi một quan hệ
FOREACH ... GENERATEThêm hoặc loại bỏ các trường khỏi một quan hệ
JOINNối hai hoặc nhiều quan hệ
ORDERSắp xếp một quan hệ theo một hoặc nhiều trường
LIMITHạn chế kích cỡ của một quan hệ đến một số lượng các bộ dữ liệu tối đa
STORELưu một quan hệ vào hệ thống tệp hoặc thiết bị lưu trữ khác
FILTERLoại bỏ các hàng không mong muốn khỏi một quan hệ
GROUPNhóm dữ liệu vào một quan hệ duy nhất
CROSSTạo ra sản phẩm giao cắt qua hai hoặc nhiều quan hệ
UNIONKết hợp hai hoặc nhiều quan hệ vào một quan hệ
SPLITChia tách một quan hệ thành hai hoặc nhiều quan hệ

Liệt kê 5 cho thấy một chương trình Pig Latin đơn giản để tìm tất cả các nhân viên có mức lương cao.

Liệt kê 5. Tìm tất cả các nhân viên có mức lương cao
employees = LOAD 'employee.txt' AS (id, name, salary);
highSalary = FILTER employees BY salary > 100000;
sortedList = ORDER highSalary BY salary DESC;
STORE sortedList INTO ' highSalary _Emp';
DUMP sortedList;

Trong ví dụ này, trước tiên tải tệp đầu vào vào một túi (bag) có tên là employees (các nhân viên). Sau đó, tạo ra một túi mới được gọi là highSalary (lương cao), trong đó có các bản ghi nào có trường tiền lương lớn hơn 100.000. Túi SortedList cung cấp các bản ghi đã lọc dựa vào giá trị tiền lương theo một thứ tự giảm dần. Cuối cùng, viết các nội dung của túi SortedList vào HDFS và in nội dung túi đó trên màn hình.

Liệt kê 6 cho thấy cách mô tả dễ dàng các hoạt động nối join bằng cách sử dụng Pig Latin.

Liệt kê 6. các hoạt động nối join có thể dễ dàng được mô tả bằng cách sử dụng Pig Latin
employees = LOAD 'employee.txt' AS (id, name, salary, dept);
departments = LOAD 'dept.txt' AS (deptID, deptName);
joinList = JOIN employees BY dept, departments BY deptID; 
STORE joinList INTO ' joinFile';

Theo truyền thống, các truy vấn đặc biệt được thực hiện bằng các ngôn ngữ chẳng hạn như SQL giúp dễ dàng tạo nhanh một câu hỏi cho dữ liệu cần trả lời. Để nghiên cứu dữ liệu thô, một số người dùng thích Pig Latin hơn. Vì Pig có thể hoạt động trong tình huống ở đó giản đồ không rõ, không đầy đủ hoặc không phù hợp và bởi vì nó có thể dễ dàng quản lý dữ liệu lồng nhau, các nhà nghiên cứu, những người muốn tiếp tục làm việc với dữ liệu trước khi nó bị xóa và được tải vào kho dữ liệu, thường thích Pig hơn. Các nhà nghiên cứu làm việc với các bộ dữ liệu lớn thường sử dụng ngôn ngữ tạo kịch bản lệnh như Perl hoặc Python để thực hiện việc xử lý của họ. Những người dùng với các nền tảng này thường thích mô hình luồng dữ liệu của Pig trên mô hình truy vấn khai báo của SQL.


Hive

Dự án Hive của Apache (Apache Hive) là một giải pháp kho dữ liệu nguồn mở được Nhóm Cơ sở hạ tầng dữ liệu của Facebook xây dựng trên đỉnh của môi trường Hadoop. Mục tiêu chính của dự án này là mang đến các khái niệm cơ sở dữ liệu quan hệ quen thuộc (ví dụ, các bảng, các cột, các phân vùng) và một tập con của SQL cho thế giới không cấu trúc của Hadoop, trong khi vẫn duy trì tính mở rộng và tính linh hoạt mà Hadoop đã có được. Vì vậy, nó hỗ trợ tất cả các kiểu nguyên thủy chính (ví dụ, số nguyên, các float, các chuỗi) cũng như các kiểu phức tạp (ví dụ, các ánh xạ, các danh sách, các cấu trúc). Hive hỗ trợ các truy vấn được thể hiện theo một ngôn ngữ khai báo giống như SQL, là HiveQL (Hive Query Language – Ngôn ngữ truy vấn Tổ ong) và do đó bất cứ ai đã quen thuộc với SQL đều có thể hiểu dễ dàng. Các truy vấn này tự động biên dịch thành các công việc MapReduce được thực hiện bằng cách sử dụng Hadoop. Ngoài ra, HiveQL cho phép những người dùng kết hợp các kịch bản lệnh MapReduce tùy chỉnh vào các truy vấn.

HiveQL hỗ trợ các câu lệnh của DDL (Data Definition Language - Ngôn ngữ định nghĩa dữ liệu), mà bạn có thể sử dụng để tạo, xóa và thay đổi các bảng trong cơ sở dữ liệu. Nó cho phép những người dùng tải dữ liệu từ các nguồn bên ngoài và chèn các kết quả truy vấn vào các bảng Hive thông qua việc tải và chèn các câu lệnh DML (Data Manipulation Language - Ngôn ngữ xử lý dữ liệu), tương ứng. Tuy nhiên, HiveQL hiện không hỗ trợ cập nhật và xóa các hàng trong các bảng hiện có (cụ thể là các câu lệnh INSERT INTO, UPDATEDELETE), mà chúng cho phép sử dụng các cơ chế rất đơn giản để giải quyết các hoạt động đọc và viết đồng thời mà không cần thực hiện các giao thức tạo khóa phức tạp. Các thành phần của siêu kho lưu trữ (metastore) là danh mục hệ thống của Hive, lưu trữ siêu dữ liệu về các bảng bên dưới. Siêu dữ liệu này được quy định trong quá trình tạo bảng và được sử dụng lại mỗi khi tham khảo bảng đó trong HiveQL. Siêu kho dữ liệu phân biệt Hive như một giải pháp kho dữ liệu truyền thống khi được so sánh với các hệ thống xử lý dữ liệu tương tự được xây dựng trên đỉnh của kiến trúc giống-MapReduce như Pig Latin.

Liệt kê 7 cho thấy các ví dụ về các câu lệnh HiveQL đang mô tả các hoạt động để tạo một bảng, nạp dữ liệu và truy vấn các nội dung của bảng đó.

Liệt kê 7. Các câu lệnh HiveQL đang mô tả các hoạt động để tạo ra một bảng, tải dữ liệu và truy vấn các nội dung của bảng đó
CREATE TABLE employee (empID INT, name STRING, salary BIGINT)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE;
LOAD DATA INPATH "employee_data" INTO TABLE employee;
SELECT * FROM employee WHERE salary > 100000 SORT BY salary DESC;

Hive cũng hỗ trợ xử lý dữ liệu thông qua các hàm do người dùng tạo ra (xem Liệt kê 8).

Liệt kê 8. Hive hỗ trợ xử lý dữ liệu thông qua các hàm do người dùng tạo ra
INSERT OVERWRITE TABLE employee
SELECT
TRANSFORM (empID, name, salary, address, department)
USING 'python employee_mapper.py'
AS (empID, name, salary, city)
FROM employee_data;

Nói chung, Hive là một giao diện rất tốt cho bất cứ ai dựa vào thế giới cơ sở dữ liệu quan hệ, mặc dù các chi tiết của việc thực hiện bên dưới không hoàn toàn được ẩn dấu. Bạn vẫn phải lo lắng về một số sự khác biệt trong những thứ như là cách tối ưu nhất để quy định các phép nối cho hiệu năng tốt nhất và một số tính năng ngôn ngữ còn thiếu. Hive cung cấp khả năng để kết hợp mã tùy chỉnh cho các tình huống không khớp với SQL, cũng như rất nhiều công cụ để xử lý đầu vào và đầu ra. Hive bị một số hạn chế như nó thiếu hỗ trợ cho các câu lệnh UPDATE hay DELETE, việc INSERT (chèn) các hàng đơn và các kiểu dữ liệu ngày tháng hoặc thời gian, do chúng được xử lý như các chuỗi.


HadoopDB

Dự án HadoopDB, được công ty Hadapt thương mại hóa, là một hệ thống lai cố gắng kết hợp những lợi thế về khả năng mở rộng của MapReduce với những lợi thế về hiệu năng và hiệu quả của các cơ sở dữ liệu song song. Ý tưởng cơ bản đằng sau HadoopDB là để kết nối nhiều hệ thống cơ sở dữ liệu có nút đơn (PostgreSQL) bằng cách sử dụng Hadoop làm bộ điều phối nhiệm vụ và tầng giao tiếp mạng. Các truy vấn được thể hiện trong SQL, nhưng việc triển khai của chúng được song song hóa trên các nút bằng cách sử dụng khung công tác MapReduce sao cho công việc truy vấn đơn lẻ được mở rộng, càng nhiều càng tốt, vào cơ sở dữ liệu nút tương ứng.

Nói chung, các hệ thống cơ sở dữ liệu thương mại song song đã có sẵn trong gần hai thập kỷ và hiện nay có khoảng một chục các công cụ khác nhau trên thị trường (ví dụ Teradata, Aster Data, Greenplum). Mục đích chính của các hệ thống này là để cải thiện hiệu năng thông qua việc thực hiện song song các hoạt động khác nhau như tải dữ liệu, xây dựng các chỉ mục và đánh giá các truy vấn. Nói chung, một số lý do chủ yếu làm cho MapReduce trở thành một cách tiếp cận được ưa thích hơn trên một RDBMS song song trong một số kịch bản:

  • Định dạng và tải một số lượng dữ liệu rất lớn vào một RDBMS song song kịp thời là một nhiệm vụ đầy thử thách và tốn thời gian.
  • Các bản ghi dữ liệu đầu vào có thể không phải luôn theo cùng một lược đồ. Các nhà phát triển thường cần có sự linh hoạt để thêm và bớt các thuộc tính và việc giải thích một bản ghi dữ liệu đầu vào cũng có thể thay đổi theo thời gian.
  • Việc xử lý dữ liệu quy mô lớn có thể rất tốn thời gian và vì thế điều quan trọng là giữ cho công việc phân tích tiếp diễn ngay cả trong trường hợp hỏng hóc. Trong khi hầu hết các RDBMS song song đều có sự hỗ trợ khả năng chịu lỗi, một truy vấn thường được khởi động lại từ đầu ngay cả khi một nút trong cụm bị hỏng. Ngược lại, MapReduce xử lý hấp dẫn hơn các hỏng hóc và có thể khởi động lại chỉ một phần của tính toán đã bị mất do hỏng hóc này gây ra.

Sự so sánh giữa khung công tác MapReduce và các hệ thống cơ sở dữ liệu song song là một cuộc tranh luận đã có từ lâu rồi. Một sự so sánh quy mô lớn giữa việc thực hiện Hadoop của khung công tác MapReduce và các hệ thống quản lý cơ sở dữ liệu SQL song song về hiệu năng và độ phức tạp phát triển đã được tiến hành. Các kết quả của sự so sánh này cho thấy các hệ thống cơ sở dữ liệu song song đã hiển thị một lợi thế hiệu năng đáng kể so với MapReduce trong việc thực hiện một loạt các nhiệm vụ phân tích tập trung vào dữ liệu. Mặt khác, việc thực hiện Hadoop đã dễ dàng hơn và đơn giản hơn để thiết lập và sử dụng so với các hệ thống cơ sở dữ liệu song song. MapReduce cũng đã cho thấy là có hiệu năng cao hơn trong việc giảm thiểu số lượng công việc bị mất khi xảy ra một lỗi phần cứng. Ngoài ra, MapReduce (với việc triển khai nguồn mở của nó) đại diện cho một giải pháp rất rẻ so với các giải pháp DBMS song song rất tốn kém về mặt tài chính.

Ban đầu, các ứng dụng chính của khung công tác MapReduce đã tập trung vào việc phân tích các bộ dữ liệu không cấu trúc rất lớn như là: tạo chỉ mục web, các phân tích văn bản và khai phá dữ liệu đồ thị. Gần đây, khi MapReduce phát triển vững chắc thành các tiêu chuẩn phân tích dữ liệu trên thực tế, nó được sử dụng liên tục để truy vấn dữ liệu có cấu trúc. Trong một thời gian dài, cơ sở dữ liệu quan hệ đã chi phối các việc triển khai các hệ thống kho dữ liệu và hiệu năng của các công việc phân tích dựa vào dữ liệu có cấu trúc. Sự quan tâm đang tăng lên trong việc kết hợp MapReduce và các hệ thống cơ sở dữ liệu truyền thống để duy trì những lợi ích của cả hai thế giới này. Cụ thể là, HadoopDB cố gắng để đạt được khả năng chịu lỗi và khả năng hoạt động trong môi trường không đồng nhất bằng cách kế thừa việc thực hiện lập lịch biểu và việc thực hiện theo dõi công việc từ Hadoop. Nó cố gắng để đạt được các lợi ích hiệu năng của cơ sở dữ liệu song song bằng cách thực hiện hầu hết việc xử lý truy vấn bên trong công cụ cơ sở dữ liệu.

Hình 3minh họa kiến trúc của HadoopDB gồm có hai tầng: 1) Một tầng lưu trữ dữ liệu hoặc HDFS và 2) Một tầng xử lý dữ liệu hoặc khung công tác MapReduce.

Hình 3. Kiến trúc của HadoopDB
Biểu đồ kiến trúc của HadoopDB

Trong kiến trúc này, HDFS là một hệ thống tệp có cấu trúc-khối do một Name Node (Nút Tên) trung tâm quản lý. Các tệp riêng lẻ được chia thành các khối có kích cỡ cố định và được phân phối trên nhiều Data Node (Nút dữ liệu) trong cụm. Name Node duy trì siêu dữ liệu về kích cỡ và vị trí của các khối cũng như các bản sao của chúng. Khung công tác MapReduce theo một kiến trúc chủ-khách (master-slave) đơn giản. Chủ là một Job Tracker (Bộ theo dõi Công việc) đơn và các khách hoặc các nút công nhân là các Task Tracker (Bộ theo dõi Nhiệm vụ). Job Tracker xử lý lập lịch biểu thời gian chạy của các công việc của MapReduce và duy trì thông tin về mỗi tải của Task Tracker và tài nguyên sẵn có. Database Connector (Các bộ nối cơ sở dữ liệu) là giao diện giữa các hệ thống cơ sở dữ liệu độc lập lưu trữ trên các nút trong cụm và các Task Tracker. Connector (Bộ nối) kết nối tới cơ sở dữ liệu, thực hiện truy vấn SQL và trả về các kết quả là các cặp giá trị-khóa. Thành phần Catalog (Danh mục) duy trì siêu dữ liệu về các cơ sở dữ liệu, vị trí của chúng, các vị trí của bản sao và các đặc tính phân vùng dữ liệu. Thành phần Data Loader (Bộ tải dữ liệu) chịu trách nhiệm về toàn bộ dữ liệu phân vùng lại trên một khóa phân vùng cụ thể khi tải và chia tách dữ liệu nút đơn thành nhiều phân vùng nhỏ hơn hoặc các khối. SMS planner (Bộ lập kế hoạch SMS) mở rộng HiveQL translator (Bộ phiên dịch HiveQL) và chuyển đổi SQL thành các công việc MapReduce kết nối đến các bảng được lưu trữ như các tệp trong HDFS.


Jaql

Jaql là một ngôn ngữ truy vấn được thiết kế cho JSON (JavaScript Object Notation – Ký pháp đối tượng JavaScript), một định dạng dữ liệu phổ biến do tính đơn giản và tính linh hoạt mô hình hóa của nó. JSON là một cách đơn giản nhưng linh hoạt để biểu diễn dữ liệu trải rộng từ dữ liệu bằng phẳng đến dữ liệu XML bán-cấu trúc. Trước tiên, Jaql được sử dụng để phân tích dữ liệu bán cấu trúc quy mô lớn. Nó là một ngôn ngữ truy vấn khai báo, theo chức năng, viết lại các truy vấn bậc cao, khi thích hợp, thành một truy vấn bậc thấp gồm có các công việc Map-Reduce được đánh giá bằng cách sử dụng dự án Apache Hadoop. Các tính năng cốt lõi gồm khả năng mở rộng người dùng và xử lý song song. Jaql có một ngôn ngữ kịch bản lệnh và trình biên dịch, cũng như một thành phần thời gian chạy. Nó có thể xử lý hoặc là không có lược đồ hoặc chỉ có một lược đồ một phần. Tuy nhiên, Jaql cũng có thể khai thác thông tin lược đồ cứng nhắc khi nó có sẵn, cho cả hai loại hiệu năng đang kiểm tra và hiệu năng được cải thiện. Đoạn mã sau trong Liệt kê 9 cho thấy một tài liệu JSON mẫu.

Liệt kê 9. Một tài liệu mẫu JSON
[
  { id: 10,
    name: "Joe Smith",
    email: "JSmith@email.com",
    zip: 85150
  },
  { id: 20,
    name: "Alice Jones",
    email: "AJones@email.com",
    zip: 82116
  }
]

Jaql sử dụng một mô hình dữ liệu rất đơn giản, một giá trị JDM (Jaql Data Model - Mô hình dữ liệu Jaql) hoặc là một nguyên tử, một mảng hoặc một bản ghi. Hầu hết các kiểu nguyên tử phổ biến được hỗ trợ, gồm các chuỗi, các số, các giá trị null và các ngày tháng. Các mảng và các bản ghi là các kiểu hỗn hợp có thể được lồng nhau tùy ý. Chi tiết hơn, một mảng là một bộ sưu tập các giá trị có thứ tự và có thể được sử dụng để mô hình hóa các cấu trúc dữ liệu như các véc tơ, các danh sách, các bộ hoặc các túi (bag). Một bản ghi là một bộ sưu tập các cặp giá trị-tên không theo thứ tự và có thể mô hình hóa các cấu trúc, các từ điển và các ánh xạ. Dù có tính đơn giản, nhưng JDM rất linh hoạt. Nó cho phép Jaql hoạt động với một loạt các biểu diễn dữ liệu khác nhau cho cả đầu vào lẫn đầu ra, gồm cả các tệp văn bản định giới, các tệp JSON, các tệp nhị phân, các tệp trình tự (Sequence File) của Hardtop, các cơ sở dữ liệu quan hệ, các kho giá trị-khóa hoặc các tài liệu XML. Các hàm là các giá trị hạng nhất trong Jaql. Chúng có thể được gán cho một biến và là bậc cao trong đó chúng có thể được chuyển giao như các tham số hoặc được sử dụng như là một giá trị trả về. Các hàm là thành phần quan trọng cho khả năng sử dụng lại do bất kỳ biểu thức Jaql nào đều có thể được gói gọn trong một hàm và một hàm có thể được tham số hóa theo những cách mạnh mẽ. Liệt kê 10 là một ví dụ về một kịch bản lệnh Jaql có một chuỗi các toán tử.

Liệt kê 10. Các kịch bản lệnh Jaql có một chuỗi các các toán tử
import myrecord;
countFields = fn(records) (
records
-> transform myrecord::names($)
-> expand
-> group by fName = $ as occurrences
into { name: fName, num: count(occurrences) } 
);
read(hdfs("docs.dat"))
-> countFields()
-> write(hdfs("fields.dat"));

Toán tử read (đọc) tải dữ liệu thô, trong trường hợp này từ HDFS (Hadoop Distributed File System – Hệ thống tệp phân tán Hadoop) và chuyển đổi nó thành các giá trị Jaql. Các giá trị này được luồng con countFields xử lý, mà luồng con này trích xuất các tên trường và tính toán các tần số của chúng. Cuối cùng, toán tử write (ghi) lưu trữ kết quả vào lại HDFS. Bảng 2 mô tả các biểu thức cốt lõi của ngôn ngữ kịch bản lệnh Jaql.

Bảng 2. Các biểu thức cốt lõi của ngôn ngữ kịch bản lệnh Jaql
Biểu thứcMô tả
transformBiểu thức transform (chuyển đổi) áp dụng một hàm (hoặc phép chiếu) cho mọi phần tử của một mảng để tạo ra một mảng mới.
expandBiểu thức expand (mở rộng) hầu như thường được sử dụng để lấy ra mảng đầu vào của nó.
group byTương tự như GROUP BY trong SQL, biểu thức group by trong Jaql phân vùng đầu vào của nó dựa vào một biểu thức phân nhóm và áp dụng một biểu thức tổng hợp cho mỗi nhóm.
FilterBiểu thức filter (bộ lọc) giữ lại các giá trị đầu vào mà một vị từ cụ thể đánh giá các giá trị là đúng.
JoinBiểu thức join (nối) hỗ trợ equijoin (nối thiết bị) của 2 hoặc nhiều đầu vào hơn. Tất cả các tùy chọn các phép nối bên trong và bên ngoài cũng được hỗ trợ.
UnionBiểu thức union (hợp) là một hàm Jaql kết hợp nhiều mảng đầu vào thành một mảng đầu ra duy nhất.
Control-flowHai biểu thức kiểm soát luồng được dùng phổ biến nhất trong Jaql là if-then-else và các biểu thức khối. Biểu thức if-then-else tương tự như các biểu thức có điều kiện được tìm thấy trong hầu hết các ngôn ngữ lập trình và các ngôn ngữ tạo kịch bản lệnh. Một khối thiết lập một phạm vi cục bộ ở đó có thể khai báo biến không và nhiều biến cục bộ và câu lệnh cuối cùng cung cấp các giá trị trả về của khối đó.

Ở một mức cao, kiến trúc Jaql đã mô tả trong Hình 4 là tương tự như hầu hết các hệ thống cơ sở dữ liệu.

Hình 4. Kiến trúc hệ thống Jaql
Biểu đồ kiến trúc của Jaql system

Các kịch bản lệnh được chuyển vào hệ thống từ trình thông dịch (interpreter) hoặc một ứng dụng, được biên dịch bởi trình phân tích cú pháp và công cụ viết lại hoặc được giải thích thêm hoặc đánh giá thêm qua dữ liệu từ tầng vào/ra (I/O). Tầng lưu trữ tương tự như một cơ sở dữ liệu thống nhất. Nó cung cấp một API để truy cập dữ liệu từ các hệ thống khác nhau gồm cả hệ thống tệp cục bộ hoặc phân tán (như HDFS của Hadoop), các hệ thống cơ sở dữ liệu (chẳng hạn như DB2, Netezza, HBase) hoặc từ các nguồn theo luồng dữ liệu như web. Không giống như các cơ sở dữ liệu thống nhất, tuy nhiên, hầu hết các dữ liệu đã truy cập được lưu trữ trong cùng một cụm và API vào/ra mô tả phân vùng dữ liệu, cho phép xử lý song song với tính tương tự của dữ liệu trong quá trình đánh giá. Jaql thu được phần lớn tính linh hoạt này từ API vào/ra của Hadoop. Nó đọc và ghi nhiều định dạng tệp phổ biến (chẳng hạn như các tệp định giới, văn bản JSON và các tệp của Hadoop Sequence). Các bộ thích ứng tùy chỉnh được viết dễ dàng để ánh xạ một bộ dữ liệu đến hoặc từ mô hình dữ liệu Jaql. Thậm chí đầu vào có thể chỉ đơn giản là các giá trị được xây dựng trong chính kịch bản lệnh. Bộ biên dịch Jaql đánh giá kịch bản lệnh cục bộ trên máy tính đã biên dịch kịch bản lệnh, nhưng sinh ra các trình thông dịch trên các nút từ xa bằng cách sử dụng MapReduce. Trình biên dịch Jaql tự động phát hiện các cơ hội song song trong một kịch bản lệnh Jaql và chuyển nó thành một tập các công việc MapReduce.


Kết luận

MapReduce đã nổi lên như là một cách phổ biến để khai thác sức mạnh của các cụm máy tính lớn. Hiện nay, MapReduce dùng như một nền tảng cho một số lượng đáng kể các phân tích dữ liệu lớn. Nó cho phép các nhà lập trình suy nghĩ theo kiểu dữ liệu là trung tâm, ở đó họ có thể tập trung vào việc áp dụng các phép chuyển đổi cho các tập bản ghi dữ liệu trong khi các chi tiết thực hiện phân tán và khả năng chịu lỗi được quản lý trong suốt bởi khung công tác MapReduce. Trong thực tế, nhiều nhà lập trình thích sử dụng các ngôn ngữ khai báo bậc cao (hoặc như-SQL) để thực hiện các công việc phân tích dữ liệu quy mô lớn song song trong khi để lại tất cả các chi tiết tối ưu hóa thực hiện cho các công cụ phụ trợ. Trong bài này, bạn đã thấy một tổng quan tiên tiến về các giao diện khai báo bậc cao cho khung công tác MapReduce. Giảm thiểu gánh nặng lập trình của bạn với các sự trừu tượng hóa của ngôn ngữ bậc cao, cho phép các hệ thống bên dưới thực hiện các tối ưu hóa tự động ở mức thực hiện và cải thiện hiệu năng của các nhiệm vụ của người dùng.

Tài nguyên

Học tập

Lấy sản phẩm và công nghệ

Thảo luận

Bình luận

developerWorks: Đăng nhập

Các trường được đánh dấu hoa thị là bắt buộc (*).


Bạn cần một ID của IBM?
Bạn quên định danh?


Bạn quên mật khẩu?
Đổi mật khẩu

Bằng việc nhấn Gửi, bạn đã đồng ý với các điều khoản sử dụng developerWorks Điều khoản sử dụng.

 


Ở lần bạn đăng nhập đầu tiên vào trang developerWorks, một hồ sơ cá nhân của bạn được tạo ra. Thông tin trong bản hồ sơ này (tên bạn, nước/vùng lãnh thổ, và tên cơ quan) sẽ được trưng ra cho mọi người và sẽ đi cùng các nội dung mà bạn đăng, trừ khi bạn chọn việc ẩn tên cơ quan của bạn. Bạn có thể cập nhật tài khoản trên trang IBM bất cứ khi nào.

Thông tin gửi đi được đảm bảo an toàn.

Chọn tên hiển thị của bạn



Lần đầu tiên bạn đăng nhập vào trang developerWorks, một bản trích ngang được tạo ra cho bạn, bạn cần phải chọn một tên để hiển thị. Tên hiển thị của bạn sẽ đi kèm theo các nội dung mà bạn đăng tải trên developerWorks.

Tên hiển thị cần có từ 3 đến 30 ký tự. Tên xuất hiện của bạn phải là duy nhất trên trang Cộng đồng developerWorks và vì lí do an ninh nó không phải là địa chỉ email của bạn.

Các trường được đánh dấu hoa thị là bắt buộc (*).

(Tên hiển thị cần có từ 3 đến 30 ký tự)

Bằng việc nhấn Gửi, bạn đã đồng ý với các điều khoản sử dụng developerWorks Điều khoản sử dụng.

 


Thông tin gửi đi được đảm bảo an toàn.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=70
Zone=Nguồn mở, Information Management, Công nghệ Java
ArticleID=839202
ArticleTitle=Sử dụng các ngôn ngữ như-SQL với khung công tác MapReduce
publish-date=10052012