Loạt bài các kỹ năng của Kiến trúc sư dữ liệu Rational, Phần 3: Phát hiện các mối quan hệ của lược đồ bằng Kiến trúc sư dữ liệu Rational

Tạo các ánh xạ lược đồ bán tự động

Bạn có thể sử dụng Kiến trúc sư Dữ liệu Rational® của IBM® để định nghĩa các ánh xạ dữ liệu. Khi làm việc với các lược đồ lớn, có thể rất cồng kềnh nếu tạo các ánh xạ bằng tay. Kiến trúc sư Dữ liệu Rational cung cấp một thành phần khám phá để nhận biết một cách bán tự động các ánh xạ có tiềm năng. Hướng dẫn này cung cấp một giới thiệu nhập môn về thành phần khám phá quan hệ của Kiến trúc sư Dữ liệu Rational.

Torsten Bittner, Kỹ sư phần mềm, IBM

Torsten Bittner làm việc như một kỹ sư phần mềm trong phòng quản lý thông tin của nhóm phần mềm IBM. Ông đã lấy bằng diploma về khoa học máy tính từ trường Đại học Rostock, Đức. Các trách nhiệm phát triển của ông bao gồm: khám phá trình soạn thảo ánh xạ của Kiến trúc sư Dữ liệu Rational và thành phần tạo ra truy vấn.



04 07 2009

Trước khi bạn bắt đầu

Trong hướng dẫn này, hãy tìm hiểu làm thế nào để sử dụng thành phần khám phá của Kiến trúc sư Dữ liệu Rational (Rational Data Architect) để tạo ra bán tự động các ánh xạ giữa các nguồn dữ liệu quan hệ và các nguồn dữ liệu XML. Hướng dẫn này là phần thứ ba trong một loạt bài viết về Kiến trúc sư Dữ liệu Rational.

Về hướng dẫn này

Hướng dẫn này chỉ dẫn cho bạn thấy từng bước làm thế nào để:

  • Gọi thực hiện thuật toán phát hiện sự giống nhau về từ vựng của Kiến trúc sư Dữ liệu Rational (RDA) để phát hiện các ánh xạ lược đồ tiềm năng dựa vào sự giống nhau của các tên cột.
  • Định nghĩa một mô hình bảng chú giải thuật ngữ có chứa các từ, chữ viết tắt và từ đồng nghĩa bằng cách sử dụng trình soạn thảo Mô hình bảng chú giải thuật ngữ của RDA.
  • Sử dụng thông tin của mô hình bảng chú giải thuật ngữ với thuật toán dựa vào nghĩa của tên để phát hiện thêm các kết quả phù hợp.
  • Thiết lập việc khám phá quan hệ để sử dụng các mẫu dữ liệu.
  • Tìm các ánh xạ có tiềm năng với các thuật toán, sử dụng các mẫu dữ liệu.

Mục tiêu

Sau khi hoàn thành hướng dẫn này, bạn sẽ có khả năng sử dụng thành phần khám phá của Kiến trúc sư Dữ liệu Rational để tìm ra các ánh xạ lược đồ.

Các điều kiện cần trước

Thay đổi tên sản phẩm

Ngày 16 tháng Mười Hai năm 2008 IBM đã thông báo rằng, kể từ phiên bản 7.5.1, Kiến trúc sư Dữ liệu Rational được đổi tên thành Kiến trúc sư Dữ liệu InfoSphere (InfoSphere Data Architect) để đề cao vai trò của nó trong các công cụ nền InfoSphere.

Hướng dẫn này giả thiết bạn đã quen với các cơ sở dữ liệu quan hệ, tốt nhất là DB2®. Việc quen thuộc với trình soạn thảo ánh xạ của Kiến trúc sư Dữ liệu Rational rất có lợi, nhưng không bắt buộc. Để tham khảo, hãy tra cứu các bài viết sau của developerWorks:

Các yêu cầu hệ thống

Để thực hiện các bước đã mô tả trong hướng dẫn này, bạn cần phải có Kiến trúc sư Dữ liệu Rational phiên bản V7 và Enterprise 9 DB2® của IBM đã cài đặt. Bạn có thể tải về phiên bản dùng thử của Kiến trúc sư Dữ liệu Rational V7 và DB2 V9.1 của IBM (xem Tài nguyên).

Các bước thiết lập

  1. Cài đặt DB2 V9.1.
  2. Cài đặt Kiến trúc sư Dữ liệu Rational V7.
  3. Giải nén gói ar-rdamapcode.zip từ tệp tin vào trong một thư mục (ví dụ, C:\RDA_Tutorials). Bước này tạo ra thư mục RDA_Discovery.
  4. Khởi động Kiến trúc sư Dữ liệu Rational và chỉ rõ thư mục ở đó bạn đã giải nén gói làm thư mục cho vùng làm việc của bạn (ví dụ, C:\RDA_Tutorials).
  5. Thư mục RDA_Discovery trong gói phần mềm là thư mục dự án dữ liệu của Kiến trúc sư Dữ liệu Rational. Trong Kiến trúc sư Dữ liệu Rational bạn phải nhập khẩu nó vào trong vùng làm việc của bạn. Từ trình đơn File, chọn Import.
  6. Chọn trình thủ thuật Existing Project into Workspace.
Hình 1. Chọn trình thủ thuật Import
Chọn trình thủ thuật Import
  1. Nhấn vào Next. Duyệt đến vị trí ở đó bạn đã giải nén tệp tin ar-rdamapcode.zip (ví dụ, C:\RDA_Tutorials).
Hình 2. Trình thủ thuật Import Project
Trình thủ thuật Import Project
  1. Nhấn vào Finish. Kết quả là, bạn thấy dự án RDA_Discovery với một tập hợp các mô hình dữ liệu, một mô hình bảng chú giải thuật ngữ và các tệp tin mô hình ánh xạ trong vùng làm việc của bạn như được hiển thị trong Hình 3. (Nếu bạn không nhìn thấy Database Explorer, hãy kiểm tra chắc chắn rằng bạn ở trong phối cảnh Dữ liệu, như thấy trong Hình 4.)
Hình 3. Data Project Explorer sau khi nhập khẩu dự án
Data Project Explorer sau khi nhập khẩu dự án
Hình 4. Phối cảnh Dữ liệu
Phối cảnh Dữ liệu
  1. Một số các thuật toán phát hiện mối quan hệ yêu cầu dữ liệu mẫu. Tệp tin kịch bản lệnh rda_discovery_db.sql tạo ra một THƯ VIỆN (LIBRARY) cơ sở dữ liệu DB2 và chèn vào một bộ các mẫu dữ liệu. Để triển khai một kịch bản lệnh trong cơ sở dữ liệu DB2 của bạn, khởi động cửa sổ lệnh DB2 (trình đơn của Windows Start > IBM DB2 > Command Line Tools > Command Window).
  2. Đi đến thư mục RDA_Discovery mà bạn đã giải nén từ tệp tin vi-rdamapcode.zip.
  3. Để tạo cơ sở dữ liệu LIBRARY, định nghĩa các khóa chính và khóa ngoài và chèn thêm các dữ liệu mẫu, hãy chạy lệnh này:
    db2 -tvf rda_discovery_db.sql
Hình 5. Tạo cơ sở dữ liệu LIBRARY
Tạo cơ sở dữ liệu LIBRARY
  1. Để tạo cơ sở dữ liệu OLD_LIB, định nghĩa khóa chính và khóa ngoài và chèn thêm các mẫu dữ liệu, hãy chạy lệnh:
    db2 -tvf rda_discovery_db_old.sql
  1. Kết nối vào cơ sở dữ liệu LIBRARY trong Kiến trúc sư Dữ liệu Rational. Trong Database Explorer, nhấn chuột phải vào Connection và chọn New Connection. (Nếu bạn không nhìn thấy Database Explorer, hãy kiểm tra chắc chắn rằng bạn ở trong phối cảnh Dữ liệu, như hiển thị trong Hình 4.)
Hình 6. Tạo kết nối cơ sở dữ liệu mới
Tạo kết nối cơ sở dữ liệu mới
  1. Chỉ rõ các thông tin kết nối theo môi trường của bạn tương tự như Hình 7.
Hình 7. Các thông số cài đặt kết nối cơ sở dữ liệu
Các thông số cài đặt kết nối cơ sở dữ liệu
  1. Nhấn vào Test Connection để kiểm tra xem tất cả các tham số đã được thiết lập đúng chưa. Nếu thử nghiệm thành công, hãy nhấn vào Finish.
  2. Lặp lại các bước từ 13 đến 15 cho cơ sở dữ liệu OLD_LIB bằng cách sử dụng cùng giá trị thiết lập kết nối, trừ tên của cơ sở dữ liệu.

Tổng quan kịch bản và mô tả vấn đề

Kịch bản cho hướng dẫn này có liên quan chặt chẽ đến kịch bản trong các hướng dẫn đã xuất bản trước đó. Mục đích là để sử dụng trình soạn thảo ánh xạ của Kiến trúc sư Dữ liệu Rational để tích hợp dữ liệu (xem Phần 1) và tạo ra truy vấn (xem Phần 2).

Trình soạn thảo ánh xạ làm giảm đáng kể lượng thời gian phải dùng để tự tay viết các truy vấn SQL hoặc SQL/XML. Trình soạn thảo cũng cho phép người sử dụng nắm bắt các mối quan hệ dữ liệu và công bố thông tin trong một báo cáo.

Tuy nhiên, một vấn đề mới phát sinh khi sử dụng trình soạn thảo ánh xạ. Việc tạo bằng tay từng ánh xạ, từng cái một, rất tốn thời gian. Đặc biệt, khi làm việc với các lược đồ lớn về phía nguồn và phía đích, sẽ thật khó tìm thấy các cột được ánh xạ tới.

Kiến trúc sư Dữ liệu Rational giải quyết vấn đề này bằng thành phần khám phá mối quan hệ. Ý tưởng là để tạo ra các ánh xạ một cách bán tự động. Công cụ này phát hiện các ánh xạ có tiềm năng cho người sử dụng, người chỉ phải chấp nhận hoặc từ chối kết quả so khớp được đề xuất.

Thành phần khám phá hoạt động dựa trên giả thiết rằng các phần tử nguồn và đích đưa vào trong một ánh xạ có sự giống nhau nhất định. Các đặc điểm giống nhau này rơi vào hai thể loại.

Sự giống nhau của siêu dữ liệu
Thể loại này đề cập đến thông tin có chứa trong mô hình dữ liệu, như là mô hình cơ sở dữ liệu vật lý, mô hình cơ sở dữ liệu logic hoặc mô hình lược đồ XML. Phần tử được ánh xạ giữa các mô hình dữ liệu ấy là các cột, các thực thể và các phần tử XML. Trong nhiều trường hợp, phần tử nguồn và đích của ánh xạ sẽ có cùng một tên. Ngoài ra, tên của một phần tử nguồn có thể được viết tắt hoặc là một từ đồng nghĩa với phần tử đích. Các thuật toán phát hiện trong Kiến trúc sư Dữ liệu Rational dựa trên sự giống nhau của siêu dữ liệu là:

  • Sự tương tự từ vựng.
  • Ngữ nghĩa của tên.

Sự giống nhau của dữ liệu cá thể
Thể loại này đề cập đến dữ liệu chứa trong cơ sở dữ liệu, ví dụ, trong các cột của một cơ sở dữ liệu vật lý mà người sử dụng muốn ánh xạ. Thành phần khám phá sẽ thu thập một mẫu dữ liệu từ nguồn và đích dữ liệu vật lý. Nó sau đó so sánh hai mẫu dữ liệu và cố gắng phát hiện ra một mối quan hệ. Trong Kiến trúc sư Dữ liệu Rational các thuật toán sau đây là dựa trên sự giống nhau của cá thể dữ liệu:

  • Chữ ký.
  • Các phân phối.
  • Các biểu thức chính quy

Hướng dẫn này giải thích một số thuật toán và cách sử dụng chúng như thế nào. Để đơn giản hơn, hướng dẫn này đi kèm với một bộ các mô hình dữ liệu được sử dụng để gọi ra các thuật toán khác nhau (xem Tải về).

Việc phát hiện dựa theo siêu dữ liệu sử dụng các mô hình dữ liệu vật lý COMPANY_old.dbm và COMPANY_new.dbm. Trong một kịch bản tích hợp dữ liệu điển hình, một mục tiêu là để di chuyển dữ liệu từ một lược đồ cũ vào trong một lược đồ mới hơn. Các tên cột và các bảng trong ví dụ này được chọn để minh họa các khả năng của thành phần khám phá, hơn là mô phỏng một lược đồ thường được sử dụng trong một môi trường doanh nghiệp.

Đối với việc phát hiện dựa theo dữ liệu, mô hình cơ sở dữ liệu "old library system.dbm" được sử dụng như một nguồn. Cơ sở dữ liệu vật lý có chứa các dữ liệu là OLD_LIB. Mô hình cơ sở dữ liệu đích "new library system.dbm" về cơ bản giống như mô hình nguồn. Sự khác nhau là dữ liệu cá thể có chứa trong cơ sở dữ liệu LIBRARY, khác với dữ liệu trong OLD_LIB.


Việc phát hiện các ánh xạ bằng thuật toán tương tự từ vựng

Trong phần này, bạn sẽ gọi thực hiện việc khám phá các quan hệ. Từng bước một, chúng ta sẽ mở một mô hình ánh xạ hiện có mà chưa định nghĩa ánh xạ nào, chạy khám phá Tìm cái phù hợp nhất (Find Best Fit) và Tìm cái tương tự (Find Similar) với thuật toán tương tự từ vựng và phân tích các kết quả phát hiện ra.

Gọi thực hiện khám phá Find Best Fit

  1. Chuyển tới Data perspective.
  2. Trong Data Project Explorer, mở mô hình ánh xạ CompanyMapping.msl như được hiển thị trong Hình 8. Thao tác này sẽ mở trình soạn thảo ánh xạ của Kiến trúc sư Dữ liệu Rational. Ở phía bên trái là mô hình cơ sở dữ liệu nguồn Company_old.dbm và ở bên phải là mô hình cơ sở dữ liệu đích Company_new.dbm.
Hình 8. Mở mô hình ánh xạ CompanyMapping.msl
Mở mô hình ánh xạ CompanyMapping.msl
  1. Để gọi thực hiện khám phá, nhấn chuột phải vào cột Customer trong bảng CUSTOMER. Từ trình đơn ngữ cảnh, chọn Discover Relationships > Find Best Fit.
Hình 9. Gọi thực hiện khám phá Find Best Fit
Gọi thực hiện khám phá Find Best Fit
  1. Trong trình thủ thuật định phạm vi Discover Relationship, hãy bảo đảm chắc chắn đã đánh dấu chọn vào cột Customer ở bên phía nguồn và đánh dấu vào tất cả các cột bên phía đích. Nhấn vào Finish.
Hình 10. Trình thủ thuật định phạm vi khám phá quan hệ (Discover Relationship) cho Find Best Fit
Trình thủ thuật định phạm vi khám phá quan hệ (Discover Relationship) cho Find Best Fit
  1. Trong trình soạn thảo ánh xạ bây giờ bạn nhìn thấy một đường phát hiện có màu vàng trỏ từ cột nguồn Customer đến cột đích Customer. Rê chuột trên đường màu vàng và bạn nhìn thấy một giá trị điểm số phù hợp là 100%.
Hình 11. Khám phá điểm số phù hợp qua thông tin khi rê chuột
Khám phá điểm số phù hợp qua thông tin khi rê chuột
  1. Nhấn chuột phải vào đường đã phát hiện và chọn Properties. Trong khung nhìn Properties, mở phiếu Discover Relationships Trong các tính chất phát hiện bạn tìm thấy nhiều thông tin chi tiết hơn về kết quả khớp đã phát hiện ra.
Hình 12. Khung nhìn Properties khám phá các mối quan hệ
Khung nhìn Properties khám phá các mối quan hệ
  1. Điểm số phù hợp (Matching score) giống như giá trị mà bạn thấy khi rê chuột trên đường ánh xạ. Giá trị này được so sánh tương đối với các kết quả phù hợp khác được phát hiện đối với cùng cột nguồn này. Khi có nhiều hơn một kết quả phù hợp được phát hiện cho một cột nguồn, tất cả các kết quả phù hợp được xếp hạng. Xếp hạng cao hơn thì có điểm số phù hợp cao hơn. Vài kết quả có thể có cùng một điểm phù hợp nếu mức giống nhau của chúng với cột nguồn là như nhau.

    Trong bảng Các phép đo (Measurements) trong Hình 12, tên của thuật toán phát hiện sẽ được hiển thị cùng với một giá trị tỷ số phù hợp (Match ratio). Tỷ số phù hợp này là một giá trị tuyệt đối giữa 0 và 1 để chỉ ra “khoảng cách” của cột nguồn và cột đích. Khoảng cách này có nghĩa là, nếu hai cột có quan hệ rất gần nhau thì giá trị là thấp. Khi việc phát hiện xác định hai cột là như nhau, tỷ số phù hợp bằng 0. Khi hai cột rất khác nhau, tỷ số phù hợp sẽ cao hơn. Một giá trị bằng 1 có nghĩa là không phù hợp. Tỷ số phù hợp được sử dụng cho việc xếp hạng để xác định điểm số phù hợp.

    Một bảng có chứa hai giá trị tỷ lệ phù hợp. Giá trị Mức lá (Leaf Level) đề cập đến sự giống nhau của các phần tử mức lá trong khung nhìn cây lược đồ, chẳng hạn như các tên cột khi làm việc với các mô hình cơ sở dữ liệu vật lý. Giá trị Mức cha mẹ (Parent Level) đề cập đến phần tử cha mẹ trực tiếp của phần tử mức lá, chẳng hạn như tên bảng trong kịch bản mô hình cơ sở dữ liệu vật lý.

  1. Nhấn chuột phải vào đường ánh xạ mầu vàng trong trình soạn thảo ánh xạ và chọn Accept Mapping. Đường ánh xạ mầu vàng chuyển thành một đường ánh xạ màu xanh dương.
Hình 13. Chấp nhận một kết quả phù hợp được phát hiện
Chấp nhận một kết quả phù hợp được phát hiện

IGọi thực hiện khám phá Find Similar

Find Best Fit so với Find Similar

Find Best Fit (tìm kết quả phù hợp nhất) thường cung cấp cho bạn một bước nhảy khởi động để tìm kiếm các ánh xạ có tiềm năng tốt nhất. Khi gọi thực hiện khám phá trên một phạm vi rộng các nguồn và đích, Find Best Fit là sự lựa chọn được ưu tiên. Nếu không thì số các kết quả phù hợp trả về quá lớn và khó xử lý trong trình soạn thảo ánh xạ.

Nhược điểm của Find Best Fit là bạn có thể bỏ sót một số các ánh xạ ứng viên rất tốt. Nếu bạn không muốn bỏ sót những ứng cử viên này, đồng thời muốn có thể xử lý được các kết quả, hãy gọi thực hiện khám phá Find Similar (tìm sự giống nhau) với phạm vi hẹp ở phía nguồn và phạm vi hẹp rộng ở phía đích.

Gọi thực hiện khám phá các mối quan hệ bằng cách sử dụng Find Best Fit trả về một kết quả phù hợp với điểm số cao nhất đối với cột nguồn đã chọn. Các kết quả phù hợp khác, ngay cả khi chúng có cùng một điểm số phù hợp, sẽ tự động bị loại bỏ và không xuất hiện trong trình soạn thảo ánh xạ.

Thông thường bạn muốn phát hiện để trả về nhiều hơn một kết quả để cho bạn có thể linh hoạt lựa chọn trong số những gợi ý. Việc gọi thực hiện khám phá bằng cách sử dụng phương pháp Find Similar sẽ cho phép bạn làm điều này.

  1. Nhấn chuột phải vào cột WORK.Employee và chọn Discover Relationships > Find Similar từ trình đơn ngữ cảnh, như chỉ ra trong Hình 14.
Hình 14. Gọi thực hiện khám phá Find Similar
Gọi thực hiện khám phá Find Similar
  1. Trong trình thủ thuật định phạm vi phát hiện, hãy chắc chắn rằng WORK.Employee trong Source được chọn và tất cả các phần tử trong phần Target cũng được chọn. Thiết lập các tham số xác định phạm vi (Scoping) bổ sung thêm để phát hiện nhiều nhất là 5 phần tử For each selected source element. Nhấn vào Finish.

    Việc xác định phạm vi
    Điều quan trọng là phải khôn khéo lựa chọn phạm vi khi gọi thực hiện khám phá. Nó có một tác động rất lớn về thời gian chạy khám phá và về số lượng các kết quả được trả về. Sự đánh đổi là giữa thời gian dùng để xác định phạm vi và thời gian dùng để sắp xếp các kết quả phù hợp không mong muốn.

    Một biện pháp thực tiễn thích hợp là hạn chế phạm vi ở phía sẽ điều khiển ánh xạ của bạn và có một phạm vi rộng ở phía đối diện. Giả sử rằng bạn muốn di chuyển tất cả các dữ liệu trong doanh nghiệp của bạn vào một lược đồ. Lược đồ này là sẽ là lược đồ đích của bạn. Do bạn muốn điền vào tất cả các cột trong lược này, nên ánh xạ của bạn là dựa theo đích.

    Một biện pháp thực tiễn thích hợp trong kịch bản này là gọi thực hiện khám phá cho một tập con của các bảng đích, loại bỏ kết quả phù hợp không mong muốn và tiếp tục với các tập hợp bảng tiếp theo.

Hình 15. Trình thủ thuật định phạm vi khám phá Find Similar
Trình thủ thuật định phạm vi khám phá Find Similar
  1. Các kết quả phù hợp sau đây được trả về:
    WORK.Employee           100%
    CONTACT.Employee        86%
    CLIENT.Employee         72%
    WORK.Employer           58%
    WORK.Deployment         43%

    Các điểm số phù hợp khác nhau của ba cột Employee là do các tên bảng khác nhau của chúng (tỷ số phù hợp mức cha mẹ).
Hình 16. Các kết quả khám phá Find Similar
Các kết quả khám phá Find Similar

Tạo ra một mô hình bảng chú giải thuật ngữ

Trong phần này, bạn sử dụng trình soạn thảo mô hình bảng chú giải thuật ngữ (glossary model) của Kiến trúc sư Dữ liệu Rational để tạo ra một mô hình bảng chú giải thuật ngữ. Mô hình này định nghĩa các từ bằng các chữ viết tắt và các từ đồng nghĩa. Thông tin được sử dụng để tìm các kết quả phù hợp bổ sung thêm trong phần kế tiếp.

  1. Nhấn chuột phải vào thư mục Data Models trong Data Project Explorer. Chọn New > Glossary Model từ trình đơn ngữ cảnh.
Hình 17. Tạo ra một mô hình bảng chú giải thuật ngữ mới
Tạo ra một mô hình bảng chú giải thuật ngữ mới
  1. Trong trình thủ thuật New Glossary Model, hãy chắc chắn chọn khuôn mẫu Blank Glossary Model và gõ vào CompanyGlossary làm tên tệp. Đánh dấu chọn vào Add to project properties as project naming standard.
Hình 18. Trình thủ thuật Glossary Model
Trình thủ thuật Glossary Model
  1. Nhấn vào Finish. Trình soạn thảo mô hình bảng chú giải thuật ngữ mở ra với một mô hình bảng chú giải thuật ngữ rỗng.
  2. Trong phần Contained Words, nhấn vào Create New Word.
Hình 19. Tạo ra một từ mới
Tạo ra một từ mới
  1. Thêm các từ sau với các chữ viết tắt của chúng vào mô hình bảng chú giải thuật ngữ.
Hình 20. Các từ với các chữ viết tắt trong mô hình bảng chú giải thuật ngữ
Các từ với các chữ viết tắt trong mô hình bảng chú giải thuật ngữ
  1. Mở khung nhìn Properties (Trình đơn Window > Show View > Properties).
Hình 21. Mở khung nhìn Properties
Mở khung nhìn Properties
  1. Nhấn vào vào từ Client để chọn nó trong trình soạn thảo mô hình bảng chú giải thuật ngữ. Trong khung nhìn Properties, chọn Synonyms, rồi nhấn vào Add.
Hình 22. Thêm một từ đồng nghĩa với một từ đã cho
Thêm một từ đồng nghĩa với một từ đã cho
  1. Đánh dấu chọn vào từ Customer và nhấn vào OK.
Hình 23. Chọn một từ đồng nghĩa
Chọn một từ đồng nghĩa
  1. Lặp lại các bước 7 và 8 để thêm vào các mối quan hệ từ đồng nghĩa Employee/Worker và Identifier/Number.

Phát hiện các ánh xạ bằng cách sử dụng các chữ viết tắt

Trong phần này, bạn sử dụng các chữ viết tắt từ mô hình bảng chú giải thuật ngữ CompanyGlossary.ndm, để phát hiện các mối quan hệ.

  1. Mở mô hình ánh xạ CompanyMapping.msl.
  2. Nhấn chuột phải trong trình soạn thảo ánh xạ và chọn Discover Relationships > Enterprise Naming Standard từ trình đơn ngữ cảnh.
Hình 24. Gọi trình thủ thuật Enterprise Naming Standard (tiêu chuẩn đặt tên doanh nghiệp)
Gọi trình thủ thuật Enterprise Naming Standard
  1. Trong trình thủ thuật Enterprise Naming Standard, chọn lược đồ SALES trong Company_new.dbm và nhấn vào Add.
Hình 25. Thêm một mô hình một bảng chú giải thuật ngữ vào lược đồ
Thêm một mô hình một bảng chú giải thuật ngữ vào lược đồ
  1. Chọn mô hình bảng chú giải thuật ngữ CompanyGlossary.ndm từ danh sách và nhấn OK. Nhấn vào Finish để trình thủ thuật Enterprise Naming Standard. Thao tác này báo cho trình soạn thảo ánh xạ về các chữ viết tắt được định nghĩa trong mô hình bảng chú giải thuật ngữ.
Hình 26. Lựa chọn một mô hình bảng chú giải thuật ngữ cho cách sử dụng chữ viết tắt
Lựa chọn một mô hình bảng chú giải thuật ngữ cho cách sử dụng chữ viết tắt
  1. Trong trình soạn thảo ánh xạ, gọi thực hiện khám phá Find Similar cho cột nguồn WORK.Employee (xem Hình 16).
  2. Thay cho cột đích Deployment, như trong lần chạy trước, bây giờ thuật toán khám phá trả về cột Emp. Vì chữ viết tắt là do người sử dụng định nghĩa, điểm số phù hợp là 100%.
Hình 27. Kết quả phù hợp được phát hiện khi sử dụng các chữ viết tắt
Kết quả phù hợp được phát hiện khi sử dụng các chữ viết tắt

Phát hiện các ánh xạ bằng cách sử dụng các từ đồng nghĩa

Trong phần này, bạn sử dụng thuật toán dựa vào nghĩa của tên, cũng có các khả năng tương tự như thuật toán tương tự từ vựng. Thuật toán này cũng xem xét thông tin về từ đồng nghĩa. Các từ đồng nghĩa được định nghĩa trong một từ điển liệt kê từ đồng nghĩa. Thuật toán dựa vào nghĩa của tên hỗ trợ ba loại từ điển liệt kê từ đồng nghĩa:

  1. Mở mô hình ánh xạ CompanyMapping.msl.
  2. Nhấn chuột phải vào trong trình soạn thảo ánh xạ và chọn Discover Relationships > Advanced Configuration từ các trình đơn ngữ cảnh.
Hình 28. Gọi trình thủ thuật cấu hình nâng cao
Gọi trình thủ thuật cấu hình nâng cao
  1. Trình thủ thuật cấu hình nâng cao (Advanced Configuration wizard) cho phép bạn chọn thuật toán khám phá mà bạn ưa thích. Hãy chắc chắn rằng không đánh dấu chọn thuật toán Lexical Similarity và đánh dấu chọn thuật toán Semantic Name.

    Trong phần cấu hình của thuật toán dựa trên nghĩa của tên (Semantic Name), có một danh sách của tất cả các từ điển liệt kê từ đồng nghĩa sẵn có cho dự án hiện tại. Theo mặc định, mô hình bảng chú giải thuật ngữ kết hợp với dự án (xem Hình 18) đã được chọn trước. Khi Sureword và Wordnet được cài đặt trên hệ thống của bạn, chúng sẽ tự động hiển thị trong danh sách. Hãy bảo đảm chắc chắn rằng CompanyGlossary.ndm được chọn và nhấn vào Finish.

Hình 29. Cấu hình nâng cao cho thuật toán Semantic Name
Cấu hình nâng cao cho thuật toán Semantic Name
  1. Gọi thực hiện khám phá Find Similar cho cột nguồn WORK.Employee (xem Hình 27). Trong kết quả, hiển thị dưới đây, bây giờ có các cột đích WorkerWR. Cột Worker đã được phát hiện do nó là một từ đồng nghĩa của Employee và cột WR được định nghĩa như là chữ viết tắt của Worker trong mô hình bảng chú giải thuật ngữ CompanyGlossary.ndm. Do mô hình bảng chú giải thuật ngữ này còn được định nghĩa như là tiêu chuẩn đặt tên doanh nghiệp cho lược đồ Company_new.dbm/SALES (xem Hình 18), WR cũng được phát hiện ra.
Hình 30. Các kết quả phù hợp đã tìm thấy khi sử dụng phát hiện từ đồng nghĩa
Các kết quả phù hợp đã tìm thấy khi sử dụng phát hiện từ đồng nghĩa
  1. Gọi thực hiện khám phá Find Similar cho cột nguồn WORK.WR. Kết quả phù hợp duy nhất được phát hiện là cột WORK.WR ở bên phía đích. Nhấn chuột phải vào ô giữa của trình soạn thảo ánh xạ và chọn Reject All Mappings từ trình đơn ngữ cảnh.
  2. Nhấn chuột phải vào trong trình soạn thảo ánh xạ và chọn Discover Relationships > Enterprise Naming Standard từ trình đơn ngữ cảnh. Thêm tệp CompanyGlossary.ndm vào lược đồ Company_old.dbm/SALES (tương tự như Hình 25Hình 26).
  3. Gọi thực hiện khám phá Find Similar cho cột nguồn WORK.WR một lần nữa. Bây giờ WR được công nhận như là một từ viết tắt của Worker. Do đó, kết quả phát hiện bao gồm các chữ viết tắt và các từ đồng nghĩa cho Worker. Kết quả là giống như với cột nguồn WORK.Employee, như được hiển thị trong Hình 31.
Hình 31. Kết quả phù hợp đã tìm thấy bằng cách sử dụng chữ viết tắt và các từ đồng nghĩa kết hợp
Kết quả phù hợp đã tìm thấy bằng cách sử dụng chữ viết tắt và các từ đồng nghĩa kết hợp

Phát hiện các ánh xạ giữa các từ phức hợp

Trong các lược đồ dữ liệu bạn thường tìm thấy các từ phức hợp, ví dụ như các tên cột CUSTOMER_NUMBER hoặc EMPLOYEE_ID. Thuật toán dựa trên nghĩa của tên phát hiện ra các sự giống nhau của các từ phức hợp. Trong phần này, bạn sẽ tìm hiểu làm thế nào để sử dụng đặc tính này.

  1. Mở mô hình ánh xạ CompanyMapping.msl.
  2. Đặt cấu hình trình soạn thảo ánh xạ sử dụng thuật toán semantic name với CompanyGlossary.ndm đóng vai trò như từ điển liệt kê từ đồng nghĩa và cấu hình tiêu chuẩn đặt tên doanh nghiệp CompanyGlossary.dbm cho cả hai lược đồ nguồn và đích.
  3. Gọi thực hiện khám phá Find Similar trên cột nguồn CUSTOMER.Customer_ID. Như được hiển thị trong Hình 32, một số từ phức hợp được trả về trong kết quả. Kết quả bao gồm các chữ viết tắt và các từ đồng nghĩa của các từ riêng lẻ.
Hình 32. Phát hiện các từ phức hợp
Phát hiện các từ phức hợp
  1. Có nhiều cách khác nhau để phân cách các từ với nhau. Theo mặc định, thuật toán dựa trên nghĩa của tên ghi nhận các dấu phân tách sau giữa các từ:
    • Khoảng trống " "
    • Dấu gạch dưới "_"
    • Biểu tượng đường ống "|"
    • Dấu chấm phẩy ";"
    • Dấu lược "'"
    • Dấu phẩy ","
    • Các từ kiểu bướu lạc đà (Camelcase) (ví dụ, CustomerNumber)
    Bạn cũng có thể sử dụng các dấu phân tách khác nữa. Mở trình đơn Window > Preferences và chuyển đến Data > Naming Standard. Các phiếu LogicalPhysical-Table/Column có một trường văn bản để nhập các dấu phân tách. Các dấu phân tách mà bạn định nghĩa trong cả hai phiếu sẽ được xem xét trong quá trình phát hiện. Thay đổi Separator cho Physical-Table/Column thành "+" (dấu cộng).
Hình 33. Định nghĩa một dấu phân tách tùy chỉnh
Định nghĩa một dấu phân tách tùy chỉnh
  1. Gọi thực hiện khám phá Find Similar trên cột nguồn CUSTOMER.Customer_ID một lần nữa. Các cột đích CLNT+NBR bây giờ cũng là một phần của kết quả.
Hình 34. Phát hiện các cột bằng cách sử dụng dấu phân tách tùy chỉnh "+"
Phát hiện các cột bằng cách sử dụng dấu phân tách tùy chỉnh

Các chức năng của thuật toán tương tự từ vựng và thuật toán dựa trên nghĩa của tên cũng có sẵn khi ánh xạ một mô hình cơ sở dữ liệu vật lý tới một lược đồ XML. Xin cứ tự nhiên thử nghiệm chúng với mô hình ánh xạ CompanyOld_CompanyXSD.msl, là một phần của gói hướng dẫn.


Phát hiện các ánh xạ bằng cách sử dụng các mẫu dữ liệu

Các kết quả phù hợp được phát hiện cho đến nay trong hướng dẫn này là dựa trên sự giống nhau của siêu dữ liệu. Phần này chỉ ra cách làm thế nào để cấu hình và gọi thực hiện khám phá bằng cách sử dụng các mẫu dữ liệu. Các thuật toán sử dụng các mẫu dữ liệu chỉ có sẵn khi ánh xạ các mô hình cơ sở dữ liệu vật lý như là nguồn và đích.

  1. Mở mô hình ánh xạ LibraryMapping.msl trong thư mục Mappings. Trong kịch bản này, bạn có hai cơ sở dữ liệu đã chứa dữ liệu và bạn muốn tích hợp chúng.

    Cơ sở dữ liệu nguồn được định nghĩa bởi mô hình "old library system.dbm" và cơ sở dữ liệu đích được định nghĩa bởi "new library system.dbm". Để đơn giản hơn trong hướng dẫn này, cả hai lược đồ là giống hệt nhau. Tuy nhiên, dữ liệu có chứa trong các cơ sở dữ liệu vật lý LIBRARY và OLD_LIB (đã tạo ra trong Hình 5) là khác nhau.

  2. Gọi trình thủ thuật cấu hình nâng cao cho thuật toán khám phá (nhấn chuột phải vào trong trình soạn thảo ánh xạ và chọn Discover Relationships > Advanced Configuration từ các trình đơn ngữ cảnh).
  3. Đánh dấu chọn vào thuật toán Signature từ danh sách và bỏ chọn tất cả các thuật toán khác.
Hình 35. Thuật toán Signature
Thuật toán Signature
  1. Trong Configuration for Signature Algorithm bạn có thể đặt cấu hình số các hàng mà bạn muốn bao gồm trong mẫu của bạn. Một mẫu lớn hơn có thể làm cho các kết quả phát hiện chính xác hơn, nhưng làm tăng thời gian khám phá.

    Sampling rate định nghĩa tỷ lệ phần trăm các hàng được lấy vào mẫu (ví dụ, 20% có nghĩa là 200 trong số 1000 hàng được lấy mẫu). Sampling size (rows) là giá trị thiết lập thêm để chỉ rõ số lượng lớn nhất các hàng được lấy mẫu. Hãy đảm bảo chắc chắn rằng giá trị Sampling size được đặt là 100 hàng và Sampling rate được đặt là 20%.

Hình 36. Cấu hình thuật toán Signature
Cấu hình thuật toán Signature
  1. Một giá trị khác mà bạn có thể thiết lập trong cấu hình cho tất cả các thuật toán khám phá là Ngưỡng loại bỏ (Rejection Threshold). Giá trị này dùng làm một bộ lọc. Trình soạn thảo ánh xạ chỉ hiển thị các đường phát hiện phù hợp màu vàng với tỷ số phù hợp thấp hơn ngưỡng loại bỏ đã chỉ rõ. Hãy chắc chắn rằng giá trị Rejection threshold với thuật toán signature được đặt bằng 0,5, như được hiển thị ở trên và nhấn vào Next.

    Cách thực hành thích hợp nhất
    Nếu bạn thường thấy mình điều chỉnh các giá trị thiết lập cấu hình nâng cao mặc định của thuật toán khám phá, hãy thay đổi các trị mặc định này trong phần các tùy chọn ưa thích (Trình đơn Window > Preferences, chuyển tới Data > Mapping Editor > Discover Relationships).

  2. Các trang của trình thủ thuật tiếp theo yêu cầu bạn chỉ rõ kết nối cơ sở dữ liệu cho cả hai lược đồ nguồn và đích. Nhấn nút ... bên cạnh mục /RDA_Discovery/old library system.dbm như được hiển thị ở đây.
Hình 37. Các thông số lấy mẫu dữ liệu
Các thông số lấy mẫu dữ liệu
  1. Chọn OLD_LIB từ danh sách và nhấn vào Finish.
Hình 38. Chọn cơ sở dữ liệu lấy mẫu
Chọn cơ sở dữ liệu lấy mẫu
  1. Lặp lại các bước 6 và 7 với /RDA_Discovery/new library system.dbm và cơ sở dữ liệu LIBRARY.
  2. Thuật toán khám phá cung cấp ba tùy chọn cho bộ nhớ sẵn (caching) dữ liệu mẫu:
    • Không nhớ sẵn (No caching) -- Dữ liệu được thu thập từ nguồn dữ liệu cho mỗi lần chạy thực hiện khám phá.
    • Có nhớ sẵn (Memory caching) -- Dữ liệu được lưu trữ trong bộ nhớ trong quá trình thực hiện khám phá lần đầu tiên. Các lần khám phá tiếp theo chạy trên cùng một bảng sẽ thực hiện nhanh hơn. Khuyến nghị dùng thiết lập này khi thực hiện khám phá dưới 50 bảng.
    • Có nhớ sẵn cơ sở dữ liệu (Database caching) -- Dữ liệu được lưu trữ trong một cơ sở dữ liệu quan hệ trong quá trình thực hiện khám phá lần đầu tiên. Các lần khám phá tiếp theo sẽ thực hiện nhanh hơn. Khuyến nghị dùng thiết lập này khi thực hiện khám phá trên 50 bảng.
    Hãy chắc chắn rằng tùy chọn bộ nhớ sẵn In memory được đánh dấu chọn. Nhấn vào Finish.
Hình 39. Lựa chọn bộ nhớ sẵn in-memory
Lựa chọn bộ nhớ sẵn in-memory
  1. Gọi thực hiện khám phá Find Similar trên cột nguồn BOOK_AUTHORS.AUTHORNAME.
  2. Các kết quả phù hợp sau được trả về:
    BOOK_AUTHORS.AUTHORNAME           100%
    BOOK.PUBLISHER_NAME               75%
    STUDENT.NAME                      75%
    LOCATION.NAME                     50%
    BOOK.TITLE                        25%
  3. Loại bỏ tất cả các ánh xạ.
  4. Mở trình thủ thuật cấu hình nâng cao cho thuật toán khám phá và đặt giá trị Rejection threshold cho thuật toán signature thành 0,3, như được hiển thị trong Hình 40.
Hình 40. Điều chỉnh giá trị ngưỡng loại bỏ theo các kết quả lọc
Điều chỉnh giá trị ngưỡng loại bỏ theo các kết quả lọc
  1. Gọi thực hiện khám phá Find Similar trên cột nguồn BOOK_AUTHORS.AUTHORNAME một lần nữa. Kết quả phù hợp BOOK.TITLE không còn là một phần của kết quả nữa. Nó đã được lọc do giá trị tỷ số phù hợp cao hơn 0,3.

Tóm tắt

Trong hướng dẫn này, bạn đã học cách làm thế nào để sử dụng thành phần khám phá của Kiến trúc sư dữ liệu Rational để phát hiện các mối quan hệ lược đồ.

Bây giờ bạn có thể gọi thực hiện các thuật toán dựa theo siêu dữ liệu và dựa theo dữ liệu để phát hiện các điểm giống nhau của các lược đồ. Bạn đã tạo ra mô hình bảng chú giải thuật ngữ của riêng bạn và đã sử dụng nó để phát hiện các điểm giống nhau bằng cách sử dụng các chữ viết tắt và các từ đồng nghĩa. Bạn đã đặt cấu hình thuật toán khám phá sử dụng các mẫu dữ liệu và đã gọi thực hiện thuật toán signature để phát hiện các điểm giống nhau của dữ liệu.

Thành phần khám phá mối quan hệ của Kiến trúc sư Dữ liệu Rational giúp làm giảm đáng kể thời gian tạo ra các ánh xạ phức tạp trong trình soạn thảo ánh xạ của Kiến trúc sư Dữ liệu Rational.


Tải về

Mô tảTênKích thước
RDA_Discovery.zipar-rdamapcode.zip48KB

Tài nguyên

Học tập

Lấy sản phẩm và công nghệ

  • Tải về một bản dùng thử miễn phí của Rational Data Architect.
  • Tải về một bản dùng thử miễn phí của DB2 Enterprise 9.
  • Tải về một bản dùng thử miễn phí của DB2 Enterprise Server Edition, V8.2.
  • Bây giờ bạn có thể sử dụng DB2 miễn phí. Hãy tải về DB2 Express-C, một phiên bản không tính phí của DB2 Express Edition cho cộng đồng nhưng vẫn cung cấp các đặc tính dữ liệu cốt lõi giống như là DB2 Express Edition và tạo ra một cơ sở vững chắc để xây dựng và triển khai ứng dụng.
  • DB2 Enterprise 9 là kết quả của một dự án phát triển năm năm, chuyển đổi một công nghệ cơ sở dữ liệu truyền thống (tĩnh) thành một máy chủ dữ liệu tương tác, kết hợp hiệu năng cao và dễ sử dụng của DB2 với các lợi ích tự mô tả của XML.

Thảo luận

Bình luận

developerWorks: Đăng nhập

Các trường được đánh dấu hoa thị là bắt buộc (*).


Bạn cần một ID của IBM?
Bạn quên định danh?


Bạn quên mật khẩu?
Đổi mật khẩu

Bằng việc nhấn Gửi, bạn đã đồng ý với các điều khoản sử dụng developerWorks Điều khoản sử dụng.

 


Ở lần bạn đăng nhập đầu tiên vào trang developerWorks, một hồ sơ cá nhân của bạn được tạo ra. Thông tin trong bản hồ sơ này (tên bạn, nước/vùng lãnh thổ, và tên cơ quan) sẽ được trưng ra cho mọi người và sẽ đi cùng các nội dung mà bạn đăng, trừ khi bạn chọn việc ẩn tên cơ quan của bạn. Bạn có thể cập nhật tài khoản trên trang IBM bất cứ khi nào.

Thông tin gửi đi được đảm bảo an toàn.

Chọn tên hiển thị của bạn



Lần đầu tiên bạn đăng nhập vào trang developerWorks, một bản trích ngang được tạo ra cho bạn, bạn cần phải chọn một tên để hiển thị. Tên hiển thị của bạn sẽ đi kèm theo các nội dung mà bạn đăng tải trên developerWorks.

Tên hiển thị cần có từ 3 đến 30 ký tự. Tên xuất hiện của bạn phải là duy nhất trên trang Cộng đồng developerWorks và vì lí do an ninh nó không phải là địa chỉ email của bạn.

Các trường được đánh dấu hoa thị là bắt buộc (*).

(Tên hiển thị cần có từ 3 đến 30 ký tự)

Bằng việc nhấn Gửi, bạn đã đồng ý với các điều khoản sử dụng developerWorks Điều khoản sử dụng.

 


Thông tin gửi đi được đảm bảo an toàn.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=70
Zone=Rational, Information Management
ArticleID=972279
ArticleTitle=Loạt bài các kỹ năng của Kiến trúc sư dữ liệu Rational, Phần 3: Phát hiện các mối quan hệ của lược đồ bằng Kiến trúc sư dữ liệu Rational
publish-date=07042009