Các tiêu chuẩn kỹ thuật trong giáo dục, Phần 3: Các kho lưu trữ mở cho thông tin học thuật

Tăng cường tiếp cận nghiên cứu

Các trường đại học và các tổ chức nghiên cứu sử dụng kho lưu trữ mở để nâng cao cách quản lý các kết quả đầu ra của các hoạt động nghiên cứu của họ, và cho phép nghiên cứu này có sẵn cho người dùng trên toàn thế giới. Bài viết này phác thảo lịch sử và những thách thức của thông tin học thuật trong môi trường mở hiện nay. Nó mô tả một số chuẩn và những thách thức kỹ thuật khác nhau liên quan đến việc thu thập, lưu trữ, bảo quản, chuyển nhượng, và đưa ra cách tiếp cận vào nghiên cứu bằng cách sử dụng các kho lưu trữ mở.

Stuart Lewis, Chuyên ngành Hệ thống thông tin

Photograph of Stuart LewisStuart Lewis đã làm việc với các kho lưu trữ mở trong các vai trò khác nhau trong vòng sáu năm qua. Hiện nay, ông là Giám đốc Phát triển kỹ thuật số của Đại học Thư viện Auckland ở New Zealand. Ngoài ra, ông là Giám đốc cộng đồng của dự án SWORD, đang tiếp tục phát triển chuẩn gửi dữ liệu vào kho lưu trữ SWORD. Stuart là một trong những người phát triển nòng cốt và những người đóng góp hàng đầu cho nền tảng kho lưu trữ nguồn mở DSpace. Ông ủng hộ các bộ công cụ tạo khách hàng SWORD EasyDeposit, và bản đồ ứng dụng hỗn hợp Repository66 của các kho lưu trữ mở. Trước khi làm việc ở Auckland, Stuart đã làm việc trong một trường đại học của Vương quốc Anh, ở đây ông đã lãnh đạo một nhóm kỹ thuật đảm trách việc nghiên cứu các kho lưu trữ mở được tài trợ, bao gồm cả truy cập mở và các kho lưu trữ dữ liệu. Ông là một người đóng góp chính trong việc tạo dự án Hỗ trợ kho lưu trữ mở (RSP) của Vương quốc Anh, là người hỗ trợ và hướng dẫn dịch vụ cho các tổ chức giáo dục trung học về các kho lưu trữ mở. Stuart viết blog tại địa chỉ http://blog.stuartlewis.com.



21 11 2011

Giới thiệu

Nghiên cứu là nỗ lực tìm kiếm kiến thức mới và những cải tiến trong đời sống và xã hội. Nó bao trùm các chủ đề khác nhau về vật lý hay lịch sử, di truyền học hoặc động lực học, mong muốn tạo ra vật liệu xây dựng mới hoặc để hiểu được trí tuệ con người. Thế giới thông tin học thuật là trung tâm của nghiên cứu. Nó cho phép các nhà nghiên cứu phổ biến các phát hiện của họ cho những người khác thông qua việc sử dụng các các bài báo hàng ngày được xuất bản, các sách, các hội nghị, hoặc các định dạng phương tiện truyền thông mới. Nếu không có sự phổ biến này, sẽ không thể thực hiện được các giá trị nghiên cứu.

Các phương thức phổ biến này đã thúc đẩy nghiên cứu và các tổ chức nghiên cứu như là các trường đại học, các phòng thí nghiệm của chính phủ, và các trách nhiệm nghiên cứu từ thiện suốt hàng trăm năm. Các hội Hoàng gia đã là một số trong những tổ chức đầu tiên xuất bản các bộ sưu tập nghiên cứu, tiếp theo là các Hội học thuật.

Với hơn 300 tỷ Đô la chi cho nghiên cứu và phát triển hàng năm chỉ riêng ở Mỹ (xem Tài nguyên), việc phổ biến có hiệu quả nghiên cứu và dữ liệu nghiên cứu đang làm tăng tầm quan trọng của những nhà tài trợ nghiên cứu.

Một yếu tố quan trọng của hệ thống thông tin học thuật là việc sử dụng đánh giá của chuyên gia. Trước khi một bài báo được công bố, nó thường được đưa cho các chuyên gia đánh giá, ở đây một nhóm các chuyên gia trong lĩnh vực này xem xét kỹ lưỡng bài báo độc lập và ẩn danh này. Điều này bảo đảm các kết quả nghiên cứu chính xác và tin cậy. Các kết quả nghiên cứu đã được đưa ra cho các chuyên gia đánh giá tất nhiên được coi trọng cao hơn so với những kết quả nghiên cứu không được các chuyên gia đánh giá.

Tuy nhiên thế giới thông tin học thuật có đang thực hiện như vậy không?


Tính mở

Các kho lưu trữ mở, các chuẩn được chia sẻ, và các giao thức có khả năng tương tác chung là cần thiết để thu thập, bảo quản, và cung cấp truy cập cho nghiên cứu học thuật. Các từ khóa trong tất cả các khía cạnh này là mở. Thông qua việc sử dụng các chuẩn mở và các hệ thống mở, thế giới thông tin học thuật có thể hoạt động trực tuyến theo nhiều cách mạnh mẽ hơn bao giờ hết, cho phép nghiên cứu trở nên dễ tiếp cận và tái sử dụng hơn.

Một trong những từ thông dụng trong những năm gần đây là mở:

  • Các nền tảng mở
  • Các kiến trúc mở
  • Các chuẩn mở
  • Mã nguồn mở

Nó giống với thông tin học thuật. Nhiều người tin rằng có thể cải thiện cách hệ thống hoạt động thông qua rất nhiều triết lý, hệ thống, và các chuẩn mở đã phát triển.

Truy cập mở

Trong thời gian tồn tại nhiều năm, phong trào truy cập mở đã tăng lên rất nhanh trong vòng 15 năm qua. Do việc đưa vào in ấn báo chí đã cho phép lan truyền kiến thức nhanh hơn so với bất kỳ thời gian nào trước đó, nên sự phát triển nhanh chóng và sự thu hút của Mạng toàn cầu (World Wide Web) đã có khả năng tác động to lớn tương tự như cách phổ biến các kết quả nghiên cứu. Tuy nhiên, nhiều người trong lĩnh vực nghiên cứu tin rằng khả năng này vẫn chưa được thực hiện vì nghiên cứu thường bị cất kỹ bên trong các ấn phẩm.

Nghiên cứu thường được công bố thông qua các tạp chí hoặc các tạp chí xuất bản định kỳ, đòi hỏi phải đặt mua dài hạn, để truy cập và đọc các nội dung. Các thư viện trong các tổ chức nghiên cứu chi ra một lượng tiền lớn để đặt mua dài hạn các tạp chí nhằm giúp cho các nhà nghiên cứu của họ có thể có quyền tiếp cận các kết quả nghiên cứu đã công bố. Do đó tổ chức nghiên cứu phải trả tiền hai lần để truy cập vào nghiên cứu đó:

  1. Tổ chức trả tiền cho các nhà nghiên cứu để thực hiện và xuất bản nghiên cứu đó.
  2. Tổ chức trả tiền cho nhà xuất bản để truy cập bản sao được công bố của nghiên cứu đó.

Do nhiều nghiên cứu được tài trợ hoặc từ tiền thuế thông qua các trợ cấp từ các chương trình nghiên cứu có tài trợ của của chính phủ hoặc bởi niềm tin vào nghiên cứu từ thiện, nên nhiều người tin rằng thật không công bằng, hoặc thậm chí là sai lầm, khi nghiên cứu đó phải bị trả tiền hai lần, cho các nhà xuất bản thương mại kiếm được lợi nhuận từ hệ thống, và người nộp thuế không có quyền truy cập miễn phí.

Niềm tin này nảy sinh ra khái niệm xuất bản truy cập mở. Nghiên cứu có thể hoặc là do các nhà nghiên cứu tự lưu trữ miễn phí trực tuyến trong các kho lưu trữ mở, hoặc không phải trả tiền cho nhà xuất bản để đưa ra các kết quả nghiên cứu tự do có sẵn mà không cần đặt mua.

Có thể hiểu được những bất đồng trong các cộng đồng nghiên cứu và xuất bản về truy cập mở và cho dù đó là một điều tốt, thì nó nên được tài trợ như thế nào, và liệu nó có nhất thiết không. Tuy nhiên, nhiều nhà tài trợ nghiên cứu nghĩ rằng nghiên cứu được tài trợ nên có sẵn miễn phí và yêu cầu các kết quả của nghiên cứu bất kỳ mà họ tài trợ phải có sẵn theo cách này (xem Tài nguyên).

Dù lòng tin của bạn trong lĩnh vực này có thế nào đi nữa, thì vẫn có những thách thức kỹ thuật thú vị liên quan để việc thu thập, lưu trữ, bảo quản, chuyển nhượng, và tạo ra truy cập đến nghiên cứu theo một cách mở. Hơn nữa, trong suốt thập kỷ qua sự quan tâm giải phóng nghiên cứu khỏi bị cất giữ trong các tác phẩm chưa xuất bản như là các luận án và các bài thuyết trình điện tử, các tập hợp dữ liệu, và được gọi là các tài liệu màu xám đã phát triển. Nhờ đặt các tác phẩm nghiên cứu này trực tuyến nên có thể mở khóa nghiên cứu để truy cập và sử dụng.

Các kho lưu trữ mở

Các kho lưu trữ mở được sinh ra từ mong muốn làm cho các tài liệu nghiên cứu có sẵn trực tuyến. Về bản chất, một kho lưu trữ mở chỉ đơn giản là một trang web dựa vào cơ sở dữ liệu có các tệp và siêu dữ liệu mô tả, nhưng, để thực hiện có hiệu quả, chúng luôn có khả năng sau:

  • Tiếp nhận và lưu trữ các tài liệu.
  • Mô tả chính xác các tài liệu được lưu trữ.
  • Quản lý các tài liệu và mô tả của chúng.
  • Bảo quản các tài liệu dài hạn.
  • Phổ biến các tài liệu lưu trữ.

Các khả năng này được tóm tắt trong Mô hình tham chiếu (Reference Model) cho một chuẩn ISO của Hệ thống thông tin lưu trữ mở (OAIS - Open Archival Information System) (xem Tài nguyên). Trong mô hình này, các mục do các nhà sản xuất tạo ra, được người dùng sử dụng, và được hệ thống quản lý. Các kho lưu trữ mở cung cấp ba chức năng chủ yếu này.

Để mô tả nội dung của chúng, các kho lưu trữ sử dụng siêu dữ liệu, có nghĩa là, dữ liệu về dữ liệu được cất giữ. Có nhiều kiểu siêu dữ liệu khác nhau được sử dụng cho các mục đích khác nhau. Rõ ràng nhất là siêu dữ liệu mô tả cung cấp một mô tả về chính mục đó. Kiểu này thường bao gồm các trường như tiêu đề, ngày, người tạo, ngày tháng, mô tả, hoặc nhà xuất bản. Siêu dữ liệu cần được mã hóa theo một chuẩn mở để đảm bảo rằng có thể đọc và hiểu nó. Các chuẩn dùng chung cho siêu dữ liệu mô tả gồm có Dublin Core và MODS (Metadata Objects Description Schema - Lược đồ mô tả đối tượng siêu dữ liệu) (xem Tài nguyên).

Ngoài siêu dữ liệu mô tả, cũng có thể lưu trữ các dạng siêu dữ liệu khác. Ví dụ, Siêu dữ liệu bảo quản được dự kiến để trợ giúp bảo vệ mục đó dài hạn. Siêu dữ liệu bảo quản có thể bao gồm định dạng tệp của mục đó, phiên bản phần mềm cần thiết để xem mục đó, kích thước của mục đó, kiểm tra tổng của các tệp của mục đó, và phần mềm được sử dụng để tạo ra mục đó.

Cũng như yêu cầu mô tả chính xác một mục, việc bảo quản phụ thuộc vào các hoạt động khác mà kho lưu trữ cần thực hiện. Một số hoạt động này rất đơn giản, chẳng hạn như kiểm tra thường xuyên các kiểm tra tổng các mục của tệp để đảm bảo rằng chúng không bị lỗi bit (bit-rot). Các hoạt động khác có thể phức tạp hơn, chẳng hạn như chuyển đổi các định dạng tệp khi định dạng cũ trở nên lỗi thời, hoặc thực hiện nhận dạng tệp tự động để phân loại các kiểu tệp.

Để phổ biến các mục, kho lưu trữ đóng một vai trò quan trọng là cung cấp các URL lâu bền. Các URL lâu bền được thiết kế để đảm bảo rằng bất cứ ai đang trích dẫn một mục bằng URL của nó thì trong nhiều năm sau vẫn có thể lấy ra mục đó bằng cách sử dụng đúng URL này. Việc cung cấp các URL lâu bên đến từ hai tầng. Tầng đầu tiên và quan trọng nhất là sử dụng các mã định danh để nhận biết một mục đơn là duy nhất trong kho lưu trữ. Tầng tùy chọn thứ hai được nhiều kho lưu trữ sử dụng là sử dụng dịch vụ mã định danh lâu bền của một bên thứ ba. Ví dụ, nền tảng kho lưu trữ mã nguồn mở DSpace thường sử dụng hệ thống "Handle" (xử lý) của Tổng công ty Các sáng kiến nghiên cứu Quốc gia (CNRI - Corporation for National Research Initiative), mặc dù vẫn có những lựa chọn thay thế khác như Persistent-URL (PURL - hệ thống URL lâu bền). Những dịch vụ này hoạt động bằng cách sử dụng một mức bổ xung gián tiếp. PURL trỏ tới một miền của bên thứ ba để lần lượt chuyển URL đó đến URL của kho lưu trữ.

Ví dụ, http://hdl.handle.net/2292/5315 chuyển hướng những người dùng tới http://researchspace.auckland.ac.nz/handle/2292/5315.

URL lâu bên được tạo bởi ba phần:

  1. http://hdl.handle.net/— URL của dịch vụ URL lâu bền.
  2. /2292/— Mã định danh của kho lưu trữ.
  3. 5315— Mã định danh của mục đó trong kho lưu trữ.

Mục đích của các dịch vụ URL lầu bền là nếu kho lưu trữ thay đổi theo bất kỳ cách nào, ví dụ phần mềm thay đổi, tên miền thay đổi, hoặc các mã định danh thay đổi, thì vẫn có thể cập nhật được trình xử lý URL lâu bền để đảm bảo rằng nó chuyển hướng những người dùng đến các URL mới.

Lịch sử của các kho lưu trữ mở

Người ta cho rằng, kho lưu trữ mở đầu tiên và nổi tiếng nhất là kho lưu trữ arXiv.org (phát âm là "archive - lưu trữ") với các bản thảo nghiên cứu khoa học chưa xuất bản (xem Tài nguyên). Nó được tạo vào năm 1991 và nằm trong nhóm kho lưu trữ theo chủ đề, vì nó chỉ lưu giữ các mục liên quan đến vật lý, toán học, khoa học máy tính, và các chủ đề liên quan. arXiv.org lưu giữ hơn nửa triệu bản thảo nghiên cứu khoa học, đó là các bài báo đã viết xong nhưng vẫn chưa được các chuyên gia đánh giá hoặc chính thức được chấp nhận để công bố trên tạp chí hoặc hội nghị truyền thống. Trong môi trường nghiên cứu chuyển động nhanh, các nhà nghiên cứu muốn chia sẻ công việc của họ theo cách này để tránh bị mất thời gian cho xuất bản truyền thống.

Có một số kho lưu trữ chủ đề nổi tiếng khác dành cho lĩnh vực khác nhau. Đó là RePEc (Research Papers in Economics - Các tài liệu nghiên cứu Kinh tế) và E-LIS (Eprints in Library and Information Science - Eprints trong Khoa học Thư viện và Thông tin). Xem phần Tài nguyên ở cuối bài viết này để biết các liên kết.

Mối quan tâm rộng lớn hơn tiếp theo về tạo các kho lưu trữ mở, là một nền tảng kho lưu trữ mã nguồn mở được gọi là EPrints được tạo năm 2000. Phần mềm này, được phát triển tại Trường khoa học Điện tử và Máy tính thuộc Đại học Southampton, được viết bằng Perl và vẫn là một trong những nền tảng hàng đầu được dùng để tạo ra các kho lưu trữ mở.

Năm 2002, sự hợp tác giữa Các phòng thí nghiệm nghiên cứu của Hewlett Packard và MIT đã tung ra nền tảng kho lưu trữ DSpace mã nguồn mở. DSpace được phát triển bằng Java và các JSP, trong khi nhiều phiên bản gần đây lại bao gồm một giao diện người dùng Cocoon và XSLT.

Người tham gia chính khác trong thế giới nền tảng kho lưu trữ mã nguồn mở là Fedora (Flexible Extensible Digital Object Repository Architecture - Kiến trúc kho lưu trữ đối tượng số có khả năng mở rộng linh hoạt), ban đầu do Tập đoàn nghiên cứu thư viện số của trường đại học Cornell phát triển. Fedora khác với EPrints và DSpace ở chỗ nó không có giao diện người dùng cuối đầy đủ với nền tảng lõi. Do đó, có một số dự án hoặc các nhóm đã phát triển và hỗ trợ các giao diện người dùng khác nhau.

Một tên mới tham gia vào lĩnh vực kho lưu trữ mã nguồn mở là Microsoft® với kho lưu trữ Zentity của mình vào năm 2008. Nền tảng này được xây dựng trên chồng công nghệ của Microsoft bao gồm cả .Net và SQL Server.

Các kho lưu trữ nguồn mở DSpace, EPrints, Fedora, và Zentity vẫn được duy trì tốt và được các quỹ và các dịch vụ thương mại tài trợ. Vào năm 2007, DSpace Foundation and Fedora Commons đã được thành lập như là các tổ chức phi lợi nhuận để đảm bảo sự phát triển liên tục và bền vững cho các nền tảng này. Vào năm 2009, DSpace Foundation và Fedora Commons sáp nhập để tạo ra tổ chức Duraspace và đang tìm cách để cho phép hai nền tảng này hoạt động chặt chẽ với nhau. EPrints chạy một dịch vụ thương mại để cung cấp lưu trữ trên máy chủ, phát triển, tuỳ chỉnh, và tích hợp phần mềm của họ.

Ngoài các nền tảng kho lưu trữ mã nguồn mở, có một số lựa chọn thương mại. Nhà cung cấp lớn nhất về hệ thống kho lưu trữ mở thương mại là BEPress với sản phẩm Digital Commons của mình. Có nhiều giải pháp lưu trữ trên máy chủ dựa vào các nền tảng mã nguồn mở, chẳng hạn Kho lưu trữ mở của BioMed Central (BioMed Central's Open Repository) dựa vào DSpace, và hệ thống EPrint có lưu trữ trên máy chủ của EPrints Services.

Đa số các kho lưu trữ EPrints, DSpace, và Fedora có thể được phân loại làm kho lưu trữ của tổ chức. Chúng thường do một viện nghiên cứu, trường đại học, hoặc bộ phận tạo ra để cho các nhà nghiên cứu của họ sử dụng.

Một kiểu kho lưu trữ khác đang trở nên phổ biến hơn là kho lưu trữ đối tượng học tập. Các kho lưu trữ này cất giữ các bản sao về các đối tượng học tập, hoặc các mô đun thông tin cho phép giảng dạy một kỹ năng hoặc môn học cụ thể. Các trường đại học rất cố gắng trong việc tạo ra các tài liệu học tập, và như với nghiên cứu, có nhiều luận cứ tốt để chia sẻ các tài liệu này hơn là giữ chúng bị khóa chặt trong một tổ chức cụ thể. Các ví dụ hay về đối tượng học tập hoặc các kho lưu trữ phần mềm tin học dành cho giáo dục bao gồm các trang web OpenCourseware của MIT hoặc iTunes U của Apple.

Có hai trang web theo dõi sự phát triển của các kho lưu trữ mở:

  • ROAR: Kho lưu trữ về các kho lưu trữ truy cập mở
  • OpenDOAR: Thư mục mở về các kho lưu trữ truy cập mở

Hình 1 là đồ thị của ROAR cho thấy số lượng các kho lưu trữ đã phát triển từ khởi đầu khiêm tốn vào những năm 1990, đến sự gia tăng nhanh chóng trong thập kỷ qua như thế nào.

Hình 1. Sự phát triển của các kho lưu trữ và các bản ghi được cất giữ (của ROAR)
Sự phát triển của các kho lưu trữ và các bản ghi được cất giữ (của ROAR)

Hình 2 cho thấy bản đồ của trang web Repository66, đó là một ứng dụng hỗ hợp của dữ liệu từ ROAR và OpenDOAR, và một bản đồ Google để hiển thị phân bố địa lý và kiểu kho lưu trữ trên toàn cầu. Nó hiện đang hiển thị trên 1.650 kho lưu trữ, chứa hơn 27 triệu mục.

Hình 2. Sự phân phối và các kiểu kho lưu trữ trên toàn thế giới theo repository66.org
Sự phân phối và các kiểu kho lưu trữ trên toàn thế giới theo repository66.org

Các chuẩn mở

Để hoạt động có hiệu quả với nhau, các kho lưu trữ mở đòi hỏi các chuẩn mở. Có các chuẩn mở cho từng hoạt động chung có thể do các kho lưu trữ đảm trách. Các hoạt động như vậy bao gồm việc thu thập, tìm kiếm, gửi dữ liệu, xác thực, và mô tả các nội dung. Hai chuẩn mở cụ thể đã trở thành chuẩn cốt lõi cho khả năng tương tác của kho lưu trữ là OAI-PMH (Open Archives Initiative's Protocol for Metadata Harvesting - Giao thức các sáng kiến lưu trữ mở để thu thập siêu dữ liệu) và SWORD (Gửi dữ liệu vào kho lưu trữ theo đề nghị của dịch vụ web đơn giản).

OAI-PMH

Các chuẩn mở có liên quan đến kho lưu trữ lâu đời nhất và lớn nhất là OAI-PMH (Giao thức các sáng kiến lưu trữ mở để thu thập siêu dữ liệu). Giao thức này cho phép các nội dung của các kho lưu trữ mở được thu thập bằng các hệ thống khác. OAI-PMH cung cấp một phương thức theo đó các hệ thống tìm kiếm tổng hợp lớn hơn có thể cung cấp một dịch vụ tìm kiếm liên kết xuyên qua nhiều kho lưu trữ. Thay vì phải dựa vào tìm kiếm trên màn hình, OAI-PMH cho phép các nhà cung cấp tìm kiếm thu thập các siêu dữ liệu có cấu trúc thô từ các kho lưu trữ. Điều này có thể cung cấp các cơ chế tìm kiếm mạnh mẽ hơn khi dữ liệu được thu thập theo các trường cụ thể như tiêu đề, tác giả, bản tóm tắt, và các từ khóa.

OAI-PMH là một giao thức dựa trên XML có sử dụng một số động từ. Sử dụng các động từ này, cùng với các đối số bổ xung, để hướng dẫn kho lưu trữ mô tả nội dung của nó.

  • Identify: Kho lưu trữ có thể cung cấp thông tin nhận biết về bản thân kho lưu trữ, bao gồm cả các thuộc tính như tên gọi, URL, địa chỉ email liên hệ của nó và các tùy chọn nào được giao diện hỗ trợ.
    • http://repository.example.com/oai-pmh?verb=Identify
  • ListMetadataFormats: Các giao diện OAI-PMH có thể trưng ra siêu dữ liệu của các mục được lưu trữ theo các định dạng hoặc chuẩn siêu dữ liệu khác nhau. Động từ này sẽ liệt kê các định dạng siêu dữ liệu mà kho lưu trữ hỗ trợ. Các yêu cầu sử dụng các động từ khác có thể chỉ rõ định dạng của siêu dữ liệu.
    • http://repository.example.com/oai-pmh?verb=ListMetadataFormats
  • ListSets: Một kho lưu trữ có thể phân vùng các mục của nó thành các tập. Một tập có thể tương tự như một bộ sưu tập cụ thể. Điều này rất có ích khi chỉ có một tập con của một kho lưu trữ cần được thu thập. Động từ ListSets liệt kê tất cả các tập được chứa trong kho lưu trữ. Các yêu cầu sử dụng các động từ khác có thể nói rõ tập nào cần thu thập.
    • http://repository.example.com/oai-pmh?verb=ListSets
  • ListRecords: Động từ này cung cấp một trong những cách chủ yếu để thu thập dữ liệu. Nó sẽ liệt kê tất cả các bản ghi trong kho lưu trữ phù hợp với các tham số đã được chấp nhận. Giá trị metadataPrefix (đang chứa một giá trị của đáp ứng ListMetadataFormats) phải được định sẵn để nói rõ định dạng siêu dữ liệu nào là siêu dữ liệu cần được thể hiện. Các tham số tùy chọn có thể được sử dụng để cải thiện việc thu thập, bao gồm từ các ngày và cho đến các ngày, và tập cụ thể. Các trình thu thập sẽ thường thực hiện một thu thập đầy đủ, và sau đó các thu thập tăng dần theo định kỳ, sử dụng tham số from cho thu thập duy nhất mới được thêm vào các mục.
    • http://repository.example.com/oai-pmh?verb=ListRecords&metadataPrefix=oai_dc
    • http://repository.example.com/oai-pmh?verb=ListRecords&metadataPrefix=
      oai_dc&from=2000-01-01&until=2010-01-01&set=collection5
  • GetRecord: Khi sử dụng OAI-PMH có thể lấy ra một mục duy nhất bằng cách sử dụng động từ này và chỉ rõ mã định danh của mục cần lấy ra.
    • http://repository.example.com/oai-pmh?verb=GetRecord&metadataPrefix=
      oai_dc&identifier=oai:123:456
  • ListIdentifiers: Động từ này giống hệt với động từ ListRecords, ngoại trừ rằng chỉ có các mã định danh phù hợp với các bản ghi mới được trả về chứ không phải là toàn bộ các bản ghi của chúng. Phương thức này đôi khi được sử dụng nếu một trình thu thập muốn thu thập các mục riêng biệt. Đầu tiên chúng có thể nhận lấy một danh sách các mục cần thu thập, và sau đó lấy ra từng mục riêng biệt bằng cách sử dụng động từ GetRecord.
    • http://repository.example.com/oai-pmh?verb=ListIdentifiers&metadataPrefix=oai_dc
    • http://repository.example.com/oai-pmh?verb=ListIdentifiers&metadataPrefix=
      oai_dc&from=2000-01-01&until=2010-01-01&set=collection5

Liệt kê 1 cho thấy một ví dụ đáp ứng của một mã định danh OAI-PMH. Đáp ứng này được lấy từ địa chỉ URL sau đây: http://researchspace.auckland.ac.nz/dspace-oai/request?verb=
GetRecord&identifier=oai:researchspace.auckland.ac.nz:2292/5315&metadataPrefix=oai_dc
.

Mã này cho thấy hai phần của một đáp ứng OAI-PMH điển hình. Đầu tiên là tiêu đề, và các phản hồi lại mô tả chi tiết về yêu cầu đó, và thời gian đã được thực hiện. Phần thứ hai cho thấy đáp ứng của hành động được yêu cầu. Trong trường hợp này nó chỉ là một bản ghi, chia thành tiêu đề của nó để mô tả mục đó (mã định danh của nó, khi đã thay đổi lần cuối, và thuộc về các tập nào) và siêu dữ liệu theo định dạng bắt buộc oai_dc.

Liệt kê 1. Một ví dụ về OAI-PMH đáp ứng một yêu cầu GetRecord
<?xml version="1.0" encoding="UTF-8" ?>
<OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" 
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ 
http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd">
     <responseDate>2010-10-09T07:55:12Z</responseDate>
     <request identifier="oai:researchspace.auckland.ac.nz:2292/5315" 
metadataPrefix="oai_dc" verb="GetRecord">
          http://researchspace.auckland.ac.nz/dspace-oai/request
     </request>
     <GetRecord>
          <record>
              <header>
    <identifier>oai:researchspace.auckland.ac.nz:2292/5315</identifier>
              <datestamp>2009-10-13T11:31:12Z</datestamp>
              <setSpec>hdl_2292_125</setSpec>
              </header>
            <metadata>
              <oai_dc:dc xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/"
 xmlns:dc="http://purl.org/dc/elements/1.1/" 
 xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
 xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/oai_dc/ 
 http://www.openarchives.org/OAI/2.0/oai_dc.xsd">
          <dc:title>If SWORD is the answer, what is the question? 
Use of the Simple Web-service Offering Repository Deposit protocol</dc:title>
                     <dc:creator>Lewis, Stuart</dc:creator>
                             <dc:creator>Hayes, Leonie</dc:creator>
                             <dc:creator>Newton-Wade, Vanessa</dc:creator>
                             <dc:creator>Corfield, Antony</dc:creator>
                             <dc:creator>Davis, Richard</dc:creator>
                             <dc:creator>Wilson, Scott</dc:creator>
                             <dc:description>Purpose - To describe the 
repository deposit protocol, Simple Web-service Offering Repository Deposit (SWORD), 
its development iteration, and some of its potential use cases. In addition, seven 
case studies of institutional use of SWORD are provided.  Approach - The paper 
describes the recent development cycle of the SWORD standard, with issues being 
identified and overcome with a subsequent version. Use cases and case studies 
of the new standard in action are included to demonstrate the wide range of practical
uses of the SWORD standard. </dc:description>
                              <dc:publisher>Emerald</dc:publisher>
                              <dc:date>2009</dc:date>
                              <dc:type>Journal Article</dc:type>
          <dc:identifier>Program: electronic library and information systems 43 
(4), 407-418. (2009)</dc:identifier> <dc:identifier>
0033-0337</dc:identifier>
         <dc:identifier>http://hdl.handle.net/2292/5315</dc:identifier>
             <dc:identifier>10.1108/00330330910998057</dc:identifier>
             <dc:language>en</dc:language>
             <dc:relation>Program: electronic library and information 
systems</dc:relation>
              <dc:rights>Items in ResearchSpace are protected by copyright, 
with all rights reserved, unless otherwise indicated. Previously published items 
are made available in accordance with the copyright policy of the 
publisher.</dc:rights>
               <dc:rights>http://researchspace.auckland.ac.nz/docs/uoa-docs
/rights.htm</dc:rights>
                        </oai_dc:dc>
                 </metadata>
           </record>
     </GetRecord>
</OAI-PMH>

Một trong những tính năng có ích theo quan điểm phát triển khi đang thu thập từ các giao diện OAI-PMH là khả năng trả về siêu dữ liệu cho tất cả các mục theo định dạng oai_dc là bắt buộc đối với một kho lưu trữ. Định dạng này trả về siêu dữ liệu Dublin Core không đủ chuẩn. Dublin Core là một lược đồ siêu dữ liệu tương đối đơn giản do 15 phần tử tạo thành bao gồm tiêu đề, tác giả, mô tả, và ngày. Điều này đảm bảo rằng một trình thu thập có thể thu thập nội dung từ kho lưu trữ bất kỳ, do cần phải hỗ trợ cho định dạng này.

SWORD

Trong khi OAI-PMH cung cấp một cách chuẩn hóa để thu thập các nội dung của các kho lưu trữ, thì SWORD lại cung cấp một cách chuẩn hóa để thực hiện gửi tài nguyên vào trong các kho lưu trữ (xem Tài nguyên để biết thêm thông tin). SWORD là một từ viết tắt của Simple Web-service Offering Repository Deposit (Gửi dữ liệu vào kho lưu trữ theo đề nghị của dịch vụ web đơn giản). Chuẩn này lần đầu tiên được phát triển vào năm 2007 bởi Hiệp hội các trường đại học của Vương quốc Anh với sự tài trợ của JISC (Joint Information Systems Council - Hội đồng các hệ thống thông tin chung) của Vương quốc Anh.

SWORD là một lược tả chuyên ngành của chuẩn AtomPub (xem Tài nguyên) cung cấp một giao thức chung để tạo ra tài nguyên web. Đặc tả SWORD thêm vào các phần mở rộng mới cho phép nó phù hợp với các yêu cầu của các kho lưu trữ. Các phần mở rộng mới này bao gồm các khả năng để thực hiện gửi dữ liệu qua trung gian thay mặt cho người dùng khác, và để định rõ không chỉ có kiểu tệp MIME đang được gửi đi, mà còn cả định dạng đóng gói được sử dụng để tạo ra các tệp đang được gửi đi nữa.

Các giao diện AtomPub và SWORD cung cấp hai phần tử chung để tạo điều kiện thuận lợi cho việc gửi dữ liệu:

  • Tài liệu dịch vụ (Service document): Mỗi kho lưu trữ hoặc thiết bị đầu cuối AtomPub xuất bản một tài liệu dịch vụ để mô tả cho một người dùng hoặc công cụ khách biết vùng nào của kho lưu trữ hoặc trang web để họ có thể gửi dữ liệu vào, các chính sách của bộ sưu tập đó là gì, và URL cần thiết để thực hiện việc gửi dữ liệu.
  • Gửi URL (Deposit URL): Việc gửi các URL đã mô tả trong tài liệu dịch vụ được dùng để chấp nhận việc gửi dữ liệu vào kho lưu trữ. Việc gửi dữ liệu có thể được chấp nhận tự động hoặc có thể tùy thuộc vào luồng công việc hành chính. Các đáp ứng về việc gửi dữ liệu được trả về dưới dạng một tài liệu Atom (Atom Document).

AtomPub được xây dựng xung quanh các động từ HTTP, với GET thường được dùng để lấy ra một tài liệu dịch vụ, POST để tạo tài nguyên mới, PUT để cập nhật tài nguyên hiện có, và DELETE để loại bỏ tài nguyên.

Các yêu cầu đối với các tài liệu dịch vụ và gửi dữ liệu của tài nguyên mới mới thường được kiểm soát bằng một cơ chế xác thực. Điều này đảm bảo rằng tài liệu dịch vụ chỉ liệt kê các bộ sưu tập mà người sử dụng có thể gửi các mục vào trong đó, và đảm bảo rằng việc gửi URL của kho lưu trữ biết người đang thực hiện gửi dữ liệu và đảm bảo rằng họ có quyền hạn để làm như vậy. Các giao diện SWORD thường sử dụng xác thực cơ bản của HTTP.

Ngược lại với AtomPub, ở đây việc gửi dữ liệu có thể là một tệp đơn giản như một hình ảnh được đưa lên một mục blog, các kho lưu trữ thường yêu cầu một gói gửi dữ liệu phức tạp hơn có chứa siêu dữ liệu mô tả cùng với (các) tệp để gửi đi. Hiện nay, trong khi có nhiều định dạng đóng gói tồn tại, thì chúng có xu hướng tách riêng cho từng nền tảng kho lưu trữ hoặc cho các thể loại tài nguyên cụ thể. Không có định dạng đóng gói riêng biệt nào mà tất cả những người dùng cuối SWORD phải chấp nhận, đôi khi định dạng được trích dẫn lại là một rào cản đối với việc sử dụng SWORD.

Do những người dùng đòi hỏi các trình duyệt web để tương tác với các máy chủ web, thì các máy khách SWORD lại thường đòi hỏi để tương tác với những người dùng cuối SWORD của kho lưu trữ. Các máy khách SWORD thường hoặc là tùy chỉnh được xây dựng cho một mục đích hay kho lưu trữ cụ thể, hoặc chung hơn để sử dụng với kho lưu trữ bất kỳ. Các máy khách dùng cho mục đích cụ thể có thể được phát triển cho các mục đích rất chuyên ngành chẳng hạn như cho phép thiết bị thí nghiệm được tự động hóa để gửi các tệp dữ liệu vào một kho lưu trữ. Các ví dụ về các máy khách chung hơn gồm một khách Facebook để gửi dữ liệu từ bên trong Facebook và đăng lên các thông tin chi tiết gửi dữ liệu vào nguồn cấp tin của người dùng.

Các kho lưu trữ có thể hoàn toàn rõ ràng về các kiểu tài nguyên mà chúng sẽ chấp nhận để gửi dữ liệu, và các yêu cầu này được tài liệu dịch vụ mô tả. Liệt kê 2 cho thấy một ví dụ đáp ứng theo yêu cầu cho một tài liệu dịch vụ. Trong ví dụ này, chỉ có một bộ sưu tập có sẵn mà người dùng có thể gửi dữ liệu vào trong đó, và bộ sưu tập đó sẽ chỉ chấp nhận việc gửi dưới dạng các gói được đóng trong một tệp ZIP có chứa một bảng kê siêu dữ liệu METS cùng với các tệp.

Liệt kê 2. Một ví dụ về tài liệu dịch vụ SWORD
<?xml version="1.0" encoding='utf-8'?>
     <service xmlns="http://www.w3.org/2007/app"          
	 xmlns:atom="http://www.w3.org/2005/Atom"       
	 xmlns:sword="http://purl.org/net/sword/"       
	 xmlns:dcterms="http://purl.org/dc/terms/">  
          <sword:level>1</sword:level>  
          <sword:verbose>true</sword:verbose>  
          <sword:noOp>true</sword:noOp>
          <workspace>
               <atom:title>Main Site</atom:title>
               <collection        
                    href="http://repository.example.com/sword/deposit-bio-images">
               <atom:title>Biological image library</atom:title>
               <accept>application/zip</accept>      
               <dcterms:abstract>This is a collection that allows deposits 
into the collection of biological images.</dcterms:abstract>       
               <sword:mediation>true</sword:mediation>      
               <sword:treatment>Images deposited into this collection will be 
converted into JPEG2000 format upon ingest.</sword:treatment>      
               <sword:packaging> http://purl.org/net/sword-types/METSDSpaceSIP
</sword:packaging>
          </collection>
     </workspace>
</service>

Liệt kê 3Liệt kê 4 cho biết các yêu cầu và các đáp ứng gửi dữ liệu điển hình. Yêu cầu này là gửi một gói vào trong một bộ sưu tập cụ thể, và đáp ứng này mô tả chi tiết mã định danh của mục được tạo ra là gì và phản hồi mô tả chi tiết về mục này.

Liệt kê 3. Một ví dụ về tiêu đề yêu cầu HTTP gửi dữ liệu SWORD
POST /sword/deposit-bio-images HTTP/1.1 
Host: repository.example.com
Content-Type: application/zip 
User-Agent: SWORD client XYZ 
Authorization: Basic
Content-Length: 47423

Liệt kê 4 cho thấy một ví dụ về một đáp ứng gửi dữ liệu của SWORD.

Liệt kê 4. Một ví dụ về đáp ứng gửi dữ liệu của SWORD
HTTP/1.1 201 
Created Date: Mon, 4 October 2010 18:00:00
Content-Length: 2434 
Content-Type: application/atom+xml; charset="utf-8" 
Location: http://repository.example.com/sword/deposit-bio-images 

<?xml version="1.0"?>
     <entry xmlns="http://www.w3.org/2005/Atom"       
	 xmlns:sword="http://purl.org/net/sword/">
          <title>My Deposit</title>
          <id>info:something:1</id>
          <updated>2008-08-18T14:27:08Z</updated>    
          <author>
               <name>Stuart Lewis</name>
          </author>    
          <content type="text/html"         
		  src="http://repository.example.com/sword/deposit-bio-images/167"/>    
          <link rel="edit-media" href="http://
		   repository.example.com/sword/deposit-bio-images/167/package.zip"/>    
          <link rel="edit"
href="http://www.myrepository.ac.uk/sword/deposit-bio-images/167.atom" /> 
          <sword:userAgent>SWORD client XYZ</sword:userAgent>           
</entry>

Giao thức SWORD đã phát triển từ khởi đầu của nó thông qua sự phát triển của các phiên bản tiếp theo của giao thức này. Phiên bản hiện tại của chuẩn này là 1.3, và trong năm 2010 việc tài trợ thêm từ JISC đã cho phép khởi động một sáng kiến phát triển một phiên bản quan trọng mới của chuẩn đó.


Kết luận

Các kho lưu trữ mở đang bắt đầu ảnh hưởng đến thế giới thông tin học thuật. Thông qua việc sử dụng các chuẩn mở có khả năng tương tác, các công cụ và các hệ thống mới đang được tạo ra cho phép các nhà nghiên cứu đưa nghiên cứu của mình vào các kho lưu trữ mở, làm cho công việc của họ có thể thấy rõ hơn bao giờ hết. Các nhà nghiên cứu và những người khác (không phải là nhà nghiên cứu) đều có thể dễ dàng tìm kiếm và truy cập các bài viết về chủ đề lựa chọn của họ như nhau. Phong trào truy cập mở đang tìm cách cho phép người nộp thuế có quyền truy cập miễn phí và ngay lập tức vào các kết quả của nghiên cứu do tiền đóng thuế của họ đã tài trợ.

Thay đổi cần có thời gian, và trong một môi trường như thông tin học thuật, có nguồn gốc trước hàng trăm năm, có thể hiểu được là các học giả có thể cảnh giác với những thay đổi này. Các giám đốc của các kho lưu trữ mở đã kết hợp thành công trong việc đưa nghiên cứu vào các kho lưu trữ của họ. Một số các kho lưu trữ mở, chẳng hạn như arXiv.org, là một thành công vang dội, trong khi các kho lưu trữ mở khác lại gặp khó khăn khi thuyết phục các nhà nghiên cứu của mình gửi các bài viết nghiên cứu. Tuy nhiên, dữ liệu phát triển và các bản đồ kho lưu trữ cho thấy các kho lưu trữ mở hiện nay là chủ đạo. Các nhà xuất bản thương mại đang phải tạo ra các chính sách truy cập mở thân thiện, và có các gói phần mềm ổn định và hoàn thiện để cung cấp các nền tảng kho lưu trữ.

Tính mở như vậy của nghiên cứu và dữ liệu nghiên cứu chỉ có thể là một điều tốt, thúc đẩy sự khám phá công nghệ mới và thay đổi thế giới.

John Casey (Digitalinsite) và Gareth Waller (AGW Software) đã phát triển các phác thảo ban đầu cho loạt các bài viết này.

Tài nguyên

Học tập

  • Trang dữ liệu của Ngân hàng Thế giới: Thông tin về tổng giá trị GDP của Mỹ chi cho nghiên cứu và phát triển trong năm 2007 được tính toán bằng cách sử dụng các dữ liệu từ trang dữ liệu của Ngân hàng thế giới.
  • Cơ sở dữ liệu SHERPA Juliet: Truy cập cơ sở dữ liệu SHERPA Juliet để tìm hiểu về nghiên cứu các chính sách truy cập mở được tài trợ.
  • Hệ thống thông tin lưu trữ mở — Mô hình tham khảo. ISO 14721:2003 quy định mô hình tham chiếu cho một hệ thống thông tin lưu trữ mở (OAIS). Mục đích của 14721:2003 ISO này là thiết lập một hệ thống lưu trữ thông tin, theo cả hai số hóa và vật lý.
  • Sáng kiến siêu dữ liệu Dublin Core là một chuẩn được sử dụng chung cho siêu dữ liệu mô tả.
  • MODS là chuẩn thường được sử dụng khác cho siêu dữ liệu mô tả.
  • EPrints là một nền tảng kho lưu trữ nguồn mở.
  • Phần mềm nguồn mở DSpace cho phép chia sẻ nội dung bao trùm nhiều tổ chức, châu lục và thời gian.
  • Fedora là một người tham gia quan trọng khác trong vùng nền tảng của kho lưu trữ nguồn mở.
  • Zentity là một nền tảng kho lưu trữ kết quả nghiên cứu được Microsoft Research phát triển để cung cấp một bộ các khối xây dựng, các công cụ và các dịch vụ để tạo ra và duy trì hệ sinh thái thư viện kỹ thuật số của một tổ chức.
  • Phần mềm và dịch vụ DuraSpace được sử dụng trên toàn thế giới như là các giải pháp cho các kho lưu trữ của tổ chức, xuất bản truy cập mở, các thư viện kỹ thuật số, lưu trữ kỹ thuật số, các bộ sưu tập kỹ thuật số, quản lý dữ liệu, các môi trường nghiên cứu ảo, và nhiều hơn nữa.
  • BioMed Central là một nhà xuất bản STM (Khoa học, Công nghệ và Y học) đã phát minh ra mô hình xuất bản truy cập mở.
  • Giao thức sáng kiến các lưu trữ mở để thu thập siêu dữ liệu (OAI-PMH) cung cấp một khung công tác có khả năng phối hợp độc lập với ứng dụng dựa vào việc thu thập siêu dữ liệu.
  • Tìm hiểu về Gửi dữ liệu vào kho lưu trữ theo đề nghị của dịch vụ web đơn giản (SWORD).
  • "Giao thức xuất bản nguyên tử (AtomPub)", RFC 5023, RFC 5023, là một giao thức cấp ứng dụng để xuất bản và chỉnh sửa tài nguyên web.
  • arXiv.org (phát âm là "lưu trữ") là một kho lưu trữ các bài nghiên cứu khoa học sơ bộ trước khi xuất bản.
  • Các kho lưu trữ chủ đề nổi tiếng khác cho lĩnh vực khác nhau bao gồm RePEc (Các tài liệu nghiên cứu về Kinh tế) và E-LIS (Eprints trong Thư viện và Kho lưu trữa họcThông tin).
  • Truy cập vào trang MITs OpenCourseware site hoặc Apple's iTunes U.
  • Mục đích của Kho lưu trữ của các kho lưu trữ truy cập mở (ROAR) là để thúc đẩy sự phát triển của truy cập mở bằng cách cung cấp thông tin kịp thời về sự tăng trưởng và trạng thái của các kho lưu trữ trên toàn thế giới.
  • Thư mục mở của các kho lưu trữ truy cập mở (OpenDOAR) là một thư mục có thẩm quyền của các kho lưu trữ truy cập mở có tính học thuật.
  • Trang web Repository66 là một ứng dụng hỗng hợp dữ liệu từ ROAR và OpenDOAR, và một bản đồ Google để hiển thị sự phân phối và các kiểu kho lưu trữ trên toàn cầu.
  • Truy cập vào Các ngành công nghiệp của developerWorks của IBM với tất cả tài nguyên kỹ thuật công nghiệp cụ thể dành cho các nhà phát triển.
  • Để nghe các cuộc phỏng vấn và các cuộc thảo luận thú vị dành cho các nhà phát triển phần mềm, hãy xem developerWorks podcasts.
  • Các sự kiện kỹ thuật và Webcast của developerWorks: Theo sát với các sự kiện kỹ thuật và Webcast của developerWorks.

Lấy sản phẩm và công nghệ

Thảo luận

Bình luận

developerWorks: Đăng nhập

Các trường được đánh dấu hoa thị là bắt buộc (*).


Bạn cần một ID của IBM?
Bạn quên định danh?


Bạn quên mật khẩu?
Đổi mật khẩu

Bằng việc nhấn Gửi, bạn đã đồng ý với các điều khoản sử dụng developerWorks Điều khoản sử dụng.

 


Ở lần bạn đăng nhập đầu tiên vào trang developerWorks, một hồ sơ cá nhân của bạn được tạo ra. Thông tin trong bản hồ sơ này (tên bạn, nước/vùng lãnh thổ, và tên cơ quan) sẽ được trưng ra cho mọi người và sẽ đi cùng các nội dung mà bạn đăng, trừ khi bạn chọn việc ẩn tên cơ quan của bạn. Bạn có thể cập nhật tài khoản trên trang IBM bất cứ khi nào.

Thông tin gửi đi được đảm bảo an toàn.

Chọn tên hiển thị của bạn



Lần đầu tiên bạn đăng nhập vào trang developerWorks, một bản trích ngang được tạo ra cho bạn, bạn cần phải chọn một tên để hiển thị. Tên hiển thị của bạn sẽ đi kèm theo các nội dung mà bạn đăng tải trên developerWorks.

Tên hiển thị cần có từ 3 đến 30 ký tự. Tên xuất hiện của bạn phải là duy nhất trên trang Cộng đồng developerWorks và vì lí do an ninh nó không phải là địa chỉ email của bạn.

Các trường được đánh dấu hoa thị là bắt buộc (*).

(Tên hiển thị cần có từ 3 đến 30 ký tự)

Bằng việc nhấn Gửi, bạn đã đồng ý với các điều khoản sử dụng developerWorks Điều khoản sử dụng.

 


Thông tin gửi đi được đảm bảo an toàn.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=70
Zone=Nguồn mở
ArticleID=775693
ArticleTitle=Các tiêu chuẩn kỹ thuật trong giáo dục, Phần 3: Các kho lưu trữ mở cho thông tin học thuật
publish-date=11212011