Lưu trữ web

Lưu trữ web (tiếng Anh: Web archiving) là một quá trình thu thập các phần của web để chắc chắn thông tin là dạng lưu trữ kỹ thuật số (Digital preservation) để các nhà nghiên cứu, sử gia và công chúng tra cứu trong tương lai.^[1]

Tổ chức lưu trữ web lớn nhất dựa trên phương pháp thu thập thông tin hàng loạt là Wayback Machine của Internet Archive, duy trì một kho lưu trữ rất lớn của toàn bộ Web.

Thu thập thông tin Web

Thông thường, các nhà lưu trữ nội dung thu thập thông tin các dạng nội dung web như HTML, style sheet (phát triển web), JavaScript, Hình ảnh kỹ thuật số, và video kỹ thuật số. Họ cũng lưu trữ siêu dữ liệu về các nguồn tài nguyên thu thập được như thời gian truy xuất, dạng media, và độ dài nội dung. Dạng siêu dữ liệu này hữu dụng trong việc thiết lập xác thực và nguồn gốc (provenance) của bộ sưu tập lưu trữ.

Tham khảo

^ Habibzadeh, P.; Sciences, Schattauer GmbH - Publishers for Medicine and Natural (ngày 1 tháng 1 năm 2013). “Decay of References to Web sites in Articles Published in General Medical Journals: Mainstream vs Small Journals”. Applied Clinical Informatics. 4 (4). doi:10.4338/aci-2013-07-ra-0055. Bản gốc lưu trữ ngày 2 tháng 3 năm 2020. Truy cập ngày 17 tháng 1 năm 2021.

Sách chuyên khảo

Brown, A. (2006). Archiving Websites: a practical guide for information management professionals. London: Facet Publishing. ISBN 1-85604-553-6.
Brügger, N. (2005). Archiving Websites. General Considerations and Strategies. Aarhus: The Centre for Internet Research. ISBN 87-990507-0-6. Lưu trữ bản gốc ngày 29 tháng 1 năm 2009. Truy cập ngày 22 tháng 9 năm 2015.

Liên kết ngoài

International Internet Preservation Consortium (IIPC) - International consortium whose mission is to acquire, preserve, and make accessible knowledge and information from the Internet for future generations
International Web Archiving Workshop (IWAW) - Annual workshop that focuses on web archiving
National Library of Australia, Preserving Access to Digital Information (PADI)
Library of Congress - Web Archiving

Bài viết liên quan đến World Wide Web này vẫn còn sơ khai. Bạn có thể giúp Wikipedia mở rộng nội dung để bài được hoàn chỉnh hơn.

[1] Habibzadeh, P.; Sciences, Schattauer GmbH - Publishers for Medicine and Natural (ngày 1 tháng 1 năm 2013). “Decay of References to Web sites in Articles Published in General Medical Journals: Mainstream vs Small Journals”. Applied Clinical Informatics. 4 (4). doi:10.4338/aci-2013-07-ra-0055. Bản gốc lưu trữ ngày 2 tháng 3 năm 2020. Truy cập ngày 17 tháng 1 năm 2021.

[1]