Trích xuất thông tin (tiếng Anh: information extraction, viết tắt IE) là tác vụ tự động trích xuất thông tin có cấu trúc từ dữ liệu phi cấu trúc và/hoặc các văn bản dữ liệu máy có thể đọc được (machine-readable data) bán cấu trúc và các nguồn tài nguyên thể hiện điện tử khác.[1] Trong đa số các trường hợp, hoạt động này liên quan đến việc xử lý các văn bản ngôn ngữ con người bằng cách phương tiện xử lý ngôn ngữ tự nhiên (NLP). Các hoạt động gần đây trong xử lý tài liệu đa phương tiện như chú thích tự động và trích xuất nội dung ra khỏi hình ảnh/âm thanh/video/tài liệu có thể được xem là trích xuất thông tin.

Xem thêm sửa

Tham khảo sửa

  1. ^ “What is Information Extraction? Ontotext Fundamentals”. Ontotext. Truy cập 23 tháng 2 năm 2021.

Liên kết ngoài sửa