Mô hình không gian véctơ

Mô hình đại số đại diện cho văn bản (và bất kỳ đối tượng nào một cách tổng quát) như các vector của các định danh

Mô hình không gian véctơ hay mô hình thuật ngữ véctơ (tiếng Anh: vector space model) là một mô hình đại số dùng để thể hiện các tài liệu văn bản (và bất cứ đối tượng nào nói chung) dưới dạng các chỉ số (định danh) nhận dạng không gian vectơ, chẳng hạn như các thuật ngữ chỉ mục. Mô hình này được sử dụng trong hệ thống lọc thông tin (information filtering system), truy hồi thông tin[1], lập chỉ mục và xếp hạng độ liên quan. Mô hình không gian véctơ được sử dụng lần đầu ở hệ thống truy hồi thông tin SMART.

Định nghĩa sửa

Cho một tập bao gồm các tài liệu và các truy vấn được biểu diễn dưới dạng véctơ như sau:

 
 

Với   là biểu diễn của tài liệu thứ    là trọng lượng của từ   xuất hiện trong tài liệu  . Truy vấn   là một truy vấn để tìm kiếm thông tin trên tập các tài liệu và   là trọng lượng của từ   trong truy vấn này.

Mỗi chiều tương ứng một thuật ngữ rời rạc (tách rời). Nếu một thuật ngữ xuất hiện trong tài liệu, giá trị của nó trong véctơ khác không. Có vài cách để tính toán các giá trị này, hay còn gọi là trọng lượng (thuật ngữ) đã được phát triển. Một cách những cách phổ biến là trọng lượng tf–idf.

Khái niệm thuật ngữ được định nghĩa khác nhau tùy theo ứng dụng. Thông thường, thuật ngữ hay được xem là các từ đơn, từ khóa hay các cụm từ dài hơn như danh động từ. Nếu các từ được chọn làm thuật ngữ, thì chiều của vectơ là số từ trong từ vựng (số từ riêng biệt xuất hiện trong ngữ liệu văn bản). Các phép tính vectơ có thể được sử dụng để so sánh tài liệu với các truy vấn.

Các mô hình dựa trên và mở rộng mô hình không gian vectơ sửa

Các mô hình dựa trên hoặc mở rộng mô hình không gian véctơ bao gồm:

Xem thêm sửa

Tham khảo sửa

  1. ^ Melucci M. (2009) Vector-Space Model. In: LIU L., ÖZSU M.T. (eds) Encyclopedia of Database Systems. Springer, Boston, MA. https://doi.org/10.1007/978-0-387-39940-9_918