Phân tích ngữ nghĩa tiềm ẩn

Phân tích ngữ nghĩa tiềm ẩn (tiếng Anh: Latent semantic analysis hay viết tắt thông dụng LSA) là một kỹ thuật trong xử lý ngôn ngữ tự nhiên, đặc biệt là ngữ nghĩa phân phối, phân tích mối quan hệ giữa một tập các tài liệu và các thuật ngữ chứa trong các tài liệu này bằng cách sản sinh ra một tập khái niệm liên quan đến tài liệu và thuật ngữ. LSA giả định các từ gần gũi nhau về ngữ nghĩa sẽ xảy ra trong cùng các mẫu văn bản. Một ma trận chứa tần số từ ở mỗi tài liệu (hàng thể hiện các từ duy nhất và cột thể hiện mỗi tài liệu) được xây dựng từ một mẫu văn bản lớn và một kỹ thuật toán học gọi là phân rã giá trị số ít (SVD), được dùng để giảm thiểu số lượng dòng trong khi vẫn duy trì cấu trúc tương đương giữa các cột. Các tài liệu sau đó được so sánh bằng giá trị cosine của góc giữa hai véctơ (tích vô hướng giữa véctơ đơn vị của 2 véctơ) được hình thành bởi bất kỳ 2 cột nào. Các giá trị gần với 1 thể hiện các tài liệu giống nhau trong khi các giá trị gần 0 nghĩa là các tài liệu có nhiều khác biệt.[1]

Tham khảo sửa

  1. ^ Susan T. Dumais (2005). “Latent Semantic Analysis”. Annual Review of Information Science and Technology. 38: 188–230. doi:10.1002/aris.1440380105.

Đọc thêm sửa