Phân tích ngữ nghĩa tiềm ẩn

Phân tích ngữ nghĩa tiềm ẩn (tiếng Anh: Latent semantic analysis hay viết tắt thông dụng LSA) là một kỹ thuật trong xử lý ngôn ngữ tự nhiên, đặc biệt là ngữ nghĩa phân phối, phân tích mối quan hệ giữa một tập các tài liệu và các thuật ngữ chứa trong các tài liệu này bằng cách sản sinh ra một tập khái niệm liên quan đến tài liệu và thuật ngữ. LSA giả định các từ gần gũi nhau về ngữ nghĩa sẽ xảy ra trong cùng các mẫu văn bản. Một ma trận chứa tần số từ ở mỗi tài liệu (hàng thể hiện các từ duy nhất và cột thể hiện mỗi tài liệu) được xây dựng từ một mẫu văn bản lớn và một kỹ thuật toán học gọi là phân rã giá trị số ít (SVD), được dùng để giảm thiểu số lượng dòng trong khi vẫn duy trì cấu trúc tương đương giữa các cột. Các tài liệu sau đó được so sánh bằng giá trị cosine của góc giữa hai véctơ (tích vô hướng giữa véctơ đơn vị của 2 véctơ) được hình thành bởi bất kỳ 2 cột nào. Các giá trị gần với 1 thể hiện các tài liệu giống nhau trong khi các giá trị gần 0 nghĩa là các tài liệu có nhiều khác biệt.^[1]

Tham khảo

^ Susan T. Dumais (2005). “Latent Semantic Analysis”. Annual Review of Information Science and Technology. 38: 188–230. doi:10.1002/aris.1440380105.

Đọc thêm

Landauer, Thomas; Foltz, Peter W.; Laham, Darrell (1998). “Introduction to Latent Semantic Analysis” (PDF). Discourse Processes. 25 (2–3): 259–284. CiteSeerX 10.1.1.125.109. doi:10.1080/01638539809545028.
Deerwester, Scott; Dumais, Susan T.; Furnas, George W.; Landauer, Thomas K.; Harshman, Richard (1990). “Indexing by Latent Semantic Analysis” (PDF). Journal of the American Society for Information Science. 41 (6): 391–407. CiteSeerX 10.1.1.33.2447. doi:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9. Bản gốc (PDF) lưu trữ ngày 17 tháng 7 năm 2012. Original article where the model was first exposed.
Berry, Michael; Dumais, Susan T.; O'Brien, Gavin W. (1995). “Using Linear Algebra for Intelligent Information Retrieval”. Chú thích journal cần |journal= (trợ giúp) (PDF) Lưu trữ 2018-11-23 tại Wayback Machine. Illustration of the application of LSA to document retrieval.
“Latent Semantic Analysis”. InfoVis. Bản gốc lưu trữ ngày 18 tháng 2 năm 2020. Truy cập ngày 10 tháng 5 năm 2020.
Fridolin Wild (ngày 23 tháng 11 năm 2005). “An Open Source LSA Package for R”. CRAN. Truy cập ngày 20 tháng 11 năm 2006.
Thomas Landauer, Susan Dumais. “A Solution to Plato's Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge”. Truy cập ngày 2 tháng 7 năm 2007.

[1] Susan T. Dumais (2005). “Latent Semantic Analysis”. Annual Review of Information Science and Technology. 38: 188–230. doi:10.1002/aris.1440380105.

[1]