Trigram là một trường hợp đặc biệt của N-gram, với n là 3. Trigram thường được sử dụng trong xử lý ngôn ngữ tự nhiên để thực hiện phân tích thống kê văn bản và trong mật mã học để kiểm soát và sử dụng cho các ciphermã hiệu. Trigram thường được dùng để dò lọc nội dung spam, dò lỗi chính tả trong văn bản.[1][2] Người ta thường phân tích Trigram ở cấp độ từ, cấp độ ký tự, và cấp độ token.

Ví dụ sửa

Với câu "the quick red fox jumps over the lazy brown dog" thì có các trigram ở cấp độ từ như sau:

the quick red
quick red fox
red fox jumps
fox jumps over
jumps over the
over the lazy
the lazy brown
lazy brown dog

Với một trigram ở cấp độ từ "the quick red" có các trigram ở cấp độ ký tự như sau (dấu "_" thay thế cho khoảng trắng):

the
he_
e_q
_qu
qui
uic
ick
ck_
k_r
_re
red

Tham khảo sửa

  1. ^ Ma, X., Shen, Y., Chen, J., & Xue, G. (2011). Combining naive bayes and tri-gram language model for spam filtering. In Knowledge engineering and management (pp. 509-520). Springer, Berlin, Heidelberg.
  2. ^ Zamora, E. M., Pollock, J. J., & Zamora, A. (1981). The use of trigram analysis for spelling error detection. Information Processing & Management, 17(6), 305-316.

Liên kết ngoài sửa