Trong thống kê, sự quá khớp (tiếng Anh: overfitting) là kết quả của một phân tích mà tương ứng với việc đạt độ chính xác quá cao với một tập dữ liệu nào đó, vì vậy điều này có thể thất bại khi so khớp với các dữ liệu bổ sung hoặc dự đoán các quan sát đáng tin cậy trong tương lai.[1] Một mô hình quá khớp là một mô hình thống kê chứa nhiều tham số hơn có thể chứng minh bằng dữ liệu.[2] Bản chất của sự quá khớp là việc vô tình trích xuất những biến thể dư thừa (ví dụ như phân số phương sai chưa giải thích được) như khi các biến thể thể hiện cấu trúc mô hình cơ bản.[3]:45

Hình 1.  Đường màu xanh lục thể hiện mô hình quá khớp và đường màu đen thể hiện một mô hình chính quy. Trong khi đường xanh lục bám sát dữ liệu huấn luyện tốt nhất thì nó lại quá phụ thuộc vào dữ liệu và dường như sẽ có tỉ lệ lỗi cao trên các dữ liệu chưa biết đến (dữ liệu thử nghiệm) so với đường màu đen.

Chú thích sửa

  1. ^ Definition of "overfitting Lưu trữ 2019-05-22 tại Wayback Machine" at Oxford Dictionaries: this definition is specifically for statistics.
  2. ^ Everitt B.S., Skrondal A. (2010), Cambridge Dictionary of Statistics, Cambridge University Press.
  3. ^ Burnham, K. P.; Anderson, D. R. (2002), Model Selection and Multimodel Inference (ấn bản 2), Springer-Verlag. (This has over 44000 citations on Google Scholar.)

Tham khảo sửa

Đọc thêm sửa

Liên kết ngoài sửa