Khác biệt giữa bản sửa đổi của “Ước lượng”

Nội dung được xóa Nội dung được thêm vào
Không có tóm lược sửa đổi
 
Không có tóm lược sửa đổi
Dòng 1:
Trong [[thống kê]], một '''ước lượng''' là một giá trị được tính toán từ một mẫu thử (''échantillon'') và người ta hy vọng đó là giá trị tiêu biểu cho giá trị cần xác định trong "dân số" (''population''). TaNgười ta luôn tìm một ước lượng sao cho "không bị lệch" (''unbiased''), hội tụ (''converge''), hiệu quả (''eficient'') và vững (''robust'').
 
 
== Ví dụ về ước lượng==
Muốn xác định độ cao trung bình của trẻ ở độ tuổi 10, ta thực hiện một [[điều tra]] trên một mẫu được lấy trên tập thể các trẻ em ở độ tuổi 10 (ví dụ mẫu điều tra là các em học sinh được lấy ngẫu nhiên từ nhiều trường ở nhiều vùng khác nhau). Chiều cao [[trung bình]] tính được từ mẫu điều tra này, thường là trung bình tích lũy, sẽ là một ước lượng cho chiều cao trung bình của trẻ em ở độ tuổi 10.
 
MuốnNếu ta muốn xác định độtỷ caolệ trungbầu bìnhcử của trẻcho ứng độcử tuổiviên 10A, ta có thể thực hiện một [[điều tra]] trên một mẫu đượcdân lấysố trêntiêu tập thể các trẻ em ở độ tuổi 10 (ví dụ mẫu điều tra là các em học sinh được lấy ngẫu nhiên từ nhiều trường ở nhiều vùng khác nhau)biểu. ChiềuTỷ caolệ [[trungbầu bình]]cho tínhA được từtrong mẫu điều tra này, thường là trung bình tích lũy, sẽ là một ước lượng chocủa chiềutỷ caolệ trungbầu bìnhcho A của trẻtoàn emthể dân độ tuổi 10số.
 
 
Nếu ta muốn xác định tỷ lệ bầu cử cho ứng cử viên A, ta có thể thực hiện một điều tra trên một mẫu dân số tiêu biểu. Tỷ lệ bầu cho A trong mẫu điều tra là một ước lượng của tỷ lệ bầu cho A của toàn thể dân số.
 
Giả sử ta muốn xác định tổng số cá có trong hồ, ta bắt đầu bằng cách bắt lên ''n'' con cá (vd n=50), đánh dấu chúng, sau đó lại thả xuống hồ cho chúng lẫn với những con khác. Sau đó lấy một mẫu cá bất kỳ trong hồ, tính tỷ lệ p cá bị đánh dấu trong mẫu đó (ví dụ mẫu có 20 con trong đó có 2 con có dấu, p=1/10). Khi đó giá trị n/p (=500) là một ước lượng cho tổng số cá có trong hồ. Nếu trong mẫu không có con cá nào bị đánh dấu, ta thực hiện lại trên một mẫu khác.
 
Thông thường ta tìm ước lượng cho một [[trung bình]], cho tổng dân số, cho một [[tỷ lệ]] hoặc cho một [[phương sai]].
 
Thông thường ta tìm ước lượng cho một [[trung bình]], cho tổng dân số, cho một [[tỷ lệ]] hoặc cho một [[phương sai]].
 
 
== Đánh giá ước lượng==
Một ước lượng là một giá trị ''x'' (x nhỏ) được tính toán trên một mẫu được lấy một cách ngẫu nhiên, do đó giá trị của ''x'' là một [[biến ngẫu nhiên]] với [[giá trị kỳ vọng|kì vọng]] E(x) và [[phương sai]] V(x). Nghĩa là giá trị ''x'' có thể dao động tùy theo mẫu thử, nó có ít cơ hội để có thể bằng đúng chính xác giá trị ''X'' (X lớn) mà nó đang ước lượng. Mục đích ở đây là ta muốn có thể kiểm soát sự sai lệch giá trị ''x'' và giá trị ''X''.
 
** Một biến ngẫu nhiên luôn dao động xung quanh [[giá trị kì vọng]] của nó. Ta muốn là kì vọng của ''x'' phải bằng ''X''. Khi đó ta nói ước lượng là '''không lệch''' (''unbiased''). Trung bình tích lũy trong ví dụ về chiều cao trung bình của trẻ 10 tuổi một ước lượng không lệch, trong khi ước lượng về tổng số cá trong hồ được tính như trong ví dụ là một ước lượng lệch: trung bình tổng số cá ước lượng được luôn lớn hơn tổng số cá có thực trong hồ.
Một ước lượng là một giá trị ''x'' (x nhỏ) được tính toán trên một mẫu được lấy một cách ngẫu nhiên, do đó giá trị của ''x'' là một [[biến ngẫu nhiên]] với [[giá trị kỳ vọng|kì vọng]] E(x) và [[phương sai]] V(x). Nghĩa là giá trị ''x'' có thể dao động tùy theo mẫu thử, nó có ít cơ hội để có thể bằng đúng chính xác giá trị ''X'' (X lớn) mà nó đang ước lượng. Mục đích ở đây là ta muốn có thể kiểm soát sự sai lệch giá trị ''x'' và giá trị ''X''.
 
** Ta cũng muốn là khi mẫu thử càng rộng, thì sai lệch giữa ''x'' và ''X'' cáng nhỏ. Khi đó ta nói ước lượng là '''hội tụ'''. Định nghĩa theo ngôn ngữ Toántoán học là như sau:
** Một biến ngẫu nhiên luôn dao động xung quanh [[giá trị kì vọng]] của nó. Ta muốn là kì vọng của ''x'' phải bằng ''X''. Khi đó ta nói ước lượng là '''không lệch''' (unbiased). Trung bình tích lũy trong ví dụ về chiều cao trung bình của trẻ 10 tuổi một ước lượng không lệch, trong khi ước lượng về tổng số cá trong hồ được tính như trong ví dụ là một ước lượng lệch: trung bình tổng số cá ước lượng được luôn lớn hơn tổng số cá có thực trong hồ.
 
: <math>(x_n)</math> hội tụ nếu <math>\lim_{n \to \infty}p(|x_n - X| > \epsilon)=0</math> với mọi số thực <math>\epsilon</math> dương.
** Ta cũng muốn là khi mẫu thử càng rộng, thì sai lệch giữa ''x'' và ''X'' cáng nhỏ. Khi đó ta nói ước lượng là '''hội tụ'''. Định nghĩa theo ngôn ngữ Toán học là như sau:
(xác suất để sai lệch với giá trị thực cần ước lượng lớn hơn <math>\epsilon</math> tiến về 0 khi kích cỡ của mẫu thử càng lớn)
 
** Biến ngẫu nhiên dao động quanh giá trị kì vọng của nó. Nếu phương sai V(x) càng bé, thì sự dao động càng yếu. Vì vậy ta muốn phương sai của ước lượng là nhỏ nhất có thể. Khi đó ta nói ước lượng là '''hiệu quả''' (''eficient'').
: <math>(x_n)</math> hội tụ nếu <math>\lim_{n \to \infty}p(|x_n - X| > \epsilon)=0</math> với mọi số thực <math>\epsilon</math> dương.
(xác suất để sai lệch với giá trị thực cần ước lượng lớn hơn <math>\epsilon</math> tiến về 0 khi kích cỡ của mẫu thử càng lớn)
 
** Cuối cùng, trong quá trình điều tra, có thể xuất hiện một giá trị "bất thường" (ví dụ có trẻ 10 tuổi nhưng cao 1,80 m). Ta muốn giá trị bất thường này không ảnh hưởng quá nhiều đến giá trị ước lượng. Khi đó ta nói ước lượng là '''vững''' (''robust''). Có thể thấy trung bình tích lũy trong ví dụ về chiều cao trung bình trẻ 10 tuổi không phải là một ước lượng vững.
** Biến ngẫu nhiên dao động quanh giá trị kì vọng của nó. Nếu phương sai V(x) càng bé, thì sự dao động càng yếu. Vì vậy ta muốn phương sai của ước lượng là nhỏ nhất có thể. Khi đó ta nói ước lượng là '''hiệu quả''' (eficient).
 
** Cuối cùng, trong quá trình điều tra, có thể xuất hiện một giá trị "bất thường" (ví dụ có trẻ 10 tuổi nhưng cao 1,80 m). Ta muốn giá trị bất thường này không ảnh hưởng quá nhiều đến giá trị ước lượng. Khi đó ta nói ước lượng là '''vững''' (robust). Có thể thấy trung bình tích lũy trong ví dụ về chiều cao trung bình trẻ 10 tuổi không phải là một ước lượng vững.
 
== Ước lượng của trung bình và phương sai ==
Ta chọn ngẫu nhiên n cá thể trong một dân số gồm N cá thể. Ta quan tâm đến đặc trưng định lượng Y của dân số với trung bình <math>\overline Y</math> và phương sai V(Y). Trong mẫu đó, đặc trưng Y có trung bình và phương sai đo được lần lượt là <math>\overline y</math> và <math>\sigma ^2 = \frac{1}{n}\sum_{i=1}^n (y_i - \overline y)^2</math>. Lưu ý là các giá trị <math>\overline y</math> và <math>\sigma ^2</math> thay đổi tùy theo mẫu thử, do đó chúng là các biến ngẫu nhiên với trung bình và phương sai riêng khác nhau.
 
=== Ước lượng trung bình của Y ===
Ta chọn ngẫu nhiên n cá thể trong một dân số gồm N cá thể. Ta quan tâm đến đặc trưng định lượng Y của dân số với trung bình <math>\overline Y</math> và phương sai V(Y). Trong mẫu đó, đặc trưng Y có trung bình và phương sai đo được lần lượt là <math>\overline y</math> và <math>\sigma ^2 = \frac{1}{n}\sum_{i=1}^n (y_i - \overline y)^2</math>. Lưu ý là các giá trị <math>\overline y</math> và <math>\sigma ^2</math> thay đổi tùy theo mẫu thử, do đó chúng là các biến ngẫu nhiên với trung bình và phương sai riêng khác nhau.
Thông thường trung bình của Y, tức là <math> \overline Y</math> được ước lượng bởi: <math>\overline y = \frac1n\sum_{i=1}^ny_i</math>.
 
 
=== Ước lượng trung bình của Y===
Thông thường trung bình của Y, tức là <math> \overline Y</math> được ước lượng bởi: <math>\overline y = \frac1n\sum_{i=1}^ny_i</math>.
còn được gọi là trung bình tích lũy. Ta chứng minh được đây là ước lượng không lệch (unbiased), nghĩa là <math>E(\overline y) = Y</math>
 
=== Ước lượng phương sai của Y ===
<math>\sigma^2</math> là một ước lượng của V(Y), nhưng là ước lượng lệch, ta chứng minh được [[giá trị kỳ vọng|kì vọng]] của <math> \sigma^2</math> luôn nhỏ hơn V(Y)
 
Các ước lượng không lệch của V(Y) là:
* <math>\frac{n}{n-1}\sigma^2</math> trong trường hợp lấy mẫu có hoàn lại
* <math>\frac{N}{N-1} \frac{n}{n-1}\sigma^2</math> trong trường hợp lấy mẫu không hoàn lại.
Trong trường hợp mẫu lớn, phép tính có hoàn lại và phép tính không hoàn lại là như nhau, vì <math>\frac{N}{N-1}</math> xấp xỉ bằng 1. Vì vậy trong trường hợp tổng quát ước lượng không lệch của V(Y) là: <math>s^2 = \frac{1}{n-1}\sum_{i=1}^n (y_i - \overline y)^2</math>
được gọi là phương sai tích lũy của Y.
 
Hàng 55 ⟶ 45:
* <math>V(\overline y) =\frac{N - n}{N - 1} \frac{V(Y)}{n}</math> trong trường hợp lấy mẫu không hoàn lại.
 
Ta nhận thấy với N rất lớn hai giá trị trên gần như bằng nhau. Phần sau đây ta chỉ xét trường hợp lấy mẫu có hoàn lại, với giả thuyết N là rất lớn.
 
Ta nhận thấy với N rất lớn hai giá trị trên gần như bằng nhau. Phần sau đây ta chỉ xét trường hợp lấy mẫu có hoàn lại, với giả thuyết N là rất lớn.
 
 
Rõ ràng n càng lớn, <math>V(\overline y)</math> càng nhỏ. Do đó, mẫu càng lớn, ước lượng <math>\overline y</math> càng hiệu quả.
Hàng 63 ⟶ 51:
[[Bất đẳng thức Bienaymé-Tchebychev]] chỉ ra rằng, với mọi số thực dương <math>\epsilon</math>,
:<math>p(|\overline y - \overline Y| > \epsilon) < \frac{V(\overline y)}{\epsilon ^2}</math>
nên
: <math>p(|\overline y - \overline Y| > \epsilon) < \frac{V(Y)}{n\epsilon ^2}</math>
Vì <math>\frac{V(Y)}{n\epsilon ^2}</math> hội tụ về 0 khi n tiến về vô cực, nên ta cũng có điều tương tự với <math>p(|\overline y - \overline Y| > \epsilon)</math> . Ước lượng <math> \overline y</math> là hội tụ.
 
 
 
== Các ảnh hưởng của điều tra đến ước lượng ==
Phân chia dân số thành các lớp đồng nhất để làm mẫu điều tra có thể làm giảm đáng kể giá trị phương sai của ước lượng, do đó ước lượng sẽ càng hiệu quả.
 
Lấy mẫu một cách ngẫu nhiên với xác suất không đồng đều, dẫn đến điều tra nhiều lần hoặc co cụm, sẽ làm thay đổi các công thức được tính trên.
Phân chia dân số thành các lớp đồng nhất để làm mẫu điều tra có thể làm giảm đáng kể giá trị phương sai của ước lượng, do đó ước lượng sẽ càng hiệu quả.
 
Lấy mẫu một cách ngẫu nhiên với xác suất không đồng đều, dẫn đến điều tra nhiều lần hoặc co cụm, sẽ làm thay đổi các công thức được tính trên.
 
Cuối cùng , việc dùng thêm các thông tin phụ hợp lý cho phép chỉnh sửa các ước lượng để có được các kết quả gần với giá trị thật cần ước lượng hơn.
 
Cuối cùng , việc dùng thêm các thông tin phụ hợp lý cho phép chỉnh sửa các ước lượng để có được các kết quả gần với giá trị thật cần ước lượng hơn.
 
== Ước lượng phân phối xác suất ==
Hàng 82 ⟶ 66:
 
Trong [[xác suất]], ta thường xác định một phân phối xác suất lý thuyết dựa vào các thực nghiệm thống kê. Trong trường hợp biến ngẫu nhiên rời rạc hữu hạn, ta dùng ước lượng cho mỗi xác suất <math>p_k</math> , tần suất <math>f_k</math> tính từ mẫu thử. Các giá trị của <math>f_k</math> là các biến ngẫu nhiên, dĩ nhiên các ước lượng này không thể bằng chính xác các giá trị <math>p_k</math>. Để làm rõ sự sai khác giữa chúng có đáng kể hay không, ta thực hiện các [[kiểm định giả thuyết thống kê]], trong đó phổ biến nhất là [[Kiểm định chi-bình phương|kiểm định χ²]] (Chi bình phương).
 
 
[[Thể loại:Thống kê]]
 
[[frde:EstimateurSchätzer]]
[[es:Estimador]]
[[en:Estimator]]
[[fr:Estimateur (statistique)]]
[[it:Stimatore]]
[[pl:Estymator]]
[[zh:估计函数]]