Biến ngẫu nhiên

Trong toán học và thống kê, biến ngẫu nhiên (Tiếng Anh: random variable) là một ánh xạ toán học với đặc điểm là nó gán một giá trị cho kết quả đầu ra của một phép thử ngẫu nhiên. Trong một phép thử ngẫu nhiên, đầu ra của nó có thể là giá trị số hoặc không phải. Ví dụ phép thử ngẫu nhiên là tung một đồng xu lên và xét mặt nào của đồng xu ở phía trên, thì kết quả đầu ra có thể là {sấp, ngửa} (đầu ra không phải là số). Ví dụ phép thử ngẫu nhiên là tung con súc sắc và xem mặt nằm phía trên là có mấy chấm, thì kết quả đầu ra có thể là {1,2,3,4,5,6} (đầu ra là số). Tuy nhiên, trong các ứng dụng của thống kê, người ta muốn mỗi đầu ra đều gắn với một đại lượng đo đạc được, hay còn gọi là thuộc tính có giá trị là số. Để thực hiện điều này, người ta định ra biến ngẫu nhiên để ánh xạ mỗi đầu ra của một phép thử ngẫu nhiên với một giá trị số. Biến ngẫu nhiên có hai loại chính bao gồm biến ngẫu nhiên liên tục và biến ngẫu nhiên rời rạc.

$X(\zeta )=x\;$ với $\zeta$ là đại diện cho đầu ra của một thực nghiệm, $x$ là một số thực, X là hàm ánh xạ (hay là biến ngẫu nhiên). Vì thế, người ta còn gọi X là biến ngẫu nhiên giá trị thực (real-valued random variable)^[1].

Các định nghĩa

Biến ngẫu nhiên

Một số người cho rằng gọi tên biến ngẫu nhiên là một sự nhầm lẫn, do một biến ngẫu nhiên không phải là một biến mà là một hàm số ánh xạ các biến cố tới các số. Cho A là một σ-đại số và Ω là không gian các biến cố liên quan tới thực nghiệm đang được tiến hành. Trong ví dụ thả súc sắc, không gian các biến cố chính là các kết quả có thể của một lần thả, nghĩa là Ω = { 1, 2, 3, 4, 5, 6 }, và A sẽ là tập lũy thừa của Ω. Trong trường hợp này, một biến ngẫu nhiên thích hợp có thể là hàm đồng nhất (identity function) X(ω) = ω, sao cho nếu kết quả là nhất thì biến ngẫu nhiên cũng sẽ bằng 1. Một ví dụ cũng đơn giản nhưng ít tầm thường hơn là việc tung đồng xu: một không gian thích hợp cho các biến cố có thể là Ω = {S, N} (S: sấp, N: ngửa), và A cũng lại bằng tập lũy thừa của Ω. Một trong số nhiều biến ngẫu nhiên có thể được định nghĩa trên không gian này là

X(\omega )={\begin{cases}0,&\omega ={\texttt {N}},\\1,&\omega ={\texttt {S}}.\end{cases}}

Một biến ngẫu nhiên được định nghĩa như là một hàm đo được (measurable function) từ một không gian xác suất tới một không gian đo được nào đó. Không gian đo được này là một không gian của các giá trị có thể của biến, và nó thường được lấy là các số thực với Borel σ-đại số. Phần còn lại của bài này sử dụng giả thuyết đó, trừ khi được chỉ rõ.

Cho không gian xác suất (Ω, A, P). Một hàm X: Ω → R là một biến ngẫu nhiên giá trị thực nếu với mọi tập con A_r = { ω: X(ω) ≤ r } trong đó r ∈ R, ta cũng có A_r ∈ A. Định nghĩa này có tầm quan trọng ở chỗ nó cho phép ta xây dựng hàm phân bố của biến ngẫu nhiên.

Các hàm phân bố

Nếu cho trước một biến ngẫu nhiên $X:\Omega \to \mathbb {R}$ xác định trên không gian xác suất $(\Omega ,P)$ , ta có thể đặt các câu hỏi như "Khả năng giá trị của $X$ lớn hơn 2 là bao nhiêu?". Đó chính là xác suất của biến cố $\{s\in \Omega :X(s)>2\}$ , thường được viết gọn là $P(X>2)$ .

Việc ghi nhận tất cả các xác suất này của các khoảng biến thiên kết quả của một biến ngẫu nhiên giá trị thực X cho ra phân bố xác suất của X. Phân bố xác suất "bỏ quên" không gian xác suất đã được dùng để định nghĩa X và chỉ ghi nhận các xác suất của các giá trị của X. Bao giờ cũng có thể mô tả một phân bố xác suất như vậy bằng hàm phân bố tích lũy của nó.

F_{X}(x)=\operatorname {P} (X\leq x)

và đôi khi còn dùng một hàm mật độ xác suất. Theo thuật ngữ lý thuyết độ đo, ta sử dụng biến ngẫu nhiên X để "đẩy" (push-forward) độ đo P trên Ω tới một độ đo dF trên R.

Không gian xác suất Ω là một thiết bị kỹ thuật để đảm bảo sự tồn tại của các biến ngẫu nhiên, và đôi khi để xây dựng chúng. Trong thực tế, người ta thường bỏ qua không gian Ω và chỉ đặt một độ đo lên R mà độ đo này gán số đo bằng 1 cho toàn bộ đường số thực, nghĩa là người ta làm việc với phân bố xác suất thay vì các biến ngẫu nhiên.

Hàm của các biến ngẫu nhiên

Nếu ta có một biến ngẫu nhiên X trên Ω và một hàm đo được (measurable function) f: R → R, thì Y = f(X) cũng là một biến ngẫu nhiên trên Ω, do hợp của các hàm đo được cũng là một hàm đo được. Có thể sử dụng quy trình cho phép đi từ một không gian xác suất (Ω, P) tới (R, dF_X) để thu được phân bố của Y. Hàm phân bố tích lũy của Y là

F_{Y}(y)=\operatorname {P} (f(X)\leq y).

Ví dụ

Cho X là một biến ngẫu nhiên liên tục giá trị thực và Y = X². Khi đó,

F_{Y}(y)=\operatorname {P} (X^{2}\leq y).

Nếu y < 0, thì P(X² ≤ y) = 0, do đó

F_{Y}(y)=0\qquad {\hbox{if}}\quad y<0.

Nếu y ≥ 0, thì

\operatorname {P} (X^{2}\leq y)=\operatorname {P} (|X|\leq {\sqrt {y}})=\operatorname {P} (-{\sqrt {y}}\leq X\leq {\sqrt {y}}),

do đó

F_{Y}(y)=F_{X}({\sqrt {y}})-F_{X}(-{\sqrt {y}})

nếu

y\geq 0.

Các tham số đặc trưng của biến ngẫu nhiên

Đối với một biến ngẫu nhiên nếu đã xác định được quy luật phân phối của nó thì xem như ta đã nắm được toàn bộ thông tin về biến ngẫu nhiên đó. Tuy nhiên trong thực tế ta không thể nắm bắt được từng giá trị riêng của biến ngẫu nhiên. Một yêu cầu rất tự nhiên được đặt ra là phải có giá trị đại diện phản ánh từng phần của biến ngẫu nhiên.

Ta có thể phân loại các tham số đặc trưng như sau:

- Các tham số đặc trưng cho xu hướng trung tâm của biến ngẫu nhiên: kỳ vọng toán (expected value), trung vị (median), mốt (mode),...

- Các tham số đặc trưng cho độ phân tán của biến ngẫu nhiên: phương sai, độ lệch chuẩn, hệ số biến thiên, giá trị tới hạn, mômen (moment)...

- Các tham số đặc trưng cho dạng phân phối xác suất; hệ số bất đối xứng (skewness), hệ số nhọn (kurtosis),...

Kì vọng toán

Tham khảo bài chính Kì vọng toán

1. Định nghĩa

- Biến ngẫu nhiên rời rạc: Giả sử biến ngẫu nhiên rời rạc X nhận một trong các giá trị có thể có $x_{1},x_{2},...,x_{n}$ với xác suất tương ứng $p_{1},p_{2},...,p_{n}$ . Kì vọng toán của biến ngẫu nhiên rời rạc X, ký hiệu E(X) là tổng các tích giữa các giá trị có thể có của biến ngẫu nhiên với các xác suất tương ứng:

E(X)=\sum _{i=1}^{n}x_{i}p_{i}

- Biến ngẫu nhiên liên tục: Nếu X là biến ngẫu nhiên liên tục vớihàm mật độ xác suất f(x) thì kì vọng toán E(X) được xác định bằng biểu thức:

E(X)=\int _{-\infty }^{+\infty }xf(x)dx

2. Các tính chất của kỳ vọng toán

- Tính chất 1: E(C) = C; C = const

- Tính chất 2: E(CX) = C.E(X); C = const

- Tính chất 3: Với X và Y là 2 biến ngẫu nhiên bất kỳ thì:

E(X+Y)=E(X)+E(Y)

- Tính chất 4: Với X và Y là 2 biến ngẫu nhiên độc lập thì:

E(X.Y)=E(X).E(Y)

3. Bản chất và ý nghĩa của kì vọng toán

- Bản chất: Kì vọng toán là trung bình theo nghĩa xác suất của biến ngẫu nhiên.

- Ý nghĩa: kì vọng toán phản ánh giá trị trung tâm của phân phối xác suất của biến ngẫu nhiên.

4. Ứng dụng thực tế của kì vọng toán

Trong kinh doanh và quản lý kinh tế, kì vọng toán được xem như là một tiêu chuẩn đề ra quyết định trong tình huống cần lựa chọn nhiều chiến lược kinh doanh khác nhau. tiêu chuẩn này thường được gọi là lợi nhuận kì vọng hay doanh số kì vọng.

Phương sai

Tham khảo bài chính Phương sai

1. Định nghĩa

Phương sai của biến ngẫu nhiên X, ký hiệu V(X), là kỳ vọng toán của bình phương sai lệnh của biến ngẫu nhiên so với kì vọng toán của nó.

V(X)=E[X-E(X)]^{2}

Ta có thể biến đổi như sau:

$V(X)=E[X-E(X)]^{2}=E[X^{2}-2X.E(X)+(E(X))^{2}]=E(X^{2})-E(2X.E(X))+E(E(X))^{2}=E(X^{2})-2E(X).E(X)+E(E(X))^{2}=E(X^{2})-[E(X)]^{2}$

+ Nếu X là biến ngẫu nhiên rời rạc:

V(X)=\sum _{i=1}^{n}x_{i}^{2}p_{i}-[E(X)]^{2}

+ Nếu X là biến ngẫu nhiên liên tục:

V(X)=\int _{-\infty }^{+\infty }x^{2}f(x)dx-[E(X)]^{2}

2. Các tính chất của phương sai

- Tính chất 1: V(C) = 0; C = const

- Tính chất 2: $V(CX)=C^{2}V(X)$ , C = const

- Tính chất 3: Với X và Y là hai biến ngẫu nhiên độc lập thì

V(X+Y)=V(X)+V(Y)

V(X-Y)=V(X)+V(Y)

3. Bản chất và ý nghĩa của phương sai

- Bản chất: Phương sai là trung bình số học của bình phương các sai lệnh giữa các giá trị quan sát của biến ngẫu nhiên so với giá trị quan sát của biến ngẫu nhiên so với giá trị trung bình của các giá trị đó.

- Ý nghĩa: Phương sai phản ánh mức độ phân tán của các giá trị của biến ngẫu nhiên so với giá trị trung tâm là kỳ vọng toán. Phương sai càng nhỏ thì các giá trị càng tập trung ở gần giá trị trung tâm.

4. Ứng dụng thực tế của phương sai

+ Trong kỹ thuật: Phương sai đặc trưng cho sai số của thiết bị, chi tiết gia công so với kích thước tiêu chuẩn

+ Trong lĩnh vực kinh tế: Phương sai đặc trưng cho mức độ rủi ro của các quyết định.

Mômen

Phân bố xác suất của một biến ngẫu nhiên thường được đặc trưng bởi một số các tham số, các tham số này cũng có một cách hiểu thực dụng. Ví dụ, trong nhiều trường hợp, biết "giá trị trung bình" của biến ngẫu nhiên là đủ. Giá trị này được thể hiện bởi khái niệm toán học giá trị kỳ vọng của một biến ngẫu nhiên, được ký hiệu là E[X]. Lưu ý rằng, nói chung, E[f(X)] khác với f(E[X]). Một khi đã biết được "giá trị trung bình", người ta có thể đặt câu hỏi cái giá trị trung bình này cách bao xa đối với các giá trị điển hình của X, câu hỏi này được trả lời bởi các khái niệm phương sai và độ lệch tiêu chuẩn của một biến ngẫu nhiên.

Trong toán học, bài toán (mở rộng) về các mômen (generalised problem of moments) được phát biểu như sau: cho trước một lớp gồm các biến ngẫu nhiên X, tìm một tập hợp {f_i} gồm các hàm sao cho các giá trị kỳ vọng E[f_i(X)] đặc trưng đầy đủ cho phân bố của biến ngẫu nhiên X.

Tính tương đương của các biến ngẫu nhiên

Các biến ngẫu nhiên có thể được coi là tương đương theo một số nghĩa. Hai biến ngẫu nhiên có thể bằng nhau, gần như bằng nhau, trung bình bằng nhau, hoặc phân phối bằng nhau.

Định nghĩa chính xác của các khái niệm trên được cho dưới đây theo thứ tự tăng dần về độ mạnh.

Phân phối bằng nhau

Hai biến ngẫu nhiên $X$ và $Y$ có phân phối bằng nhau nếu chúng có các hàm phân phối tích lũy giống nhau:

\operatorname {P} (X\leq x)=\operatorname {P} (Y\leq x),\quad \forall x\in \mathbb {R} .

Hai biến ngẫu nhiên có các hàm sinh mômen bằng nhau thì có phân phối bằng nhau.

Để có phân phối bằng nhau, các biến ngẫu nhiên không nhất thiết được định nghĩa trên cùng một không gian xác suất.

Khái niệm phân phối tương đương có quan hệ với khái niệm dưới đây về khoảng cách giữa hai phân phối xác suất,

d(X,Y)=\sup _{x\in \mathbb {R} }|\operatorname {P} (X\leq x)-\operatorname {P} (Y\leq x)|,

khoảng cách này có liên quan đến thử nghiệm Kolmogorov-Smirnov.

Giá trị trung bình bằng nhau

Hai biến ngẫu nhiên $X$ và $Y$ là bằng nhau theo trung bình thứ $p$ nếu mômen thứ $p$ của $|X-Y|$ bằng 0, nghĩa là

\operatorname {E} (|X-Y|^{p})=0.

Bằng nhau với trung bình thứ $p$ suy ra bằng nhau với trung bình thứ $q$ với mọi $q<p$ . Cũng như trong trường hợp trước, khái niệm này có liên quan đến khoảng cách theo trung bình thứ $p$ giữa các biến ngẫu nhiên, đó là

d_{p}(X,Y)=\operatorname {E} (|X-Y|^{p}).

Bằng nhau hầu chắc chắn

Hai biến ngẫu nhiên $X$ và $Y$ trên cùng một không gian xác suất $(\Omega ,{\mathcal {F}},{\text{P}})$ gọi là bằng nhau hầu chắc chắn khi và chỉ khi xác suất chúng khác nhau là bằng 0:

\operatorname {P} (X\neq Y)=\operatorname {P} (\{\omega :X(\omega )\neq Y(\omega )\})=0.

Điều này cũng tương đương với $\operatorname {P} (X=Y)=1.$

Bằng nhau

Cuối cùng, hai biến ngẫu nhiên trên cùng một không gian xác suất $(\Omega ,{\mathcal {F}},{\text{P}})$ gọi là bằng nhau nếu chúng bằng nhau với vai trò các hàm số trên không gian xác suất của chúng, nghĩa là,

X(\omega )=Y(\omega ),\quad \forall \omega \in \Omega .

Sự hội tụ của dãy các biến ngẫu nhiên

Một dãy $(X_{n})$ gồm các biến ngẫu nhiên có thể hội tụ thành một biến ngẫu nhiên $X$ theo nhiều nghĩa khác nhau. Những kiểu đó được giải thích trong bài sự hội tụ của các biến ngẫu nhiên.

Các kết quả trong thống kê toán học dựa vào việc chứng minh sự hội tụ đối với một số dãy biến ngẫu nhiên nhất định. Một trong những định luật hội tụ quan trọng nhất đó là luật số lớn và định lý giới hạn trung tâm.

Tham khảo

^ Kay, Steven 2006 Intuitive probability and Random Processes using Matlab . Springer.
^ Papoulis, Athanasios 1965 Probability, Random Variables, and Stochastic Processes. McGraw-Hill Kogakusha, Tokyo, 9th edition, ISBN 0-07-119981-0.

Xem thêm

Biến ngẫu nhiên rời rạc
Biến ngẫu nhiên liên tục
Phân bố xác suất
Biến cố (lý thuyết xác suất)
Tính ngẫu nhiên
Véctơ ngẫu nhiên
Hàm ngẫu nhiên
Hàm sinh (generating function)
Lý thuyết thông tin thuật toán (Algorithmic information theory)

Liên kết ngoài

Random variable tại trang PlanetMath.org.

[1]