Recap :
♦ Probability density function (PDF) คือ function ที่ใช้ระบุ probability ของ continuous random variable ที่อยู่ระหว่างช่วงที่กำหนด [a,b]
♦ Cumulative distribution function (CDF) คือ function ที่ใช้ระบุ probability รวมของ continuous random variable ที่มีค่าน้อยกว่าค่าที่กำหนด (\(-\infty,a \)]
Normal distribution หรือ Guassian distribution เป็น probability distribution ที่มีความสำคัญมากที่สุด พบได้ในชีวิตจริงเป็นส่วนใหญ่ มีความเชื่อมโยงกับ central limit theorem ทำให้ยอมรับว่า distribution ของข้อมูลที่จัดเก็บมาหากมีจำนวนมากพอก็อนุมานว่าเป็น normal distribution ได้ ตัวอย่างข้อมูลจากสัมภาษณ์ผู้ป่วยใน Sylhet Diabetes Hospital in Sylhet, Bangladesh ถึงความเสี่ยงต่อการเป็นโรคเบาหวานในระยะแรกแยกตามอายุ
รูปที่ 1 |
PDF ของ normal distribution คือ
เมื่อ
\[ u = {-\frac{(x-\mu)^2}{2\sigma^2}} \]และ e คือ Euler's number มีค่าประมาณ 2.71828 , \( \pi = \frac{22}{7}\)
Histogram ของ normal distribution มีลักษณะเป็นรูประฆังคว่ำและสมมาตร (symmetry bell shape) เทียบกับรูปที่ 1 ซึ่งเป็นข้อมูลที่เก็บมาภาคสนามจะเห็นว่ามีรูปทรงใกล้เคียงกันมาก
รูปที่ 2 Histogram ของ Normal distribution |
ค่า expectation และ variance ของ normal distribution :
\[ \begin{align*} E(X) = \mu\\\\ Var(X) = \sigma^2 \end{align*} \]สัญลักษณ์ที่ใช้บอกว่า random variable X มีการแจกแจงแบบ normal distribution คือ \( X \thicksim N(\mu,\sigma) \) อ่านว่า "X is normal distribution with parameter \( \mu \text{ and } \sigma \) "
ค่าของ \( \mu , \sigma \) ส่งผลต่อรูปแบบของ histogram ถ้ามี sample spance 3 ชุด มี \( \sigma_1 = \sigma_2 =\sigma_3 \) เท่ากัน แต่ \( \mu_1 < \mu_2 < mu_3 \) ทำให้ได้ histogram ดังรูปที่ 3 หาก \( \mu_1 = \mu_2 = mu_3 \) แต่ \( \sigma_1 < \sigma_2 < sigma_3 \) จะได้ดังรูปที่ 4
รูปที่ 3 |
รูปที่ 4 |
Standard normal distribution
Linear transformation ของ Normal distribution
ถ้า \( X \thicksim N(\mu,\sigma) \) และ a,b เป็นค่าคงที่ หาก
\[ Y = aX + b \]จะได้ว่า Y มีการแจกแจงแบบ normal distribution ด้วย โดย
\[ \begin{align*} E(Y) &= a\mu +b \\\\ Var(Y) &= a^2\sigma^2 \end{align*} \]ถ้าให้ a = \(\frac{1}{\sigma} \) และ b = \( -\frac{\mu}{\sigma}\) แล้วทำ linear transform จาก \(X \to Z\)
\[ \begin{align*} Z &= \frac{1}{\sigma}X - \frac{\mu}{\sigma}\\\\ Z &= \frac{X- \mu}{\sigma} \tag{1.1} \end{align*} \]จากคุณสมบัติของการถ่ายทอดผ่าน linear transformation ทำให้ Z มีการแจกแจงแจงแบบ normal distribution และ
\[ \begin{align*} E(Z) &= \frac{1}{\sigma} \cdot \mu - \frac{\mu}{\sigma}\\\\ E(Z) &= 0\\\\\\ Var(Z) &= (\frac{1}{\sigma} \cdot \sigma)^2 \\\\ Var(Z) &= 1 \end{align*} \]นั่นคือ \( Z \thicksim N(0,1) \) เรียก normal distribution ที่ \(\mu=0,\sigma = 1\) ว่า standard normal distribution และขั้นตอนการทำ linear transform \( X \to Z \) เรียกว่า standardization (1.8)
การมี \(\mu=0,\sigma = 1\) ทำให้ standard normal distribution มี PDF ที่ดูง่ายขึ้น คือ
\[ f(z) = \frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}z^2} \tag{1.3} \]รูปที่ 5 |
♦ Standard normal distribution คือ normal distribution ที่มี \( \mu = 0\) และ \(\sigma =1 \)
ข้อดีของการมี standard normal distribution คือช่วยในการคำนวณ probability ของ random variable ได้ง่ายขึ้น เพราะมีการสร้างตารางเพื่อใช้หา CDF ไว้แล้ว แล้วอาศัยหลักการที่ว่า normal distribution มีการถ่ายทอดทาง linear transformation ทำให้เราสามารถเทียบ probability ของ standard normal distribution กับ normal distribution อื่นได้
ตัวอย่างสมมุติว่าค่าปริมาณน้ำฝนที่ตกลงมาต่อปีของเมือง A มีค่าเฉลี่ย (\( \mu \)) เป็น 60 มม. มีค่าเบี่ยงเบนมาตรฐาน (\(\sigma \)) คือ 20 มม. ถ้าปริมาณน้ำฝนต่อปีมีการแจกแจงแบบ normal distribution จงหา probability ที่ปีนี้จะมีค่าปริมาณน้ำฝนต่อปีมากกว่า 80 มม.
แนวคิด : หา probability ที่ปริมาณน้ำฝนต่อปี \( \le \) 80 มม. แล้วนำไปลบออกจาก 1.0
Standardization : เปลี่ยนค่า \( X = 80 \to Z \)
\[ \begin{align*} Z &= \frac{X - \mu}{\sigma} \\\\ Z &= \frac{80 - 60}{20} \\\\ &= 1 \end{align*} \]เราทราบว่า \(P(X \le 80) = P(Z \le 1 \) ไปดูในตาราง standard normal table เพื่อหาค่า \( P(Z \le 1 \) ได้เป็น 0.84134
ดังนั้น probability ที่ปริมาณน้ำฝนของปีนี้จะมากกว่า 80 มม. คือ \( 1.0 - 0.84134 = 0.1587\)
ความคิดเห็น
แสดงความคิดเห็น