Probability : Normal Distribution

Recap :


  ♦ Probability density function (PDF) คือ function ที่ใช้ระบุ probability ของ continuous random variable ที่อยู่ระหว่างช่วงที่กำหนด [a,b]

  ♦ Cumulative distribution function (CDF) คือ function ที่ใช้ระบุ probability รวมของ continuous random variable ที่มีค่าน้อยกว่าค่าที่กำหนด (\(-\infty,a \)]


Normal distribution หรือ Guassian distribution เป็น probability distribution ที่มีความสำคัญมากที่สุด พบได้ในชีวิตจริงเป็นส่วนใหญ่ มีความเชื่อมโยงกับ central limit theorem ทำให้ยอมรับว่า distribution ของข้อมูลที่จัดเก็บมาหากมีจำนวนมากพอก็อนุมานว่าเป็น normal distribution ได้ ตัวอย่างข้อมูลจากสัมภาษณ์ผู้ป่วยใน Sylhet Diabetes Hospital in Sylhet, Bangladesh ถึงความเสี่ยงต่อการเป็นโรคเบาหวานในระยะแรกแยกตามอายุ


รูปที่ 1

PDF ของ normal distribution คือ


\[ f(x) = \frac{e^u}{\sqrt{2\pi\sigma}} \tag{1.0} \]

เมื่อ

\[ u = {-\frac{(x-\mu)^2}{2\sigma^2}} \]

และ e คือ Euler's number มีค่าประมาณ 2.71828 , \( \pi = \frac{22}{7}\)


Histogram ของ normal distribution มีลักษณะเป็นรูประฆังคว่ำและสมมาตร (symmetry bell shape) เทียบกับรูปที่ 1 ซึ่งเป็นข้อมูลที่เก็บมาภาคสนามจะเห็นว่ามีรูปทรงใกล้เคียงกันมาก

รูปที่ 2 Histogram ของ Normal distribution

ค่า expectation และ variance ของ normal distribution :

\[ \begin{align*} E(X) = \mu\\\\ Var(X) = \sigma^2 \end{align*} \]

สัญลักษณ์ที่ใช้บอกว่า random variable X มีการแจกแจงแบบ normal distribution คือ \( X \thicksim N(\mu,\sigma) \) อ่านว่า "X is normal distribution with parameter \( \mu \text{ and } \sigma \) "


ค่าของ \( \mu , \sigma \) ส่งผลต่อรูปแบบของ histogram ถ้ามี sample spance 3 ชุด มี \( \sigma_1 = \sigma_2 =\sigma_3 \) เท่ากัน แต่ \( \mu_1 < \mu_2 < mu_3 \) ทำให้ได้ histogram ดังรูปที่ 3 หาก \( \mu_1 = \mu_2 = mu_3 \) แต่ \( \sigma_1 < \sigma_2 < sigma_3 \) จะได้ดังรูปที่ 4


รูปที่ 3

รูปที่ 4


Standard normal distribution


Linear transformation ของ Normal distribution

ถ้า \( X \thicksim N(\mu,\sigma) \) และ a,b เป็นค่าคงที่ หาก

\[ Y = aX + b \]

จะได้ว่า Y มีการแจกแจงแบบ normal distribution ด้วย โดย

\[ \begin{align*} E(Y) &= a\mu +b \\\\ Var(Y) &= a^2\sigma^2 \end{align*} \]

ถ้าให้ a = \(\frac{1}{\sigma} \) และ b = \( -\frac{\mu}{\sigma}\) แล้วทำ linear transform จาก \(X \to Z\)

\[ \begin{align*} Z &= \frac{1}{\sigma}X - \frac{\mu}{\sigma}\\\\ Z &= \frac{X- \mu}{\sigma} \tag{1.1} \end{align*} \]

จากคุณสมบัติของการถ่ายทอดผ่าน linear transformation ทำให้ Z มีการแจกแจงแจงแบบ normal distribution และ

\[ \begin{align*} E(Z) &= \frac{1}{\sigma} \cdot \mu - \frac{\mu}{\sigma}\\\\ E(Z) &= 0\\\\\\ Var(Z) &= (\frac{1}{\sigma} \cdot \sigma)^2 \\\\ Var(Z) &= 1 \end{align*} \]

นั่นคือ \( Z \thicksim N(0,1) \) เรียก normal distribution ที่ \(\mu=0,\sigma = 1\) ว่า standard normal distribution และขั้นตอนการทำ linear transform \( X \to Z \) เรียกว่า standardization (1.8)

การมี \(\mu=0,\sigma = 1\) ทำให้ standard normal distribution มี PDF ที่ดูง่ายขึ้น คือ

\[ f(z) = \frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}z^2} \tag{1.3} \]
รูปที่ 5

  ♦ Standard normal distribution คือ normal distribution ที่มี \( \mu = 0\) และ \(\sigma =1 \)


ข้อดีของการมี standard normal distribution คือช่วยในการคำนวณ probability ของ random variable ได้ง่ายขึ้น เพราะมีการสร้างตารางเพื่อใช้หา CDF ไว้แล้ว แล้วอาศัยหลักการที่ว่า normal distribution มีการถ่ายทอดทาง linear transformation ทำให้เราสามารถเทียบ probability ของ standard normal distribution กับ normal distribution อื่นได้


\[ \begin{align*} P(X \le x) &= P(\frac{X - \mu}{\sigma} \le \frac{x-\mu}{\sigma}) \\\\ P(X \le x) &= P(Z \le z) \\\\ \therefore CDF(X) &= CDF(Z) \end{align*} \]

ตัวอย่างสมมุติว่าค่าปริมาณน้ำฝนที่ตกลงมาต่อปีของเมือง A มีค่าเฉลี่ย (\( \mu \)) เป็น 60 มม. มีค่าเบี่ยงเบนมาตรฐาน (\(\sigma \)) คือ 20 มม. ถ้าปริมาณน้ำฝนต่อปีมีการแจกแจงแบบ normal distribution จงหา probability ที่ปีนี้จะมีค่าปริมาณน้ำฝนต่อปีมากกว่า 80 มม.


แนวคิด : หา probability ที่ปริมาณน้ำฝนต่อปี \( \le \) 80 มม. แล้วนำไปลบออกจาก 1.0


Standardization : เปลี่ยนค่า \( X = 80 \to Z \)

\[ \begin{align*} Z &= \frac{X - \mu}{\sigma} \\\\ Z &= \frac{80 - 60}{20} \\\\ &= 1 \end{align*} \]

เราทราบว่า \(P(X \le 80) = P(Z \le 1 \) ไปดูในตาราง standard normal table เพื่อหาค่า \( P(Z \le 1 \) ได้เป็น 0.84134


ดังนั้น probability ที่ปริมาณน้ำฝนของปีนี้จะมากกว่า 80 มม. คือ \( 1.0 - 0.84134 = 0.1587\)


ความคิดเห็น