Probability : Law of large number และ Central limit theorem

Recap:


  ♦ Expectation value ถูกเรียกในหลายชื่อ ได้แก่ mean, first moment, average, expectancy หมายถึง arithematic mean ของ population


  ♦ Probability distribution คือ function ที่ใช้บอก probability ของ random variable




Law of large number


ใจความหลักของ law of large number เกี่ยวข้องกับค่าเฉลี่ย (mean) และจำนวนของตัวอย่าง (size of samples) ถ้าจำนวนของตัวอย่างหรือข้อมูลที่เก็บมาได้มีจำนวนมากขึ้น ค่าเฉลี่ยของ sample ของเหตุการณ์ที่ศึกษาก็จะยิ่งเข้าใกล้กับค่าเฉลี่ยของประชากร (population)


กฎนี้มีความสำคัญเพราะจะช่วยให้เกิดความมั่นใจได้ว่าเหตุการณ์ที่ต้องการจะเกิดขึ้นได้เมื่อมีจำนวนครั้งของการเกิดขึ้นมากพอ เช่น ในการโยนเหรียญ 1 เหรียญ เราทราบว่า probability ของการออก "Head" หรือ "Tail" มีค่าเท่ากันคือ 0.5 ค่านี้ถือเป็นค่า mean ของ population แต่ในทางปฏิบัติแล้ว หากจำนวนครั้งของโยนเหรียญ (trials) ไม่กี่ครั้งอาจได้ค่า probability ต่างออกไป (sample size น้อย) ตามที่แสดงในรูปที่ 1 การโยนเหรียณ 1 ครั้งจะได้ probability เป็น 1 สำหรับหน้าที่ออก แต่เมื่อโยนไปเรื่อยๆ (sample มีจำนวนมากขึ้น) จะเห็นว่า probability ของการออกหน้า "Head" หรือ "Tail" เริ่มเข้าใกล้ค่า 0.5 ทั้งคู่

รูปที่ 1

Law of large number ไม่ได้ใช้ประโยชน์แต่ทางด้านคณิตศาสตร์เท่านั้นแต่ยังใช้ในวงการอื่นด้วย โดยแต่ละงานก็จะมีมุมมองในการตีความต่างกันออกไป เช่น


  ♦ การบริหารธุรกิจ ถ้าดูกราฟในรูปที่ 1 จะเห็นว่า probability ในช่วงแรกจะมีลักษณะแกว่งไปมาไม่นิ่ง เทียบได้กับ growth rate (การเจริญเติบโตต่อปี) ขององค์กรธูรกิจที่เริ่มต้นในช่วงแรกอาจจะมีค่าสูงแต่เมื่อเวลาผ่านไปหลายปี (ขนาดของ sample มากขึ้น) ค่า growth rate จะเริ่มนิ่งและอาจไม่สูงเหมือนช่วงแรก


  ♦ การบริหารระบบพลังงานหมุมเวียน เช่น การผลิตพลังงานไฟฟ้าจาก solar cell หรือ กังหันลม ซึ่งต้องอาศัยธรรมชาติที่ไม่อาจควบคุมให้คงที่ได้ ดังนั้นต้องอาศัยหน่วยผลิตจำนวนมากเพื่อให้ได้ค่า expectation ของปริมาณพลังงานไฟฟ้าตามที่ต้องการ



Central limit theorem


ใจความหลักของ central limit theorem กล่าวว่าถ้า sample มีขนาดใหญ่พอ probability distribution ของ sample mean จะเป็น normal distribution ไม่ว่า population จะมีการแจกแจงแบบใดก็ตาม


ทดลองโดยการจำลองสถานการณ์ (simulation) สร้าง population ของตัวเลขจำนวนเต็มขนาด 200,000 จำนวนเพื่อสร้าง population กำหนดให้ population นี้มีการแจกแจงแบบ poison ที่ mean หรือ \( \lambda \)มีค่าเป็น 5 histogram แสดงการแจกแจงแสดงในรูปที่ 2 แล้วทำการทดลองดังนี้

  1. สุ่มเลือก (sampling) ตัวเลขออกมา 1000 กลุ่มๆละ 100 ตัวเลข นั่นคือเรามี sample จำนวน 1000 samples แต่ละ sample มีสมาชิกจำนวน 100 ตัวเลข

  2. หา mean และ standard deviation ของแต่ละ sample นั่นคือ จะมีข้อมูล 2 ชุดคือ {\(\bar{x_1},\bar{x_2},\bar{x_3},...,\bar{x_{1000}} \)} และ { \(\sigma_{1},\sigma_{2},\sigma_{3},...,\sigma_{1000} \)} เรียก sample mean และ sample standard deviation

  3. นำข้อมูลจาก 2 มา plot histogram แสดงในรูปที่ 3


รูปที่ 2

ในรูปที่ 3 แสดงให้เห็นว่า sample mean และ sample standard deviation ของมีรูปแบบการแจกแจงใกล้เคียงกับ normal distribution ดูจากเส้นแนวโน้มสีแดงแสดงรูป bell curve ชัดเจน และค่ากลางของทั้ง sample mean และ sample standard deviation มีค่าอยู่ประมาณ 5 และ 2.2 ซึ่งมีค่าใกล้เคียงกับ mean และ standard deviation ของ population


 รูปที่ 3

การทดลองนี้ช่วยอธิบายแนวคิดของ central limit theorem ที่มองว่า mean ของ sample คือ random variable ที่มีการแจกแจงแบบ normal distribution และถ้าเรามีจำนวนของ sample mean มากพอ ค่า expectation ของ sample mean จะเข้าใกล้ค่าของ expectation ของ population ไม่ว่า population จะมีการแจกแจงแบบใดก็ตาม ทำนองเดียวกันกับค่า standard deviation ของ sample


Central limit theorem formala

  1. mean ของ sampling distribution คือ mean ของ population

\[ \begin{align*} E(\bar{x}) &= \frac{\bar{x_1}+\bar{x_2}+\bar{x_3}+...+\bar{x_n}}{n} \\\\ E(\bar{x}) &= \mu_{\text{population}} \tag{1.0} \end{align*} \]

เมื่อ n คือ จำนวน samples ในการทดลองนี้ n = 1000


  2. Standard deviation ของ sampling distribution คือ Standard deviationn ของ population หารด้วย sample size

\[ \begin{align*} \sigma^2_{\bar{x}} = Var(\bar{x}) &= E(\bar{x}^2) - (E(\bar{x}))^2 \\\\ \sigma^2_{\bar{x}} &= \frac{\sigma^2}{n} \\\\ \therefore \sigma_{\bar{x}} &= \frac{\sigma}{\sqrt{n}} \tag{1.1}\\\\ \end{align*} \]

เมื่อ n คือขนาดของ sample size ในตัวอย่างการทดลอง n = 100 เพื่อให้เข้าใจมากขึ้น ขออธิบาย (1.1) เพิ่มดังนี้

  1. จากข้อมูล simulation เราทราบว่า standard deviation ของ population มีค่าเป็น \( \sqrt{5} \approx 2.24 \)

  2. \( \sigma_{\bar{x}} \) หมายถึง standard deviation ของ {\(\bar{x_1},\bar{x_2},\bar{x_3},...,\bar{x_{1000}} \)} ซึ่งคำนวณแล้วได้ค่าเป็น \( \approx 0.22 \)

  3.  \(\sqrt{\text{sample size}} = \sqrt{100} = 10\) นำไปคูณกับค่าจากข้อ 2 ได้ค่าเป็น \( \approx 2.22 \) จะเห็นว่าใกล้เคียงกับ standard deviation ของ population


Central limit theorem และ Law of large number มีความต่อเนื่องกัน โดย law of large number ได้ช่วยอธิบายว่าทำไมค่าของ sample mean และ sample standard deviation ถึงได้ใช้ทดแทน population mean และ population standard deviation ได้ เพราะเมื่อเรามีจำนวนของ mean จาก sample จำนวนมากพอค่าของมันจะลู่เข้าหาค่าของ population นั่นเอง


ความคิดเห็น