Probability : Bayes' Rule

จากความรู้เรื่อง Conditional probability [1] เราทราบว่า


\[ P(A \cap B) = P(B \mid A) \cdot P(A) = P(A \mid B) \cdot P(B) \]

สมการนี้บอกเราว่า หากทราบ \(P(A \mid B) \) ก็จะสามารถหา \(P(B \mid A) \) ได้เช่นกัน นั่นคือ


\[ \boxed{ P(B \mid A) = \frac{P(A \mid B) \cdot P(B)}{P(A)} }\tag{1.0} \] เมื่อ \( P(A) \neq 0.0 \)


และจากเรื่อง Law of total probability [2]

\[ P(A) = \sum_{i=1}^n P(A \cap B_i) = \sum_{i=1}^n P(B_i) \cdot P(A \mid B_i) \]


เราสามารถเขียน (1.0) ได้เป็น


\[ \boxed{ P(B_j \mid A) = \frac{P(A \mid B_j) \cdot P(B_j)}{\sum_{i=1}^n P(B_i) \cdot P(A \mid B_i)} } \tag{1.1} \]

เมื่อ \( B_1,B_2,B_3,...,B_n\) คือ partition ของ Sample space


เรียกสมการ (1.0) หรือ (1.1) ว่า "Bayes' Rule" [3][4] ในเอกสารบางแห่งจะเขียนในรูปแบบ


\[ \text{Posteria Probability} = \frac{\text{Likelyhood} \times \text{Prior Probability}}{\text{Marginal Probability}} \tag{1.2} \]


ตัวอย่าง 1 :  สมมุติมีโรคระบาดชนิดหนึ่ง พบว่าในประชากร 100,000 คน จะมีคนติดเชื้อ 1 คน ได้มีการพัฒนาชุดตรวจโรคขึ้นมา ทดสอบกับตัวอย่างแบบสุ่มแล้วพบว่า 

1. ในกรณีที่เป็นผู้ติดเชื้อแต่ให้ผลการตรวจเป็นลบ (false negative) มีค่าความน่าจะเป็น 0.01

2. ในกรณีที่ไม่ได้เป็นผู้ติดเชื้อ แต่ให้ผลการตรวจเป็นบวก (false positive) มีค่าความน่าจะเป็น 0.02

หากนำชุดตรวจนี้ได้ตรวจผู้ต้องสงสัยจะติดเชื้อรายหนึ่งพบว่าผลออกมาเป็นบวก ความน่าจะเป็นที่ผู้ต้องสงสัยรายนี้จะเป็นผู้ติดเชื้อจริง มีค่าเท่าใด ?

กำหนดให้ 
A แทนเหตุการณ์ที่คนติดเชื้อ
\(A^c \) แทนเหตุการณ์คนไม่ได้ติดเชื้อ
B แทนเหตุการณ์ที่ผลการตรวจของชุดตรวจออกมาเป็นบวก
\(B^c \) แทนเหตุการณ์ที่ผลการตรวจของชุดตรวจออกมาเป็นลบ

 สิ่งที่ต้องการหาคือ \( P (A \mid B) \)

\[ P (A \mid B) = \frac{P(A) \cdot P(B \mid A)}{P(B)} \tag{2.0} \]


สิ่งที่ทราบแล้วคือ

\[ \begin{align*} P(A) &= \frac{1}{100000} \tag{2.1}\\ P(A^c) &= 1-\frac{1}{100000} \tag{2.2}\\ \end{align*} \]

หา \( P(B) \) ได้จากการพิจารณาผลการตรวจ ในตัวอย่างที่ได้รับผลการตรวจเป็นบวก จะมีทั้งที่เป็นผู้ติดเชื้อจริงและไม่ได้เป็นผู้ติดเชื้อ (ดูรูปที่ 1) แสดงว่า  ความน่าจะเป็นของเหตุการณ์ B เป็นผลรวมของความน่าจะเป็นจากสองเหตุการณ์คือ

ความน่าจะเป็นจากเหตุกาณ์ที่ได้ผลบวกในคนที่ไม่ติดเชื้อ (\( P(B \mid A^c)  \) ) และความน่าจะเป็นของเหตุการณ์ที่ผลได้เป็นบวกในคนที่ติดเชื้อจริง ( \( P( B \mid A) \))


\[ \begin{align*} P (B) = P(B \mid A)\cdot P(A) + P(B \mid A^c) \cdot P(A^c) \tag{2.3}\\ \end{align*} \]

รูปที่ 1

จากที่กำหนดไว้ความน่าจะเป็นของ false negative คือ 0.01 เขียนแทนด้วย

\[ \begin{align*} P (B^c \mid A) &= 0.01 \\ \therefore P (B \mid A) &= 1 - 0.01 = 0.99 \tag{2.4}\\ \end{align*} \]


และกำหนดไว้ความน่าจะเป็นของ false positive คือ 0.02 เขียนแทนด้วย

\[ \begin{align*} P (B \mid A^c) &= 0.02 \tag{2.5}\\ \end{align*} \]

จาก (2.1),(2.2),(2.3),(2.4) และ (2.5)หาค่าของ \( P(B) \) ได้จาก

\[ \begin{align*} P(B) &= P(B \mid A)\cdot P(A) + P(B \mid A^c) \cdot P(A^c) \\ P(B) &= 0.99 \times \frac{1}{100000} + 0.02 \times (1-\frac{1}{100000})\\ P(B) &= 0.02 \tag{2.6} \end{align*} \]


นำค่าจาก (2.1),(2.4) และ (2.6) ไปแทนใน (2.0)

\[ \begin{align*} P(A \mid B) &= \frac{P(A) \cdot P(B \mid A)}{P(B)} \\ P(A \mid B) &= \frac{\frac{1}{100000} \times 0.99}{0.02} \\ P(A \mid B) &= 0.000495\\ \end{align*} \]

หากอ่านแล้วดูเหมือนจะไม่เห็นภาพ จะลองอธิบายด้วยแผนภาพต้นไม้ดู ตามรูปที่ 2


รูปที่ 2

เนื่องจากอัตราการติดเชื้อต่ำมาก ขอเริ่มจากจำนวนตัวอย่างเยอะสักนิด สมมุติว่ามีกลุ่มตัวอย่าง 10,000,000 คน 

1. อัตราการติดเชื้อ (ความน่าจะเป็นของการติดเชื้อ) คือ \( \frac{1}{100,000}\) แสดงว่า ในกลุ่มตัวอย่างนี้อาจมีผู้ติดเชื้อประมาณ 100 คน และไม่ติดเชื้อ 9,999,900  คน

2. ความน่าจะเป็นของการเกิด false negative คือ 0.01 หมายถึง ถ้านำคนที่ทราบแน่ชัดว่าติดเชื้อ 100 คน (จากข้อ 1) ไปตรวจด้วยชุดตรวจนี้ จะได้ผลลบ 1 คน และผลบวกจำนวน 99 คน

3. ความน่าจะเป็นของการเกิด false positive คือ 0.02 หมายถึง ถ้านำคนที่ทราบแน่ชัดว่าไม่ติดชัดไปตรวจด้วยชุดตรวจนี้ 100 คน จะได้ผลบวก 2 คน ในแผนภาพคือ ผลบวก จำนวน 199,998 ที่เหลือเป็นลบ

4. จากจำนวนตัวอย่าง 10,000,000 หากนำมาตรวจทุกคน จำนวนผลตรวจที่เป็นบวกควรเป็น 199,998 + 99 = 200,097 คน

5. จากข้อ 4 ในจำนวน 200,097 คนที่ให้ผลตรวจเป็นบวก จะมีคนที่ติดเชื้อจริงอยู่ 99 คน ดังนั้นความน่าจะเป็นมีค่าเป็น \( \frac{99}{200,097} = 0.000495 \) ตีความได้ว่า หากนำคนมา 1 คนแบบสุ่ม มาทำการตรวจเชื้อด้วยชุดตรวจนี้ แล้วผลออกมาเป็นบวก โอกาสที่คนนั้นจะเป็นผู้ติดเชื้อประมาณ 0.0005 เท่านั้น

6. ลองคิดดูว่าหากได้ผลออกมาเป็นลบแล้วความน่าจะเป็นที่คนนั้นจะไม่เป็นคนติดเชื้อมีค่า \( \frac{9799902}{9799903}  = 0.9999998979581737 \) 

7. จากผลการคำนวณจะพบว่าชุดตรวจนี้ให้ผลที่น่าเชื่อถือมากเมื่อผลออกมาเป็นลบ และมีความน่าเชื่อน้อยมากเมื่อผลออกมาเป็นบวก ดังนั้นหากจะนำชุดตรวจนี้มาใช้ จำเป็นต้องหาวิธีอื่นมาเพิ่มเมื่อผลออกมาเป็นบวก





เอกสารอ้างอิง

[1] https://smarter-machine.blogspot.com/2020/09/probability-conditional-probability.html

[2] https://smarter-machine.blogspot.com/2020/09/probability-law-of-total-probability.html

[3] https://en.wikipedia.org/wiki/Bayes%27_theorem

[4] https://www.statlect.com/fundamentals-of-probability/Bayes-rule




ความคิดเห็น