Probability : Bayes' Rule

จากความรู้เรื่อง Conditional probability [1] เราทราบว่า


P(AB)=P(BA)P(A)=P(AB)P(B)

สมการนี้บอกเราว่า หากทราบ P(AB) ก็จะสามารถหา P(BA) ได้เช่นกัน นั่นคือ


(1.0)P(BA)=P(AB)P(B)P(A) เมื่อ P(A)0.0


และจากเรื่อง Law of total probability [2]

P(A)=i=1nP(ABi)=i=1nP(Bi)P(ABi)


เราสามารถเขียน (1.0) ได้เป็น


(1.1)P(BjA)=P(ABj)P(Bj)i=1nP(Bi)P(ABi)

เมื่อ B1,B2,B3,...,Bn คือ partition ของ Sample space


เรียกสมการ (1.0) หรือ (1.1) ว่า "Bayes' Rule" [3][4] ในเอกสารบางแห่งจะเขียนในรูปแบบ


(1.2)Posteria Probability=Likelyhood×Prior ProbabilityMarginal Probability


ตัวอย่าง 1 :  สมมุติมีโรคระบาดชนิดหนึ่ง พบว่าในประชากร 100,000 คน จะมีคนติดเชื้อ 1 คน ได้มีการพัฒนาชุดตรวจโรคขึ้นมา ทดสอบกับตัวอย่างแบบสุ่มแล้วพบว่า 

1. ในกรณีที่เป็นผู้ติดเชื้อแต่ให้ผลการตรวจเป็นลบ (false negative) มีค่าความน่าจะเป็น 0.01

2. ในกรณีที่ไม่ได้เป็นผู้ติดเชื้อ แต่ให้ผลการตรวจเป็นบวก (false positive) มีค่าความน่าจะเป็น 0.02

หากนำชุดตรวจนี้ได้ตรวจผู้ต้องสงสัยจะติดเชื้อรายหนึ่งพบว่าผลออกมาเป็นบวก ความน่าจะเป็นที่ผู้ต้องสงสัยรายนี้จะเป็นผู้ติดเชื้อจริง มีค่าเท่าใด ?

กำหนดให้ 
A แทนเหตุการณ์ที่คนติดเชื้อ
Ac แทนเหตุการณ์คนไม่ได้ติดเชื้อ
B แทนเหตุการณ์ที่ผลการตรวจของชุดตรวจออกมาเป็นบวก
Bc แทนเหตุการณ์ที่ผลการตรวจของชุดตรวจออกมาเป็นลบ

 สิ่งที่ต้องการหาคือ P(AB)

(2.0)P(AB)=P(A)P(BA)P(B)


สิ่งที่ทราบแล้วคือ

(2.1)P(A)=1100000(2.2)P(Ac)=11100000

หา P(B) ได้จากการพิจารณาผลการตรวจ ในตัวอย่างที่ได้รับผลการตรวจเป็นบวก จะมีทั้งที่เป็นผู้ติดเชื้อจริงและไม่ได้เป็นผู้ติดเชื้อ (ดูรูปที่ 1) แสดงว่า  ความน่าจะเป็นของเหตุการณ์ B เป็นผลรวมของความน่าจะเป็นจากสองเหตุการณ์คือ

ความน่าจะเป็นจากเหตุกาณ์ที่ได้ผลบวกในคนที่ไม่ติดเชื้อ (P(BAc) ) และความน่าจะเป็นของเหตุการณ์ที่ผลได้เป็นบวกในคนที่ติดเชื้อจริง ( P(BA))


(2.3)P(B)=P(BA)P(A)+P(BAc)P(Ac)

รูปที่ 1

จากที่กำหนดไว้ความน่าจะเป็นของ false negative คือ 0.01 เขียนแทนด้วย

P(BcA)=0.01(2.4)P(BA)=10.01=0.99


และกำหนดไว้ความน่าจะเป็นของ false positive คือ 0.02 เขียนแทนด้วย

(2.5)P(BAc)=0.02

จาก (2.1),(2.2),(2.3),(2.4) และ (2.5)หาค่าของ P(B) ได้จาก

P(B)=P(BA)P(A)+P(BAc)P(Ac)P(B)=0.99×1100000+0.02×(11100000)(2.6)P(B)=0.02


นำค่าจาก (2.1),(2.4) และ (2.6) ไปแทนใน (2.0)

P(AB)=P(A)P(BA)P(B)P(AB)=1100000×0.990.02P(AB)=0.000495

หากอ่านแล้วดูเหมือนจะไม่เห็นภาพ จะลองอธิบายด้วยแผนภาพต้นไม้ดู ตามรูปที่ 2


รูปที่ 2

เนื่องจากอัตราการติดเชื้อต่ำมาก ขอเริ่มจากจำนวนตัวอย่างเยอะสักนิด สมมุติว่ามีกลุ่มตัวอย่าง 10,000,000 คน 

1. อัตราการติดเชื้อ (ความน่าจะเป็นของการติดเชื้อ) คือ 1100,000 แสดงว่า ในกลุ่มตัวอย่างนี้อาจมีผู้ติดเชื้อประมาณ 100 คน และไม่ติดเชื้อ 9,999,900  คน

2. ความน่าจะเป็นของการเกิด false negative คือ 0.01 หมายถึง ถ้านำคนที่ทราบแน่ชัดว่าติดเชื้อ 100 คน (จากข้อ 1) ไปตรวจด้วยชุดตรวจนี้ จะได้ผลลบ 1 คน และผลบวกจำนวน 99 คน

3. ความน่าจะเป็นของการเกิด false positive คือ 0.02 หมายถึง ถ้านำคนที่ทราบแน่ชัดว่าไม่ติดชัดไปตรวจด้วยชุดตรวจนี้ 100 คน จะได้ผลบวก 2 คน ในแผนภาพคือ ผลบวก จำนวน 199,998 ที่เหลือเป็นลบ

4. จากจำนวนตัวอย่าง 10,000,000 หากนำมาตรวจทุกคน จำนวนผลตรวจที่เป็นบวกควรเป็น 199,998 + 99 = 200,097 คน

5. จากข้อ 4 ในจำนวน 200,097 คนที่ให้ผลตรวจเป็นบวก จะมีคนที่ติดเชื้อจริงอยู่ 99 คน ดังนั้นความน่าจะเป็นมีค่าเป็น 99200,097=0.000495 ตีความได้ว่า หากนำคนมา 1 คนแบบสุ่ม มาทำการตรวจเชื้อด้วยชุดตรวจนี้ แล้วผลออกมาเป็นบวก โอกาสที่คนนั้นจะเป็นผู้ติดเชื้อประมาณ 0.0005 เท่านั้น

6. ลองคิดดูว่าหากได้ผลออกมาเป็นลบแล้วความน่าจะเป็นที่คนนั้นจะไม่เป็นคนติดเชื้อมีค่า 97999029799903=0.9999998979581737 

7. จากผลการคำนวณจะพบว่าชุดตรวจนี้ให้ผลที่น่าเชื่อถือมากเมื่อผลออกมาเป็นลบ และมีความน่าเชื่อน้อยมากเมื่อผลออกมาเป็นบวก ดังนั้นหากจะนำชุดตรวจนี้มาใช้ จำเป็นต้องหาวิธีอื่นมาเพิ่มเมื่อผลออกมาเป็นบวก





เอกสารอ้างอิง

[1] https://smarter-machine.blogspot.com/2020/09/probability-conditional-probability.html

[2] https://smarter-machine.blogspot.com/2020/09/probability-law-of-total-probability.html

[3] https://en.wikipedia.org/wiki/Bayes%27_theorem

[4] https://www.statlect.com/fundamentals-of-probability/Bayes-rule




ความคิดเห็น