Statistics : 1-way ANOVA

Analysis of variance (ANOVA) คือเทคนิคทางด้านสถิติที่ใช้ตรวจสอบว่าค่าเฉลี่ย (means)ของกลุ่มตัวอย่างตั้งแต่สองกลุ่มมีความแตกต่างอย่างมีนัยสำคัญต่อกันหรือไม่  ตัวอย่างการใช้ประโยชน์คือ แพทย์ใช้ ANOVA ช่วยทดสอบความต่างของวิธีการรักษาโรคได้

อีกวิธีการหนึ่งคือ  t-test  เมื่อมีกลุ่มตัวอย่างเพียงสองกลุ่ม t-test และ ANOVA จะให้ผลที่เหมือนกัน แต่เมื่อจำนวนกลุ่มตัวอย่างมากกว่าสองกลุ่มผลที่ได้จาก t-test จะลดความน่าเชื่อถือลงไป หากเราใช้จะใช้ t-test เพื่อทดสอบที่ละคู่ก็จะทำให้เกิดความผิดพลาดสูงขึ้นไปเรื่อย ๆ

ฐานคติ (Assumptions of ANOVA)
1. ตัวอย่างถูกเลือกมาแบบสุ่ม
2. กลุ่มตัวอย่างต้องมาจากประชากรที่มีการแจกแจงแบบปรกติ หรือใกล้เคียง
3. ต้องมี population variance เท่ากัน (variance must be equal)


ศัพท์บัญญัติ (Terminology)
1. mean ในการคำนวณ ANOVA มี mean อยู่สองกลุ่มคือ
     1.1 sample mean คือ mean ของแต่ละกลุ่มตัวอย่าง  μ 1 , μ 2 , μ 3 , . . .
     1.2 grand mean คือ mean ของ sample mean ทั้งหมด

2. Hypothesis การตั้งสมมุติฐานสำหรับ ANOVA  มักตั้งแบบนี้
H 0 : μ 1 = μ 2 = μ 3 = , . . .
H a : μ l μ m

หมายความว่า alternative hypothesis ทดสอบว่ามีอย่างน้อย 1 คู่ของกลุ่มตัวอย่างที่มี mean ต่างกัน

3. Between groups variability


รูปที่ 1 กลุ่มตัวอย่างที่มี sample mean ใกล้กันจะมีค่าความต่างจาก grand mean น้อย (ซ้ายมือ) ค่าของ sample mean ต่างกันมากจะทำความต่างจาก grand mean มีค่ามากขึ้น (ขวามือ)

จากรูปที่ 1 เมื่อข้อมูลจากกลุ่มตัวอย่างสองกลุ่มมีบางส่วนที่ซ้อนกันอยู่ (ซ้ายมือ) ค่า sample mean ของทั้งสองกลุ่มตัวอย่างนี้ควรจะมีค่าความต่างจาก grand mean ในระดับที่ไม่มากนักหรืออาจไม่มีนัยสำคัญ ในทางตรงข้ามถ้ากลุ่มตัวอย่างมีความเป็นอิสระต่อกันมากขึ้น ข้อมูลไม่มีส่วนซ้อนทับกันเลย ค่า sample mean ต่างกันมาก ค่าความต่างระหว่าง sample mean ของกลุ่มตัวอย่างกับ grand mean ย่อมมีค่าสูงขึ้นจนอาจมีนัยสำคัญ รูปแบบของ variation แบบต่าง ๆ แสดงในรูปที่ 2-4


รูปที่ 2 แต่ละกลุ่มตัวอย่างมี mean ใกล้เคียงกันมาก ความเป็นอิสระต่อกันค่อนข้างต่ำ


รูปที่ 3  มีกลุ่มตัวอย่างบางกลุ่มไม่เป็นอิสระต่อกันแต่มีบางกลุ่มเป็นอิสระจากกลุ่มอื่น

รูปที่ 4 กลุ่มตัวอย่างมีความเป็นอิสระต่อกัน


ขั้นตอนในการคำนวณ  ANOVA

Notations:
k : จำนวนกลุ่มตัวอย่าง
n i : จำนวนข้อมูลของกลุ่มตัวอย่าง i
x i j : ค่าของข้อมูลตำแหน่งที่ i จากกลุ่มตัวอย่าง j
x i ¯ : mean ของกลุ่มตัวอย่างที่ i =  1 n i j = 1 n i x i j
s i  : standard deviation ของกลุ่มตัวอย่างที่ i =  1 n i 1 j = 1 n i ( x i j x i ¯ ) 2
n  : total sample i =  i = 1 k n i
x ¯  : grand mean =  1 n i j x i j


1. ตั้งสมมุติฐาน

H0 : All sample means are equal
Ha : At least one mean is different

2. หา Variation
2.1 Variation between groups หรือ variation around grand mean
S S G = i = 1 k n i ( x i ¯ x ¯ ) 2

2.2 Variation within groups
S S E = i = 1 k ( n i 1 ) s i 2
2.3 หาค่า Sum Square Total
S S T = S S E + S S E

สิ่งที่ Variation with group  บอกเราสามารถอธิบายได้ตามภาพตัวอย่างข้างล่างนี้



สมมุติว่าภาพบนแทนกลุ่มตัวอย่างที่มี variation within groups มากกว่าภาพข้างล่าง การมี variation within groups มากกว่าแสดงให้ว่าโอกาสที่ข้อมูลของแต่ละกลุ่มจะเป็นส่วนเดียวกันก็มีมากขึ้นตามไปด้วย ดูจากการซ้อนกันของภาพ ทำนองเดียวกันกับภาพตัวอย่างข้างล่างนี้ ภาพบนแสดงการมี variation between groups น้อยกว่าภาพข้างล่างทำให้โอกาสที่กลุ่มตัวอย่างจะไม่เป็นอิสระต่อกันจะมีมากกว่า



3. คำนวณค่าสถิติ F
หากพบว่าค่าของ variation between groups มีค่ามากเมื่อเทียบกับ variation within group แล้ว ก็จะตีความได้ว่า ค่า mean ของแต่ละกลุ่มตัวอย่างนั้นมีความต่างกัน สถิติที่ใช้หาค่าสัดส่วนนี้เรียกว่า F





F = Variation between groups Variation within groups

ผลการคำนวณ F- statistics แสดงในรูปแบบตารางดังภาพ



สถิติ F  มีการแจกแจงเรียกว่า F-distribution ซึ่งจะมีเฉพาะค่าที่เป็นบวกเท่านั้น ทำให้ F-distribution มีแต่ one-side critical value





เมื่อค่า F ที่คำนวณได้ตกอยู่ในเขตพื้นที่ critical area ก็จะสรุปได้ว่า mean ของแต่ละกลุ่มตัวอย่างอย่างน้อยหนึ่งกลุ่มต่างกันอย่างมีนัยสำคัญและ Reject Null Hypothesis


ข้อมูลเพิ่มเติม
F critical values http://www.socr.ucla.edu/Applets.dir/F_Table.html#FTable0.1

ความคิดเห็น