Statistics : 1-way ANOVA

Analysis of variance (ANOVA) คือเทคนิคทางด้านสถิติที่ใช้ตรวจสอบว่าค่าเฉลี่ย (means)ของกลุ่มตัวอย่างตั้งแต่สองกลุ่มมีความแตกต่างอย่างมีนัยสำคัญต่อกันหรือไม่  ตัวอย่างการใช้ประโยชน์คือ แพทย์ใช้ ANOVA ช่วยทดสอบความต่างของวิธีการรักษาโรคได้

อีกวิธีการหนึ่งคือ  t-test  เมื่อมีกลุ่มตัวอย่างเพียงสองกลุ่ม t-test และ ANOVA จะให้ผลที่เหมือนกัน แต่เมื่อจำนวนกลุ่มตัวอย่างมากกว่าสองกลุ่มผลที่ได้จาก t-test จะลดความน่าเชื่อถือลงไป หากเราใช้จะใช้ t-test เพื่อทดสอบที่ละคู่ก็จะทำให้เกิดความผิดพลาดสูงขึ้นไปเรื่อย ๆ

ฐานคติ (Assumptions of ANOVA)
1. ตัวอย่างถูกเลือกมาแบบสุ่ม
2. กลุ่มตัวอย่างต้องมาจากประชากรที่มีการแจกแจงแบบปรกติ หรือใกล้เคียง
3. ต้องมี population variance เท่ากัน (variance must be equal)


ศัพท์บัญญัติ (Terminology)
1. mean ในการคำนวณ ANOVA มี mean อยู่สองกลุ่มคือ
     1.1 sample mean คือ mean ของแต่ละกลุ่มตัวอย่าง  μ1,μ2,μ3,...
     1.2 grand mean คือ mean ของ sample mean ทั้งหมด

2. Hypothesis การตั้งสมมุติฐานสำหรับ ANOVA  มักตั้งแบบนี้
H0:μ1=μ2=μ3=,...
Ha:μlμm

หมายความว่า alternative hypothesis ทดสอบว่ามีอย่างน้อย 1 คู่ของกลุ่มตัวอย่างที่มี mean ต่างกัน

3. Between groups variability


รูปที่ 1 กลุ่มตัวอย่างที่มี sample mean ใกล้กันจะมีค่าความต่างจาก grand mean น้อย (ซ้ายมือ) ค่าของ sample mean ต่างกันมากจะทำความต่างจาก grand mean มีค่ามากขึ้น (ขวามือ)

จากรูปที่ 1 เมื่อข้อมูลจากกลุ่มตัวอย่างสองกลุ่มมีบางส่วนที่ซ้อนกันอยู่ (ซ้ายมือ) ค่า sample mean ของทั้งสองกลุ่มตัวอย่างนี้ควรจะมีค่าความต่างจาก grand mean ในระดับที่ไม่มากนักหรืออาจไม่มีนัยสำคัญ ในทางตรงข้ามถ้ากลุ่มตัวอย่างมีความเป็นอิสระต่อกันมากขึ้น ข้อมูลไม่มีส่วนซ้อนทับกันเลย ค่า sample mean ต่างกันมาก ค่าความต่างระหว่าง sample mean ของกลุ่มตัวอย่างกับ grand mean ย่อมมีค่าสูงขึ้นจนอาจมีนัยสำคัญ รูปแบบของ variation แบบต่าง ๆ แสดงในรูปที่ 2-4


รูปที่ 2 แต่ละกลุ่มตัวอย่างมี mean ใกล้เคียงกันมาก ความเป็นอิสระต่อกันค่อนข้างต่ำ


รูปที่ 3  มีกลุ่มตัวอย่างบางกลุ่มไม่เป็นอิสระต่อกันแต่มีบางกลุ่มเป็นอิสระจากกลุ่มอื่น

รูปที่ 4 กลุ่มตัวอย่างมีความเป็นอิสระต่อกัน


ขั้นตอนในการคำนวณ  ANOVA

Notations:
k:จำนวนกลุ่มตัวอย่าง
ni:จำนวนข้อมูลของกลุ่มตัวอย่าง i
xij:ค่าของข้อมูลตำแหน่งที่ i จากกลุ่มตัวอย่าง j
xi¯: mean ของกลุ่มตัวอย่างที่ i = 1nij=1nixij
si : standard deviation ของกลุ่มตัวอย่างที่ i = 1ni1j=1ni(xijxi¯)2
n : total sample i = i=1kni
x¯ : grand mean = 1nijxij


1. ตั้งสมมุติฐาน

H0 : All sample means are equal
Ha : At least one mean is different

2. หา Variation
2.1 Variation between groups หรือ variation around grand mean
SSG=i=1kni(xi¯x¯)2

2.2 Variation within groups
SSE=i=1k(ni1)si2
2.3 หาค่า Sum Square Total
SST=SSE+SSE

สิ่งที่ Variation with group  บอกเราสามารถอธิบายได้ตามภาพตัวอย่างข้างล่างนี้



สมมุติว่าภาพบนแทนกลุ่มตัวอย่างที่มี variation within groups มากกว่าภาพข้างล่าง การมี variation within groups มากกว่าแสดงให้ว่าโอกาสที่ข้อมูลของแต่ละกลุ่มจะเป็นส่วนเดียวกันก็มีมากขึ้นตามไปด้วย ดูจากการซ้อนกันของภาพ ทำนองเดียวกันกับภาพตัวอย่างข้างล่างนี้ ภาพบนแสดงการมี variation between groups น้อยกว่าภาพข้างล่างทำให้โอกาสที่กลุ่มตัวอย่างจะไม่เป็นอิสระต่อกันจะมีมากกว่า



3. คำนวณค่าสถิติ F
หากพบว่าค่าของ variation between groups มีค่ามากเมื่อเทียบกับ variation within group แล้ว ก็จะตีความได้ว่า ค่า mean ของแต่ละกลุ่มตัวอย่างนั้นมีความต่างกัน สถิติที่ใช้หาค่าสัดส่วนนี้เรียกว่า F





F=Variation between groupsVariation within groups

ผลการคำนวณ F- statistics แสดงในรูปแบบตารางดังภาพ



สถิติ F  มีการแจกแจงเรียกว่า F-distribution ซึ่งจะมีเฉพาะค่าที่เป็นบวกเท่านั้น ทำให้ F-distribution มีแต่ one-side critical value





เมื่อค่า F ที่คำนวณได้ตกอยู่ในเขตพื้นที่ critical area ก็จะสรุปได้ว่า mean ของแต่ละกลุ่มตัวอย่างอย่างน้อยหนึ่งกลุ่มต่างกันอย่างมีนัยสำคัญและ Reject Null Hypothesis


ข้อมูลเพิ่มเติม
F critical values http://www.socr.ucla.edu/Applets.dir/F_Table.html#FTable0.1

ความคิดเห็น