Statistics : Expectation , Variance , Covariance, Correlation

Expectation 

ค่า expectation ของ random variable ใด คือ arithmetic mean ของ random variable นั้น เขียนแทนด้วย E(X) หรือ μx ถูกนิยามดังนี้

Discrete :

(1)E(X)=i=1nfX(xi)xi=μx


Continuous :

(2)E(X)=xfX(x)dx=μx

Expectation rules

  • E[g(X)]=(g(x)fX(x))
  • E[a]=a, a คือค่าคงที่
  • E[aX]=aE(X), a คือค่าคงที่
  • E[a±X]=a±E(X), a คือค่าคงที่
  • E[a±bX]=a±bE(X), a,b คือค่าคงที่
  • E[X+Y]=E(X)+E[Y], X,Y คือ random variables
  • E[XY]=E(X)E[Y], X,Y คือ independent random variables

เมื่อ fX(x) คือ Probability density function ของ X


Variance 

ใช้บอกระดับการกระจายตัวของข้อมูล (spread out) โดยวัดจากความห่างของ data point กับค่ากลาง (expectation,  μ) ถ้าค่าของ variance สูงตีความได้ว่าข้อมูลจะกระจายตัวออกจากค่า mean หากมีค่าน้อยแสดงว่าข้อมูลส่วนใหญ่มีการกระจุกอยู่รอบๆ ค่อ mean เขียนแทนด้วย V(X) หรือ σx2

นิยามโดย ถ้า X เป็น random variable แล้ว

V(X)=E[(Xμ)2]=E[X22Xμ+μ2]=E[X2]E[2Xμ]+E[μ2]=E[X2]2μE[X]+μ2=E[X2]2μ2+μ2(3)V(X)=E[X2]μ2

Variance rule

  • V(a)=0 , a คือค่าคงที่
  • V(a±X)=V(X) , a คือค่าคงที่
  • V(a±bX)=b2V(X), a,b คือค่าคงที่
  • V(X±Y)=V(X)+V(Y) , X,Y คือ independent random variables
  • V(X±Y)=V(X)+V(Y)±2COV(X,Y) , (COV(X,Y) จะกล่าวถึงภายหลัง)

Covariance

ใช้บอกทิศทางความสัมพันธ์ระหว่าง random variable 2 ตัว (X,Y) ค่าของ covariance มีได้ทั้งบวกและลบ ค่าที่เป็นบวกแสดงว่า random variable มีความสัมพันธ์ในทิศทาง ทางเดียวกัน ถ้าเป็นลบก็จะตรงกันข้าม หากเป็น 0 หมายความว่าไม่มีความสัมพันธ์ต่อกัน

นิยามโดย ถ้าให้ X,Y เป็น random variables (4.1)Cov(X,Y)=E(XY)E(X)E(Y) หรือกรณี discrete (4.2)Cov(X,Y)=1n1i=1n(xix¯)(yiy¯)



Correlation

ใช้บอกความสัมพันธ์เชิงเส้น (linear association) ระหว่าง random variable 2 ตัว (X,Y) อาจเรียก correlation coefficient ก็ได้ ค่าของ correlation จะมีค่าระหว่าง [-1,1]

นิยามโดย ถ้าให้ X,Y เป็น random variables (5)Corr(X,Y)=Cov(X,Y)V(X)V(Y)

การตีความค่าของ Corr(X,Y) จะคล้ายกับ Cov(X,Y) ที่ต่างคือถ้า Corr มีค่าเข้าใกล้ 1 หรือ -1 หมายถึงความสัมพันธ์เชิงเส้นตรงระหว่าง X,Y จะมากขึ้นเท่านั้น (Corr(X,Y)=±1Y=aX+b)


ตัวอย่าง : ให้ X เป็น continuous random variable ที่มี p.d.f ดังนี้

fX(x)={2x2if 1x20otherwise  จงหา E(X) และ \( V(X) \

เนื่องจาก p.d.f ของ x ช่วงอื่นมีค่าเป็น 0 นอกจาก [1,2] ดังนั้น E(X)=12xfX(x)dxE(X)=12x2x2dxE(X)=212x1dxE(X)=2|ln(x)||12E(X)=2|ln(2)|2|ln(1)|E(X)=2|ln(2)|

จาก V(X)=E[X2]μ2

หา E(X2) : E(X2)=12x2fX(x)dxE(X2)=12x22x2dxE(X2)=122dxE(X2)=2|12E(X2)=2 ดังนั้น V(X)=22|ln(2)|


ดูตัวอย่างข้อมูลความสูง (inches) และ นำ้หนัก (pounds) ของผู้ชายจำนวน 100 คนที่นำมาแสดงด้วย scatter plot (รูปที่ 1) ดูแล้วเหมือนกับว่าจะมีความสัมพันธ์กันอยู่ โดยที่เมื่อค่าความสูงมากขึ้น ค่าของน้ำหนักก็จะเพิ่มตาม 

รูปที่ 1

การคำนวณ :

ให้ X แทนข้อมูลความสูง Y แทนข้อมูลน้ำหนัก

E(X)=69.05E(Y)=186.85E(XY)=12941.097Cov(X,Y)=12941.09769.05×186.85=39.10

ค่า Cov(X,Y) เป็นบวกสอดคล้องกับ scatter plot บอกว่าความสูงและน้ำหนักของผู้ชายมีความสัมพันธ์ไปทางเดียวกัน

หาค่า correlation :

V(X)=6.70V(Y)=368.84Corr(X,Y)=39.106.70×368.84=0.016

ค่า correlation มีค่ามากกว่า 0 แสดงถึงความสัมพันธ์ทางบวกต่อกันระหว่างความสูงและน้ำหนักแต่ยังไม่กับเป็น linear ที่ชัดเจน


เอกสารอ้างอิง

[1] https://en.wikipedia.org/wiki/Expected_value

ความคิดเห็น