Basic Linear Algebra : Sets


ตอนนี้จะว่ากันเรื่องของ sets  แต่ไม่ได้จะกล่าวถึงทุกเรื่อง จะเอามาเพียงส่วนที่จะโยงเข้าหาเรื่อง linear algebra ซึ่งเป็นเรื่องหลักเรื่องหนึ่งก่อนจะไปสู่ machine learning  

Sets นับว่าเป็น Object พื้นฐานสำคัญอันหนึ่งทางด้านคณิตศาสตร์ มีการนิยามไว้ว่า "Sets are well-defined collection of objects." [1][2] เรียก object ที่อยู่ใน set นั้นๆ ว่า "element" หรือ "member" โดยที่ใน set ใดๆ จะไม่มีสมาชิกที่ซ้ำกัน

การเขียนสัญญลักษณ์ทางคณิตศาสตร์ของ sets ใช้อักษรภาษาอังกฤษตัวใหญ่ (capital letter) แทน set ที่กำลังกล่าวถึง เขียนสมาชิกของ set ไว้ใน \( \{ \}\) เช่น 

1.  set ของสมุนไพรไทยที่ใช้รักษาโรคผิวหนัง

A = {ข่า, ขมิ้นชัน, ทองพันชั่ง,มะยม}

2.  set ของสโมสรฟุตบอลล์ในเมือง Liverpool

B = {Liverpool, Everton, Tranmere, South Port, Bootle, St Helen town}

เรียกการเขียนแบบนี้ว่า "การเขียนแบบแจกแจง" ซึ่งจะมีการเขียนอีกแบบที่เรียกว่า "การเขียนแบบระบุเงื่อนไข" เช่น

3. set ของจำนวนเต็มที่มากกว่า 5

\( C = \{ x \mid x \text{ is integer and } x \geqslant 5 \} \}\)


Belonging 

 เมื่อต้องการบอกว่าสิ่งใด belongs to หรือ เป็น member หรือ element ของ set ใด ใช้สัญญลักษณ์ \( \in \)  เช่น 

1. ข่า เป็นสมาชิกของ set A   (ข่า belongs to A)

\[\text{ข่า} \in A \]

2. Liverpool เป็นสมาชิกของ set B  (Liverpool belongs to B)

\[ \text{Liverpool} \in B \]


Inclusion 

ถ้ามี set A และ B โดยที่ทุกสมาชิกของ A เป็นสมาชิกของ B ด้วย แต่สมาชิกของ B อาจไม่ได้เป็นสมาชิกของ A เราจะกล่าวว่า A เป็น subset ของ B หรือ B includes A (B is superset of A)

\[ \begin{align*} A \subset B \\ \\ B \supset A \end{align*} \]

แนวคิดนี้บอกเป็นนัยว่า \( A \subset A \) หรือ \( B \subset B \) เป็นจริงด้วย นั่นคือ set ทุก set จะเป็น subset ของตัวเองด้วย

Equality

ถ้ามี set A, B ใดๆ และ ทุกสมาชิกของ A เป็นสมาชิกของ B และทุกสมาชิกของ B เป็นสมาชิกของ A จะได้ว่า \( A = B \)  นั่นคือ ทั้ง A และ B มีสมาชิกชุดเดียวกัน โดยไม่คำนึงถึงลำดับ เช่น

ถ้า \( A = \{1,2,3\} \) และ \( B = \{3,2,1\} \) จะได้ \( A = B\)


Ordered pairs

ถ้าเรามี set A และ B  แล้วดึงเอา \(  a \in A \) และ \( b \in B  \) มา แล้วมาเขียนในรูปแบบ \( (a,b) \) หรือ \( (b,a) \) โดยที่ \( (a ,b) \neq (b,a)  \)  เราเรียก \( (a,b), (b,a) \) ว่าเป็น ordered pairs  แต่หากว่า \( (a,b) = (b,a) \) แล้ว จะเรียกว่า unordered pairs 

ordered pairs  ไม่จำเป็นต้องมาจาก sets เพียงสอง sets อาจมากกว่านั้นก็ได้ การเขียนในลักษณะ ordered pairs นี้เรามักจะคุ้นเคยในวิชา geometry คือ coordinate ของจุดบน graph 

รูปที่ 1 coordinate \( (x_1,y_1) \)คือ ordered pairs ที่ได้สมาชิกมาจากสมาชิก  X และ Y


Relations

ความหมายของ relations คือ set ของ ordered pairs ใช้สัญญลักษณ์ \( R\)

relations ไม่จำเป็นต้องอยู่ในรูป binary เสมอไป สามารถอยู่ในรูปของ ternary หรือ quaternary ไปจนถึง N-ary ได้ เพื่อความเข้าใจเราจะกล่าวถึงแต่ binary ไปก่อน

ordered pairs แบบ binary สมาชิกตัวแรกของ ordered paired เรียกว่า domain สมาชิกตัวถัดมาเรียกว่า range 

รูปที่ 2 relations ระหว่าง vehicles กับ wheels

ยกตัวอย่าง ในรูปที่ 2 ปรกติแล้วเราจะทราบ relations ระหว่างชนิดของยานพาหนะ (vehicles) กับจำนวนล้อ (wheels) นำมาเขียน relations set คือ \( \{ (\text{Car},4), (\text{Bicycle},2)\},(\text{Boat},0), (\text{Motorcycle},2)\} \) ซึ่ง domain (สมาชิกตัวแรกของ ordered pairs) คือทุกสมาชิกของ Vehicle set และ range  (  0,2,4 ) เป็นสมาชิกบางตัวของ Wheel set

อีกหนึ่งตัวอย่างที่พบเห็นได้ในชีวิตประจำวันคือ ตู้จำหน่ายสินค้าแบบหยอดเหรียญ (vending machine) ถ้าให้ x แทน มูลค่ารวมของเหรียญ และ y แทน ชนิดของสินค้า จะเห็นว่า y จะเป็นอะไรนั้นขึ้นกับ x  บางครั้ง เราเรียก x ว่าเป็น independent variable และ y เป็น dependent variable และรูปแบบของความสัมพันธ์จาก domain ไปยัง range นั้น จำเป็นต้องถูกกำหนดขึ้นมาก่อน เช่นเดียวกับการกำหนดว่าสินค้าแต่ละชิ้นจะมีราคาเท่าใด


Functions

Functions คือรูปแบบหนึ่งของ Relations ที่มีลักษณะพิเศษคือ ถ้า X, Y เป็น 2 sets ใด และ \( f \) เป็น relation set จาก \( X  \rightarrow Y \)  แล้ว

1. domain ของ \(f\) คือทุกสมาชิกของ X

2. ทุก x ใน domain จะโยงไปยัง range  \( y \in R \) ได้เพียงหนึ่งเดียว 

เขียนแทนด้วยสัญญลักษณ์


\[ f: X \rightarrow Y \\ \\ f(x) = y \]

รูปที่ 3 กราฟแสดง \(f(x) = sin(x) \) เมื่อ \( 0 \leq x \leq 2\pi \)

 รูปที่ 3 แสดงให้เห็น relation แบบ function ระหว่าง X = \( \{x \mid x \in \Re , 0 \leq x \leq 2\pi\}\)  กับ Y = \( \{ y \mid y \in \Re , -1 \leq y \leq 1 \}\)  สมาชิก relation จาก \( X \rightarrow Y \) กำหนดไว้คือ \( y = sin(x) \) ถ้าลองกำหนดจุดขึ้นบนแกนนอน ลากเส้นตรงตั้งฉากขึ้นไปจนชนเส้นกราฟ แล้วลากขนานไปกับแกนนอนจนไปชนกับแกน y แล้ว จะเห็นว่าไม่มีจุดบนแกนนอนใด ทำให้ได้จุดบนแกนตั้งมากกว่า 1 จุด ดังนั้นจึงกล่าวได้ว่า \(R: X \rightarrow Y \) ในกรณีนี้เป็น function


แนวคิดพื้นฐานของ function นี้คือพื้นฐานสำคัญของการเรียนรู้เรื่อง machine learning เพราะการทำกระบวนการ machine learning ก็คือความพยายามในการสร้าง function ที่โยงจาก domain (input) ไปสู่ range (labeled ) นั่นเอง  ขอยกตัวอย่างจาก Probability : Early state diabetes risk prediction ด้วย Naive Bayes Classifier สามารถแบ่งข้อมูลออกเป็น 2 sets ดังนี้

Features = {"Polydipsia","Polyuria","Sudden weight loss","Partial paresis","Gender","Irritability","Polyphagia","Alopecia","Age","visual blurring"}

Diagnose = {1,0}

สิ่งที่เราต้องการคือการที่สามารถระบุรูปแบบของความสัมพันธ์ในรูปแบบ  function จาก Features (domain) ไปหา Diagnose (range) 

\[ f: \text{Features} \rightarrow \text{Diagnose} = ?  \]

เพื่อให้ได้มาซึ่ง function ดังกล่าว กระบวนที่เรียกว่า machine learning จึงเข้ามามีบทบาท (ในข้อเขียนที่อ้างถึงใช้วิธีการทางความน่าจะเป็น ซึ่งก็เป็นอีกแนวทางหนึ่ง) 

เอกสารอ้างอิง

[1] https://plato.stanford.edu/entries/set-theory/basic-set-theory.html

[2] https://en.wikipedia.org/wiki/Set_theory#Basic_concepts_and_notation

[3] P.R. Halmos (1974). Naive Set Theory. New York. Springer-Verlag New York Inc.(https://books.google.co.th/books?id=x6cZBQ9qtgoC&lpg=PP1&dq=naive+set+theory&pg=PA5&redir_esc=y&hl=en#v=onepage&q&f=false)


ความคิดเห็น