เราคิดว่าหลายๆคนมาสายมาร์เก็ตติ้งและคืนความรู้ Stat ทั้งหมดแด่ครูมัธยมกับมหาลัยเรียบร้อยแล้ว (เช่นเราเป็นต้น) พอมาทำงาน อื่ออ เราก็รู้แหละว่า เวลาดาต้าเรารันออกมามี * แปลว่ามัน sig ชื่อเต็มๆคือ statistical significant หรือภาษาไทยเรียกว่า “มีนัยยะสำคัญทางสถิติ”
แล้วมันใช้ไงวะ… มันใช้ว่า สมมุติเราทำการสำรวจ ทดลอง บ้าบอคอแตกอะไรก็แล้วแต่ ในแต่ละกลุ่ม แล้วเราแยก subgroup ออกมา เราจะรู้ได้ไงว่ามันต่าง สมมุติเราถามเด็กกะผู้ใหญ่ว่าชอบกินไอติมมั้ย แล้วเด็ก 90% บอกว่าชอบ ขณะที่ผู้ใหญ่ 20% บอกว่าไม่ชอบ เออ เคสนี้มันชัดไงว่ามันต่าง แต่ถ้ามันเป็น 78 กับ 67 ล่ะ เอ่ะ จะต่างมั้ย??
ทีนี้พอมันใกล้กัน มันเลยต้องมาถามถึงทฤษฏีของ Stat ว่าด้วย ค่าเฉลี่ย (mean) และ ความผันผวน (standard deviation) ว่าค่าเฉลี่ยสองกลุ่มเนี่ย มันใกล้กันแค่ไหน แล้วไอ่ที่ว่าใกล้เนี่ย มั่นใจได้แค่ไหน ถ้าใครมีความคุ้นๆตอนเรียนสถิติ ก็จะประมาณนี้
- ตั้ง H0 หรือ Null Hypothesis ว่ามันเท่ากัน
- ไปคิดค่า z score / t score ออกมาจากค่าเฉลี่ย (mean) และ sd และจำนวนตัวอย่าง
!!เพราะนักสถิติได้คิดให้เราแล้วว่ามันจะมีความน่าจะเป็นเท่าไหร่ ที่คะแนนนี้จะตกตรงนี้ๆ อะไรงี้ - มาดูความน่าจะเป็นว่า มันน่าจะบังเอิญไม่เท่ากัน หรือยังไง โดยการเทียบกับ distribution (หรือตอนเรียนมันคืออีตอนเปิดตารางเยอะๆนั่นแหละ) และไปตอบ Hypothesis
- เย่ ทีนี้ก็รู้แล้วว่าต่างมั้ย
ช้าก่อน ถ้ารู้สึกว่ามันซับซ้อนไป ขอให้ Let it go และจำแค่ว่า “เออ มันติดซิก แปลว่ามันต่าง”
และความจริงที่อ.ทุกคนไม่เคยบอกคือ… ปัจจุบันเราไม่ต้องเปิดตาราง ไม่ต้องแม้แต่คิด z หรือ t เพียงแค่ เราเปิดโปรแกรมแล้วรันมันเท่านั้นเอง (แม้แต่ excel ยังมีเลยเท๊อออ)….. จบนะ