Singapore Public Data แหล่งดาต้าโคตรงามที่ไว้ไปขุดเล่นๆ

Standard

จริงๆเราก็ไม่ได้ว่างขนาดนั้น 555 บอกตรงๆก็ Prof.สั่งให้ไปขุดมาดูนั่นแหละ แต่ว่าเว็บทำค่อนข้างดี และมี data public information ให้ค่อนข้างเยอะ ซึ่งบอกตรงๆ #ทำไมประเทศกูไม่มี

สามารถลองเข้าไปดูในนี้ได้เลยค่า https://data.gov.sg

และนอกจากจะมี databases ให้ไปเล่นแล้ว ยังมีแนวทางการ visualization ของดาต้าให้ด้วย เช่น

busserviceจาก : https://data.gov.sg/blog/fingerprint-of-a-bus-route

คือมันดีมากก ขอจงไปขุดกันเถอะค่าาา

Significant คืออะไร

Standard

เราคิดว่าหลายๆคนมาสายมาร์เก็ตติ้งและคืนความรู้ Stat ทั้งหมดแด่ครูมัธยมกับมหาลัยเรียบร้อยแล้ว (เช่นเราเป็นต้น) พอมาทำงาน อื่ออ เราก็รู้แหละว่า เวลาดาต้าเรารันออกมามี * แปลว่ามัน sig ชื่อเต็มๆคือ statistical significant หรือภาษาไทยเรียกว่า “มีนัยยะสำคัญทางสถิติ”

แล้วมันใช้ไงวะ… มันใช้ว่า สมมุติเราทำการสำรวจ ทดลอง บ้าบอคอแตกอะไรก็แล้วแต่ ในแต่ละกลุ่ม แล้วเราแยก subgroup ออกมา เราจะรู้ได้ไงว่ามันต่าง สมมุติเราถามเด็กกะผู้ใหญ่ว่าชอบกินไอติมมั้ย แล้วเด็ก 90% บอกว่าชอบ ขณะที่ผู้ใหญ่ 20% บอกว่าไม่ชอบ เออ เคสนี้มันชัดไงว่ามันต่าง แต่ถ้ามันเป็น 78 กับ 67 ล่ะ เอ่ะ จะต่างมั้ย??

ทีนี้พอมันใกล้กัน มันเลยต้องมาถามถึงทฤษฏีของ Stat ว่าด้วย ค่าเฉลี่ย (mean) และ ความผันผวน (standard deviation) ว่าค่าเฉลี่ยสองกลุ่มเนี่ย มันใกล้กันแค่ไหน แล้วไอ่ที่ว่าใกล้เนี่ย มั่นใจได้แค่ไหน ถ้าใครมีความคุ้นๆตอนเรียนสถิติ ก็จะประมาณนี้

  1. ตั้ง H0 หรือ Null Hypothesis ว่ามันเท่ากัน
  2. ไปคิดค่า z score / t score ออกมาจากค่าเฉลี่ย (mean) และ sd  และจำนวนตัวอย่าง
    !!เพราะนักสถิติได้คิดให้เราแล้วว่ามันจะมีความน่าจะเป็นเท่าไหร่ ที่คะแนนนี้จะตกตรงนี้ๆ อะไรงี้
  3. มาดูความน่าจะเป็นว่า มันน่าจะบังเอิญไม่เท่ากัน หรือยังไง โดยการเทียบกับ distribution (หรือตอนเรียนมันคืออีตอนเปิดตารางเยอะๆนั่นแหละ) และไปตอบ Hypothesis
  4. เย่ ทีนี้ก็รู้แล้วว่าต่างมั้ย

dist.JPG

ช้าก่อน ถ้ารู้สึกว่ามันซับซ้อนไป ขอให้ Let it go และจำแค่ว่า “เออ มันติดซิก แปลว่ามันต่าง”

และความจริงที่อ.ทุกคนไม่เคยบอกคือ… ปัจจุบันเราไม่ต้องเปิดตาราง ไม่ต้องแม้แต่คิด z หรือ t เพียงแค่ เราเปิดโปรแกรมแล้วรันมันเท่านั้นเอง (แม้แต่ excel ยังมีเลยเท๊อออ)….. จบนะ

 

Tableau สุดยอดแห่งนวัตกรรมการทำกราฟ

Standard

เมื่อวานก่อนเรียนคลาสแรกที่ MITB แบบว่าฟินมากก กับโปรแกรมที่ชื่อ Tableau  แต่ก่อนอื่นเราขอท้าวความถึงนวัดกรรมแห่งการทำกราฟที่เราผ่านมาก่อนแล้วกัน เผื่อหลายๆคนจะได้เห็นภาพ

  1. นวัตกรรมแบบดั้งเดิม : Crosstab ในโปรแกรม Stat แล้วเอามาเป็นตาราง แล้วเอาตารางนี้มาพล็อตอีกที
    อันนี้คือออฟฟิสที่แรกสุดในชีวิตเราทำ แบบเสียเวลาชีวิตมากมายมหาศาล ต้องมาคอยคอสทีละข้อ ต้องเช็คดาต้าอีก แล้วคนที่ทำชาร์ตก็นั่งทำไปด้วยมือนะจ๊ะ ตัดกันสนุกสนาน แต่หลักการในการทำงานมันเหมือนกันหมดนั่นแหละ แค่เทคโนโลยีมันอาจจะยังไปไม่ถึง
    ปล. แต่อันนี้คิด stat sig ให้ด้วยนะเทอออ ที่มันพีคเพราะตอนใส่ sig นี่แหละเทอออ
    traditional-data.JPG
  2. Pivot + Chart : อันนี้ก็เป็นนวัตกรรมที่ดีขึ้น คือมันชิวอ่ะะะ เราแค่ดึงดาต้ามา แล้วก็จับ Pivot ซะ ใน excel แล้วก็เอามาทำชาร์ต ซึ่ง excel ฉลาดพอที่จะรู้ว่า อ่อ ชาร์ตนี้มาจาก pivot ถ้าเราเปลี่ยนมุมใน pivot นางก็เปลี่ยนให้ด้วยจ้าาาา
    ปล. อันนี้ความพังอาจจะอยู่ที่การคลีนดาต้าก่อนจะมา Pivot  ไม่คลีนก็พังอะ
    pivot.JPG
  3. Tableau – อันนี้เพิ่งเรียน เห่อมากกกกก บอกเลย ฟินมาก สิ่งที่มันทำคือ มันเอาตัวเองไปต่อกับ Databases เช่น SQL แล้วจับสองอันมารวมกันให้เราสวยๆ และทำกราฟให้เราแบบ Drag and Drop (หรือภาษาชาวบ้านเรียกว่า pivot แบบ advance สัส ทำซะสวยเลย)
    tableau.JPG

 

นอกจากสองสามอย่างนี้ มันยังมี tools มากมายล้านแปดที่เราสามารถทำได้ 🙂 มีอันไหนเวิร์คๆอย่าลืมมาแชร์บอกเราด้วยนะ