Customer Lifetime Value (CLV) คืออะไร

Standard

ในโลกของ marketing analytics มันมีสิ่งหนึ่งที่เรียกว่า Customer Lifetime Value  หรือ CLV โดยที่เค้าจะคิดว่า หนึ่งชั่วชีวิตของคุณลูกค้า(ผู้น่ารัก) ของเราเนี่ย เค้าทำเงินให้เรากี่บาทนะ แล้วเราจะต้องใช้เงินไปกับเค้ากี่บาทนะ มันคุ้มไหมที่จะยังคงรักษา หรือพยายามดึงดูดให้เค้าใช้ผลิตภัณฑ์ของเรามากขึ้น

สำหรับใน industry บาง industry ที่เรามีข้อมูลมากมายมหาศาล เช่น โรงแรม สายการบิน หรือเครือข่ายโทรศัพท์ เราสามารถสร้าง model ที่ว่านี่ขึ้นมาเพื่อประเมินลูกค้าแต่ละคนได้ (พีคสำหรับนักการตลาด และ หลอนสำหรับลูกค้าจริงๆแหละ)

ซึ่งเราสามารถคำนวนจากข้อมูลเหล่านี้

  • Margin – จำนวนกำไรที่เราจะได้จากลูกค้าคนๆนี้ โดยอาจจะคิดได้จาก
    • Revenue – Cost
      • Revenue – จำนวนเงินที่เราน่าจะได้จากลูกค้าคนๆนี้ ในแต่ละปี เช่น ค่าโทรศัพท์รายปี
      • Cost – ค่าใช้จ่ายที่เราจะใช้ไปกับลูกค้าคนๆนี้ ในแต่ละปี เช่น ค่าติดตั้งเสา หรือค่าบำรุงรักษา เฉลี่ยมาแล้วต่อคน หรือ ค่าการตลาด ฯลฯ
    • % Margin หรือจะ คิดเป็น % ออกมา ว่าเราจะกำไรจากคนนี้เท่าไหร่
  • Retention โดยมากจะคำนวนมาเป็น % ว่าคนๆนี้มีความน่าจะเป็นที่จะเลิกใช้เราแค่ไหน เอามาคูณกับไอ่ข้อแรก
  • Time หรือจำนวนปีทั้งหมดที่เค้าจะอยู่กับเรา หรืออาจจะเป็นต่อไปเรื่อยๆไม่มีกำหนดก็ได้
  • Interest rate หรือ Discount Rate เอาไว้ให้พวกเด็กไฟแน้นซ์เค้าคำนวนมูลค่าของเงินในปัจจุบัน เช่น ถ้าเราจะได้ 1000 บาทในอีก 10 ปี กับตอนนี้ ตอนนี้มันก็ดีกว่าใช่มะ เค้าเลยมีทฤษฏีที่บอกว่า งั้นเราลองคำนวนกัน ว่าไอ่ 1000 บาทในอีก 10 ปี มีค่าเท่าไหร่ในตอนนี้? โดนคิดจากอัตราดอกเบี้ยนี่แหละ ช่างสูตรมันเหอะ เอาเป็นว่าเรามีให้เด็กไฟแน้นเค้าคิดให้เรา 555 (หรือให้คอมมันคิดให้เรา)

อันข้างล่างนี้เป็น infographic ที่ยืมเค้ามาแปะ รวมๆแล้วคือจะคิดมันยังไงนั่นแหละ 🙂

ltv.png

Credit รูปภาพ: https://blog.kissmetrics.com/how-to-calculate-lifetime-value/

Marketing Research vs. Data Analytics

Standard

ในงาน Marketing Research กับงาน Marketing Analytics นั้น จริงจะว่ามันคล้ายกันมากก็ได้ หรือจะมองว่ามันโคตรแตกต่างกันก็ได้ ในส่วนของความแตกต่าง หลักๆแล้วมันก็คือ แหล่งที่มาของข้อมูลแหละ ถ้าเป็นสาย Digital Analytics ก็มีพวกข้อมูลจาก Google Analytics หรือ tracking tools อื่นๆ ขณะที่สาย Marketing Research ก็จะได้ข้อมูลจากการทำ Primary Research เช่น Focus Group หรือ Questionnaire มากมาย

ท่ามกลางความแตกต่างเหล่านั้น จากประสบการณ์เราว่ามันก็มีคอนเซปหลักๆที่ประยุกต์ใช้ด้วยกันได้ทั้งคู่นะ

Focus at Objective

ก่อนที่เราจะทำ รีเสิช หรือดึงดาต้ามาอ่านจาก Google Analytics สิ่งที่สำคัญที่สุดคือ คำถามที่เราจะตั้ง ว่า “เราอยากรู้อะไรกันแน่” มันคือสิ่งแรกที่เราควรจะมี ก่อนที่จะเข้าไปหาดาต้า เพราะไม่งั้นแล้วหาไปหามา หลงทางจ้าาาาา…

การปักหมุด objectives ไว้สำคัญมาก เพราะมันคือเหตุผลที่ว่าทำไมเราถึงต้องทำ research / analysis อันนี้  แล้วเราก็ค่อยขุดๆๆๆๆ หา assumption หาหลักฐาน หาอะไรสนับสนุน เพื่อที่จะตอบโจทย์มัน เพราะสิ่งหลักๆแล้วคือ เวลาเราเจอดาต้า บู้ม เรากลายเป็นโกโก้ครั้นช์ค่ะ ถ้าสายรีเสิชเจอคำถามไป 60 ข้อ “หนูนี่ไม่รู้จะเลือกอ่านอะไรก่อนเลยค่ะ” ส่วนถ้าสายดิจิตอล เข้า Google Analytics ไปเจอเป็นหมื่นสิ่ง (ซึ่งไม่รู้ set-up tag ถูกมั้ยอีกต่างหาก) “หนูนี่ก็มึนไปเลยค่ะ”

 

Data Analysis

หลังจากได้ดาต้าแล้ว สิ่งหลักๆที่เราใช้ในการวิเคราะห์ดาต้า ถ้าเป็นสายรีเสิช จะเรียกมันว่า “banner” และ “dummy” (ซึ่งบอกตรงๆใช้เวลาประมาณสองเดือน ในการเข้าใจว่ามันคืออะไร) แต่ถ้าเป็นสาย Digital / Analytics จะเรียกมันว่า “metrics” กับ “dimensions” ว่าแต่มันคืออะไรล่ะ?

เริ่มจากศัพท์แสงของสายรีเสิช

  • Dummy – มันคือตารางเปล่าๆ ตารางปลอมๆ ตามชื่อมันเลยค่ะ สิ่งนี้มันมีไว้ให้เรารู้ว่า เราต้องเอาแบบสอบถามข้อนี้ มา cross-tab กับข้อนี้นะ (คือเอาความถี่ในการกินขนม มาแตกดูตามกลุ่มย่อย เช่น แยกดูด้วยเพศ หรืออายุ) ลองดูตัวอย่างในรูปข้างล่างดู.. ซึ่งอีดัมมี่นี่ เรามีไว้เพื่อว่าเราจะได้ไปบริฟพวกพี่ๆ Programmer ที่เค้าจะรัน spss หรือโปรแกรมอะไรของเค้านั่นแหละ มาให้เรา (เพราะเราจะได้ไม่ต้องรันเอง)
    dummy.JPG
  • Banner – พูดตรงๆมันก็คือ “หัวตาราง” (ซึ่งตอนที่พี่เค้าสอนเรา ถึงกับหันไปมอง “นี่พี่ล้อหนูเล่นแน่ๆ หัวตารางคือไรคะ”) แต่นั่นแหละ มันคือคำอธิบายที่ชัดสุดล่ะ มันคืออีหัวของตารางเมื่อกี้นั่นแหละ ว่าเราจะเอาคอลัมน์อะไรใดๆบ้าง เหตุผลที่เราต้องทำอันนี้ไปให้เค้า เพราะว่าเค้าจะสามารถเซตโปรแกรมได้เลยว่า เออ ข้อ 1,2,7,8 แยก subgroup นี้นะ แล้วเค้าก็จะให้ดาต้าเรามาตามนั้น
    banner.JPG
    ประโยชน์อีกอย่างหนึ่งของอีแบนเนอร์นี่ คือการที่เราจะได้รู้ว่า เราจะเทียบ “sig” หรือ Significant Test ระหว่างกลุ่มไหนอะไรยังไง (เชื่อเหอะมันคือ common sense  แต่มันก็มีรายการรันผิดมาตลอดเวลา) รวมถึงเราสามารถเช็ค Base (หรือจำนวนคนตอบทั้งหมด) ได้ว่า เอ๊ะ ข้อนี้ผู้ชายควรตอบ 100 คน ทำไมมีแค่ 20 ล่ะ หรือ ข้อนี้ถามเฉพาะผู้หญิง ทำไมมีผู้ชายตอบมานะ
  • Sig (Significant Test) อันนี้ต้องย้อนกลับไป กาลครั้งหนึ่งนานมาแล้วในวิชา Stat ที่เราเคยเรียน H0 Null Hypothesis , H1 Alternate Hypothesis ว่ามันการเทียบระหว่าง population proportion, population mean, ฯลฯ แต่ช่างมันเหอะ 555 เราแพ้เลข เอาเป็นว่าเรารู้แค่ว่า ผลออกมาคือ “ในทางสถิติแล้ว ไอ่เลขที่เราเห็นว่ามันมากกว่าเนี่ย มันมากกว่าจริงๆ หรือมันมากกว่าเพราะอาจจะแค่สุ่มมาเจอนะ” ถ้ามันติด sig ก็แปลว่า มันควรจะมากกว่าจริงๆนี่แหละ
    ซึ่งค่าซิกนี้ มันจะขึ้นอยู่กับ ความแตกต่างของเลข และ Base (จำนวนคนตอบ) เพราะถ้าสมมุติมีคนตอบ 3 คน เราอาจจะไม่ค่อยมั่นใจในความซิกของเรามะ? (อ่านเพิ่มเติมเรื่องซิกที่นี่)

ไหนๆรู้จักสายรีเสิชแล้ว มารู้จักกับคำพูดที่ติดปากของสาย analytics ดีกว่า ซึ่งนั่นก็คือ metrics และ dimensions

  • Metrics – คือตัวเลข … เอาง่ายๆว่าเราอยากเห็นเลขอะไร เช่น จำนวน session (มีคนเข้าเว็บเรากี่ครั้ง) หรือ click หรือ revenue
  • Dimensions – คือ Category หรือถ้าพูดแบบรีเสิชเช่อ ก็คือแบนเนอร์นั่นแหละ เราแบ่งตามอะไร เช่น ชาย/หญิง คนที่เข้ามาจากทาง SEO /SEM / Facebook (หรือเรียกสั้นๆว่า channel) ฯลฯ

 

ดังนั้นถ้าเราจะมาเปรียบเทียบกันจริงๆ การเขียน dummy หรือ banner มันก็คือการหา dimensions ที่เราต้องการจะดูจากดาต้า และ metrics ก็คือค่าต่างๆที่เรารันลงไปในตาราง (และรันซิก) นั่นเอง และก็ย้อนกลับมาที่เดิมคือ ถ้าเรารู้ว่า objective เราคืออะไร เราก็จะสามารถบอก dimension / banner (กลุ่มย่อย) ที่เราอยากจะอ่าน และ metrics / คำถามที่เราอยากรู้ ได้นั่นเอง 🙂

 

โปรแกรม R และหลายเหตุผลคูลๆที่คุณอยากลอง

Standard

ถ้าคุณเป็นคนหนึ่งที่คิดว่าการเขียนโปรแกรม มันคูล (และรู้ตัวว่ากากมาก เรียนทำไหร่ก็ไม่เข้าใจแม่งซักที และโค้ดคือไม่ใช่เพื่อนเรา) และคุณรู้สึกว่าอีโปรแกรมที่ใช้อยู่ทุกวันนี้บางทีมีข้อจำกัดที่หลายๆครั้งอาจจะมีทางเลือกที่ดีกว่า แต่คุณไม่รู้จะเริ่มจากอะไร  เราขอแนะนำให้คุณรู้จัก R Programming

r.jpg

R เป็น programming language ที่ค่อนข้างมาแรง ณ เวลานี้ ส่วนนึงเพราะว่า trend data analytics มาแรงมากๆ (เพราะนางเริ่มต้นจากการเป็นโปรแกรมแสตต) รวมถึง big data และอีกส่วนเพราะมันง่ายมาก (เชื่อเราเหอะ เราเขียนอะไรไม่ได้ซักอย่างแม้กระทั่ง html ง่าวๆๆ แต่เราเขียน r เบสิ๊ก เบสิกได้) แถมส่วนที่ดีที่สุดคือ มันฟรี และมันมี library ดีๆให้เลือกใช้ได้เกือบทุกอย่างที่ต้องการ

ความเก๋ของ R นอกจากความที่นู้ปอย่างเราจะสามารถเรียนได้ในเวลาไม่นานนัก คือมันมีพลังในการจัดการดาต้าได้อย่างเหลือเชื่อมหาศาล แทบจะเรียกได้ว่าครอบคลุมส่วนใหญ่ของการรันดาต้าทั้งหมดแล้ว (แต่นั่นแหละเจ้าของบล็อกก็ชอบ excel มากกว่า เพราะมันขี้เกียจ)

ซึ่งการใช้ R เนี่ย ส่วนใหญ่จะใช้ผ่าน R Studio (อารมณ์เหมือน r คือ html และ เราเขียนผ่าน dreamweaver อะไรประมาณนี้)  เอาเป็นว่าถ้าอยากลองเล่นก็โหลดมันสองอันแล้วก็เปิดแต่ R Studio เอาไว้ทำงานพอ

อันนี้คือสรุปมาให้คร่าวๆ ว่า R / R studio ทำอะไรได้บ้าง ทั้งหมดนี้คือเราเคยลองแตะๆ บางอันก็เยอะ บางอันก็แตะจริงๆ แต่ทุกอันล้วนมีคำตอบใน Google ทั้งนั้น what-r-can-do.JPG

  • Data Import ที่สุดของการดึงดาต้า เราว่ามันเก๋มากตรงต่อ API ไปหาอะไรก็ได้ ต่างกับพวก Tableau หรือ Excel ที่จะมีเซทแห่งความปอปปูล่าร์มาให้ (และก็ไม่มี GA / Google Analytics สุดที่รักของช้านนนน)
  • Data Manipulation ด้วยความที่โปรแกรมมันเป็นโปรแกรมแสตตมาก่อนอ่ะนะ เวลาจัดการดึง ฟิลเตอร์ หรือรวมอะไรอย่างงี้ มันเลยค่อนข้างโอเคเลยทีเดียว (โอเค แต่ Pivot Table ใน Excel ก็ง่ายกว่าอยู่ดี)
  • Modelling เช่นเดียวกัน เพราะเป็นแสตต จึงมีความสามารถในการรันโมเดลมากมาย เช่น regression ที่รันได้ด้วย การพิมพ์อักษรบรรทัดเดียว (ง่ายปะละ) หรือแพคเกจที่เริ่มไปทาง machine learning หน่อยๆ เช่นพวก decision tree หรือ text analytics (ภาษาอังกฤษอ่ะนะ) ก็มีหมดแล้ว และข้อดีสุดๆคืออีพวกนี้หาเรียนได้ฟรี ใน EdX
  • Data Visualization โอ้ย ประมาณหมื่นล้านคนในโลก จริงๆแล้วต้องการดาต้าไม่ได้ต้องการรันโมเดลบ้าบออะไรหรอก แค่ต้องการกราฟง่ายๆ หรือแดชบอร์ดสวยๆเอาไว้ดู และจะได้เอาไปทำงานต่อได้ ซึ่ง การทำ visualization มันน่ารำคาญมากแรกๆ แต่มันค่อนข้าง customize ทำได้ประมาณแปดหมื่นอย่าง ที่อย่างอื่นทำไม่ได้ และที่โหดกว่านั้น คือสามารถเอาไปทำเป็น interactive dashboard ได้ด้วยโค้ดสามสี่บรรทัด ซึ่งประเสริฐมากมาย (แต่นั่นแหละ ด้วยตัวมันเองก็ยังแพ้ Tableau อยู่ แต่ถ้าไปรวมตั้งแต่ข้อแรกมาแล้ว R ก็คือช้อยส์ที่ดีมากถ้าอยากทำ)

แถมขำๆ อันนี้เป็นโปรเจคที่ทำส่งอาจารย์ (ก็ไม่ขำหรอก) แต่ถ้าเอามันไปต่อมันก็พาวเวอร์ฟูลมากๆ ใครสนใจลองหลังไมค์มาได้นะครัชชช

dashboard-from-r.JPG

https://smu-visual-proj.shinyapps.io/e-commerce/

 

 

 

 

 

 

ทำกราฟยังไงให้อ่านง่าย

Standard

ขอออกตัวก่อนว่ามีการบ้านต้องหาข้อมูล นี่คืออู้มาก แต่ว่าไม่ไหวแล้ว ต้องการการระบาย  คือตอนทำการบ้านเราก็จะต้องไปหาข้อมูลจากหลายๆที่ เช่น Consumer BarometereMarketer ซึ่งสิ่งที่เกิดขึ้นคือ เจอกราฟแบบที่มันน่าจะทำให้เล่าเรื่องได้ดีขึ้น หรือสื่อความหมายได้ดีขึ้น เพราะแบบเราเกลียดตาราง เกลียดเลขมาก ยิ่งทำงานไม่ทันแล้วเจองี้ สิ่งที่ทำคือ นั่งพล๊อตใหม่เลยจ้า จะได้อ่านง่าย

1. ถ้าจะเอาข้อมูลใส่ตารางดื้อๆ ช่วยกรุณา conditional format  อันนี้เอาไว้อ่านเองก็ดี เอาไว้ใส่พรีเซ้นก็ได้ (แต่ต้องดูให้มันไม่เลอะเทอะวุ่นวายนะ) ส่วนใหญ่เราจะชอบใช้สำหรับอ่านดาต้าให้เห็นภาพคร่าวก่อนๆ เพียงสามคลิ๊กเท่านั้น เลือกดาต้า แล้วก็เข้าไปกดใน excel ได้เลย เห็นมะ ภาพมาชัดเลยจ้าาาา

conditional_format.JPG(ข้อมูล Digital Consumer Index จาก Passport)

ข้อระวังของอันนี้มีแค่อันเดียว คือ ถ้าเราจะเลือกให้มันไฮไลท์เป็นแถวๆไป เราต้องค่อยๆทำทีละอัน (ไม่งั้นก็ record macro) แต่นั่นแหละ ถ้าลากทั้งแผงมันจะไปหมดเลย อาจจะไม่เห็นเทรนด์ได้เท่าที่ควร

2. หรือถ้าคิดไม่ออกจริงๆก็ Line Chart สำหรับข้อมูลที่เป็น time series และ Bar Chart สำหรับข้อมูลที่ไม่มีความเชื่อต่อ

line.JPG

แค่คลิกสองจึ๊ก LineGraph แบบสิ้นขึ้นก็ปรากฏ และเห็นภาพ เห็น trend ชัดกกว่าตารางด้านซ้ายอย่างชัดเจน ดังนั้น ก็ทำกราฟเถอะนะ สงสารมาร์เกทติ้งหน่อย เราไม่เก่งเลข ทำมาเป็นรูปให้เรานะๆ

อีกอันคือ กราบเลยนะ ขอร้องว่า ถ้าข้อมูลไม่ใช่ต่อเนื่องกัน (เช่น ไม่ใช่ตามเวลา) กรุณาอย่าใช้ Line Graph ให้เลี่ยงไปใช้ Bar แทน เช่น เพศชายกะเพศหญิง คือมึงไม่ได้มีอะไรตรงกลาง มึงจะเป็นเส้นเชื่อมกันไม่ได้!! ตรงกลางมึงคือกระเทยหรอออ!!!

noline.JPG

3. TreeMap กราฟที่ชาวบ้านไม่เคยได้ยิน แต่นางก็ใช้ง่ายอยู่ (และมีใน excel ด้วย)

ขอยกตัวอย่างละกัน ตอนนี้ทำงานเกี่ยวกับอาเซียน (เอ๊ะ มันเปิดยังวะ) อย่างเรื่อง Population เราลองพล็อตด้วยกราฟที่เค้าเรียกกันว่า TreeMap ซึ่งทางเทคนิคแล้ว เค้าเอาไว้พล็อตข้อมูลที่มี Hierarchical เยอะๆเช่น ระดับทวีป > ประเทศ > จังหวัด งี้.. แต่เรานู้ป 555 เอามาพล๊อตธรรมด๊าธรรมดานี่แหละ  เราว่ามันแสดงความแบ่งส่วนๆ Part-whole relationship ได้ดีเหมือนกัน (แอบดีกว่า Pie Chart) และเห็นภาพง่ายสุดดดดด ลองไปเล่นกันดูนะคะ

treemap.JPG

TreeMap จาก Excel

4. ถ้าคุณจะต้องมี Bar หลายอัน จากคำตอบข้อเดียวกัน และรวมกันได้ 100% กรุณาใช้ stacked bar นะคะ (อันนี้ Excel ก็มี)

โลกนี้ก็มีสิ่งประดิษฐ์ที่เรียกว่า stacked bar นะคะ ถ้ามันรวมกัน 100% โดยเฉพาะคำถาม SA (กรุณาเลือกคำตอบเดียว) และคำตอบมันเกี่ยวกัน เราว่ามันดีมากๆเลยถ้าจะรวมกันบน stacked bar อย่างตัวอย่างนี้ ที่เราดึงมาจาก Consumer Barometer โอ้ยดูทีคือ งง แล้วไงอ่ะ อันไหนเยอะกว่า แล้วเยอะกว่าน้อยกว่าไปไหน (ซ้ายมือ) โดยนางแยกให้เราเป็นสามกราฟ (อยากถามว่าแย่กเพื่อ) สิ่งที่ทำคือดาวน์โหลดแม่ง แล้วก็เอาไปทำกราฟใหม่ในเอ็กเซลเอามาโปะๆซะ และก็ค้นพบว่า มีหายไปเกือบ 20% ของ Philippines!!!!  และเห็นภาพชัดขึ้นว่า อ๋อ ที่คนสิงกาโปหายไปจากสมารทโฟน คือนางใช้สองอย่างพอๆกันนะ แค่ฟิลิปปินนี่ นางหายไปคอมพิวเตอร์และหายไปไหนไม่รู้เยอะกว่า

4.1 Stacked bar 2 ชั้นป่ะล่ะนาย

stackedbr.JPG

จากดาต้าข้อแรกอ่ะ คือเราก็อยากทำกราฟ ทีนี้เรารู้ว่ามันรวมกันได้เท่าไหร่ แต่มันมี ปัจจุบันกับอนาคต เลยลองทำโดยการ stack นี่แหละ และโปะมันลงไปสองชั้น (อันนี้ใช้ excel แปะทับโง่ๆเลย) โอเคยอมรับว่ามันแอบงง แต่ก็เป็นไอเดียเผื่อใครเจอดาต้าที่ต้องมองสองสามมุม

5. Scatter Plot

อันนี้เป็นอันที่เราไม่ค่อยใช้เท่าไหร่ ยอมรับเลย มันใช้กับ สองค่าที่เป็นเลข แต่ก็เอามาประยุกต์ได้ (อันนี้เราใช้ Tableau) ข้อดีของ tableau ที่ excel ทำให้เราไม่ได้ คือนางใส่ขนาดของ bubble ได้ด้วย ทำให้เราสามารถเห็นความยิ่งใหญ่ได้ อันนี้ก็พลอตสวยๆแหละเทอ ไม่ได้อะไรมาก แค่ก็ดูง่ายกว่าเลขๆ (ย้ำอีกรอบ เราเป็นมาเกทเต้ออ่อนเลขที่เสือกเรียนโทใช้เลข ฮืออ)

scatter

Hope this helps!!

 

Likert Scale : จากคะแนน 1-5 คุณชอบ…มากน้อยแค่ไหนคะ?

Standard

เชื่อเหอะ ทุกคนต้องเคยตอบแบบสอบถามอันนี้แน่นอน แบบชอบมากที่สุดคือ 5 และไม่ชอบเลย คือ 1 และ นักวิจัยการตลาดทุกคนก็ต้องเคยเขียนวิเคราะห์ผลมันมาเกือบทุกคนแหละถ้าไม่ทุกคน เพราะมันโคตรเบสิกที่สุดในสามโลก

มารู้จัก Likert Scale กันดีกว่า มันคือเสกล 1-5  / 1-7 / 1-9 อะไรก็ว่าไป โดยที่ควรจะเป็นจำนวนคี่ เพื่อที่จะได้มีคะแนนตรงกลาง คือ Neutral หรือ กลางๆ

ปกติแล้วเราก็ทำแบบ หาค่าเฉลี่ยออกมานี่แหละ อยากดีก็หา %Top 2 Boxes หรือค่าที่มันเป็นบวก ทีนี้พอมาเรียน Visualization อ.ก็ด่ายับค่ะ แบบว่า ถ้าเฉลี่ยคือ 3 แล้วมันคือ คนชอบมากกะเกลียดมาก(5กะ1) อย่างละครึ่ง หรือว่ามันเฉยๆล่ะ

สุดท้ายหลังจากทำหน้าโง่ใส่อ.หลายครั้งมาก อ.เลยสงสาร(ปนสมเพช) และบอกว่า เอ็งลองไปดู “Divergent Bar Chart” นะ พอลองทำดู โอ้วว้าววว มันตอบโจทย์น้องจริงๆค่ะ  เราสามารถมองเห็นชัดเลยว่ามัน positive / negative ยังไง และก็เห็นการกระจุก/กระจาย

likert-visualization.JPG

อย่างอันข้างบนเนี้ย ทำการบ้านส่งค่าาา ลองไปเล่นๆกันดูได้ แบบ Interactive ด้วยนะ ที่ https://public.tableau.com/views/Wiki4HE_Viz_20161004/WIKI4HEVisualization?:embed=y&:display_count=yes โดยส่วนของ dataset ดึงมาจาก UCI Machine Learning Repository ด้วยเหตุผลง่าวๆคือชั้นรัก UCI #ZotOn

 

Significant คืออะไร

Standard

เราคิดว่าหลายๆคนมาสายมาร์เก็ตติ้งและคืนความรู้ Stat ทั้งหมดแด่ครูมัธยมกับมหาลัยเรียบร้อยแล้ว (เช่นเราเป็นต้น) พอมาทำงาน อื่ออ เราก็รู้แหละว่า เวลาดาต้าเรารันออกมามี * แปลว่ามัน sig ชื่อเต็มๆคือ statistical significant หรือภาษาไทยเรียกว่า “มีนัยยะสำคัญทางสถิติ”

แล้วมันใช้ไงวะ… มันใช้ว่า สมมุติเราทำการสำรวจ ทดลอง บ้าบอคอแตกอะไรก็แล้วแต่ ในแต่ละกลุ่ม แล้วเราแยก subgroup ออกมา เราจะรู้ได้ไงว่ามันต่าง สมมุติเราถามเด็กกะผู้ใหญ่ว่าชอบกินไอติมมั้ย แล้วเด็ก 90% บอกว่าชอบ ขณะที่ผู้ใหญ่ 20% บอกว่าไม่ชอบ เออ เคสนี้มันชัดไงว่ามันต่าง แต่ถ้ามันเป็น 78 กับ 67 ล่ะ เอ่ะ จะต่างมั้ย??

ทีนี้พอมันใกล้กัน มันเลยต้องมาถามถึงทฤษฏีของ Stat ว่าด้วย ค่าเฉลี่ย (mean) และ ความผันผวน (standard deviation) ว่าค่าเฉลี่ยสองกลุ่มเนี่ย มันใกล้กันแค่ไหน แล้วไอ่ที่ว่าใกล้เนี่ย มั่นใจได้แค่ไหน ถ้าใครมีความคุ้นๆตอนเรียนสถิติ ก็จะประมาณนี้

  1. ตั้ง H0 หรือ Null Hypothesis ว่ามันเท่ากัน
  2. ไปคิดค่า z score / t score ออกมาจากค่าเฉลี่ย (mean) และ sd  และจำนวนตัวอย่าง
    !!เพราะนักสถิติได้คิดให้เราแล้วว่ามันจะมีความน่าจะเป็นเท่าไหร่ ที่คะแนนนี้จะตกตรงนี้ๆ อะไรงี้
  3. มาดูความน่าจะเป็นว่า มันน่าจะบังเอิญไม่เท่ากัน หรือยังไง โดยการเทียบกับ distribution (หรือตอนเรียนมันคืออีตอนเปิดตารางเยอะๆนั่นแหละ) และไปตอบ Hypothesis
  4. เย่ ทีนี้ก็รู้แล้วว่าต่างมั้ย

dist.JPG

ช้าก่อน ถ้ารู้สึกว่ามันซับซ้อนไป ขอให้ Let it go และจำแค่ว่า “เออ มันติดซิก แปลว่ามันต่าง”

และความจริงที่อ.ทุกคนไม่เคยบอกคือ… ปัจจุบันเราไม่ต้องเปิดตาราง ไม่ต้องแม้แต่คิด z หรือ t เพียงแค่ เราเปิดโปรแกรมแล้วรันมันเท่านั้นเอง (แม้แต่ excel ยังมีเลยเท๊อออ)….. จบนะ

 

Tableau สุดยอดแห่งนวัตกรรมการทำกราฟ

Standard

เมื่อวานก่อนเรียนคลาสแรกที่ MITB แบบว่าฟินมากก กับโปรแกรมที่ชื่อ Tableau  แต่ก่อนอื่นเราขอท้าวความถึงนวัดกรรมแห่งการทำกราฟที่เราผ่านมาก่อนแล้วกัน เผื่อหลายๆคนจะได้เห็นภาพ

  1. นวัตกรรมแบบดั้งเดิม : Crosstab ในโปรแกรม Stat แล้วเอามาเป็นตาราง แล้วเอาตารางนี้มาพล็อตอีกที
    อันนี้คือออฟฟิสที่แรกสุดในชีวิตเราทำ แบบเสียเวลาชีวิตมากมายมหาศาล ต้องมาคอยคอสทีละข้อ ต้องเช็คดาต้าอีก แล้วคนที่ทำชาร์ตก็นั่งทำไปด้วยมือนะจ๊ะ ตัดกันสนุกสนาน แต่หลักการในการทำงานมันเหมือนกันหมดนั่นแหละ แค่เทคโนโลยีมันอาจจะยังไปไม่ถึง
    ปล. แต่อันนี้คิด stat sig ให้ด้วยนะเทอออ ที่มันพีคเพราะตอนใส่ sig นี่แหละเทอออ
    traditional-data.JPG
  2. Pivot + Chart : อันนี้ก็เป็นนวัตกรรมที่ดีขึ้น คือมันชิวอ่ะะะ เราแค่ดึงดาต้ามา แล้วก็จับ Pivot ซะ ใน excel แล้วก็เอามาทำชาร์ต ซึ่ง excel ฉลาดพอที่จะรู้ว่า อ่อ ชาร์ตนี้มาจาก pivot ถ้าเราเปลี่ยนมุมใน pivot นางก็เปลี่ยนให้ด้วยจ้าาาา
    ปล. อันนี้ความพังอาจจะอยู่ที่การคลีนดาต้าก่อนจะมา Pivot  ไม่คลีนก็พังอะ
    pivot.JPG
  3. Tableau – อันนี้เพิ่งเรียน เห่อมากกกกก บอกเลย ฟินมาก สิ่งที่มันทำคือ มันเอาตัวเองไปต่อกับ Databases เช่น SQL แล้วจับสองอันมารวมกันให้เราสวยๆ และทำกราฟให้เราแบบ Drag and Drop (หรือภาษาชาวบ้านเรียกว่า pivot แบบ advance สัส ทำซะสวยเลย)
    tableau.JPG

 

นอกจากสองสามอย่างนี้ มันยังมี tools มากมายล้านแปดที่เราสามารถทำได้ 🙂 มีอันไหนเวิร์คๆอย่าลืมมาแชร์บอกเราด้วยนะ