How much DATA is BIG enough? – ต้องมีข้อมูลขนาดไหนถึงจะใช้งานได้ดี

เราทุกคนในสายธุรกิจก็ต่างทราบกันดีถึง Potential ของ Big Data ที่ช่วยให้การตัดสินใจทางธุรกิจง่ายขึ้น ช่วยพัฒนาประสบการณ์ของลูกค้า ช่วยแก้ปัญหาต่าง ๆ ในธุรกิจ หรือแม้กระทั้งช่วยปรับกลยุทธ์ทางธุรกิจได้อีกด้วย

แต่ทั้งนี้ หลายๆ บริษัท Startup ที่เพิ่งเริ่มธุรกิจได้ไม่นานและยังเก็บ Data ได้ไม่เยอะนัก อาจจะไม่แน่ใจว่าตัวเองมี Data เพียงพอสำหรับการนำไปวิเคราะห์หรือไม่ ซึ่งในกรณีนี้ ก็สามารถเกิดขึ้นได้กับบริษัทที่ขับเคลื่อนด้วย Data อยู่แล้ว แต่กำลังเพิ่ง launch สินค้าหรือบริการตัวใหม่ออกมา

ถ้าเป็นในกรณีที่ 2 ก็อาจจะง่ายหน่อย เพราะถ้ามีข้อมูลไม่พอ เราสามารถที่จะ Reuse ฐานข้อมูลลูกค้าที่มีอยู่แล้วในระบบ โดยไม่ต้องไปเริ่มใหม่จากศูนย์ แต่ถ้าเป็นกรณีแรก ที่บริษัทไม่มี Data ตั้งต้นใดๆ เลย ก็อาจสามารถลองทำ Social Listening หรือ หา External Data  เพื่อใช้ทำกลยุทธ์การตลาดเบื้องต้น

แต่ในบทความนี้เราจะ focus ไปที่คำถามว่า ชุด Data ที่เราเพิ่งเริ่มเก็บนั้นต้องมีขนาดไหนถึงจะเพียงพอต่อการนำไปใช้ในงานวิเคราะห์ข้อมูล (Data Analytics)

พอ หรือยังไม่พอ? ถ้าพูดถึงเรื่องปริมาณของ Data หลายท่านอาจจะนึกถึง Observation Numberหรือ จำนวนของข้อมูลทั้งหมดโดยนับเป็น data row หรือ จำนวนของชุดข้อมูลที่เก็บในแต่ละกิจกรรม และ Observation Period  ซึ่งในที่นี่หมายถึงระยะเวลาที่เก็บ Data เช่น ท่านอาจจะเพิ่งเริ่มเก็บมาได้เป็นระยะเวลา 3 ปี 4 เดือน แต่ค่าวัดเหล่านี้ไม่เพียงพอสำหรับการตัดสินว่าข้อมูลของเราพร้อมหรือยัง มันจำเป็นที่จะต้องมีการพิจารณาเรื่อง Data Context and Data Interpretation หรืออธิบายสั้นๆคือ บริบทและความหมายของ Data ของเรา โดยพิจารณาว่ามันเพียงพอตอบโจทย์การใช้งาน Data ของเราหรือไม่ เช่น ถ้าอยากตอบได้ว่าเราควรจะตั้งตู้ ATM ที่ไหนดี ก็ต้องมีข้อมูลที่บ่งบอกสถานที่ที่กลุ่มลูกค้าอยู่ หรือไปทำธุรกรรมบ่อยๆ

ในขณะที่ Observation Number และ Observation Period  แน่นอนว่ายิ่งมีมากยิ่งดี แตกต่างจากData Context and Data Interpretation ที่มีมากแต่ไม่ตรงจุด ก็ถือว่ามีไม่พอ

การตอบคำถามเรื่องความเพียงพอของข้อมูล จึงต้องพิจารณาว่าจะนำ Data ที่มีอยู่ไปใช้งานอะไร ประกอบกับการพิจารณาลักษณะของ Data ในธุรกิจนั้น ๆ เนื่องจากเราไม่มี Golden Rule หรือกฎทองคำที่ใช้กำหนดว่า ขนาดเท่าไร คือขนาดที่ดีสุดสำหรับแต่ละงาน ดังนั้น ทุก ๆ case การใช้งาน และลักษณะของแต่ละธุรกิจ ย่อมจะมีหลักการพิจารณาขนาด ที่แตกต่างกันไป

Example Case1: การพิจารณา Data เพื่อใช้สำหรับ Sales Performance Analysis ถ้าใน case ของธุรกิจใหม่ที่ไม่เคยใช้ Data เลย แนะนำให้เริ่มจาก Data use case ที่จำเป็นก่อน เช่นการ Monitor Business Performance เริ่มจาก Sale Performance Analysis

  • Observation number and period: ในกรณีนี้ จำเป็นที่จะต้องมี indicator ที่ใช้ชี้วัดการดำเนินงานที่ผ่านมา ถึงแม้จะมี Observation Period ไม่ถึงปี ก็ยังสามารถเปรียบเทียบเป็นเดือนต่อเดือนได้ (Month-Over-Month) แต่จะไม่สามารถเปรียบเทียบรายปีได้ (Year-Over-Year) ซึ่งจะทำให้เราไม่สามรถทราบ Performance Trend ที่แท้จริงของบริษัทได้เลย เพราะมันมีทั้งเรื่องของ Seasonality และ Noise ซึ่งต้องการ Observation Period อย่างน้อย 2 ปี
  • Data Context and Data Interpretation: เราต้องทำให้แน่ใจว่า เรามี Data ที่จะสามารถตอบโจทย์ เช่น ลูกค้าโดยเฉลี่ยจ่ายเท่าไรต่อ 1 basket (Transaction) หรือ สินค้าไหนมี Sale Performance ดีที่สุดในเดือนนี้

Example Case2: การพิจารณา Data เพื่อใช้สำหรับ Diagnostics Analysis แล้วขนาดเท่าไรถึงจะพร้อมสำหรับการทำ Diagnostics Analysis หรือการวิเคราะห์เพื่อค้นหาต้นตอของสาเหตุ สมมุติในกรณีที่ลูกค้า Inactive Online Shopping App Service ของเราไปหลังจากการใช้งานเพียงแค่หนึ่งสัปดาห์

  • Observation number and period: การหาสาเหตุจำเป็นจะต้องกลับไปดูกิจกรรมในช่วงที่เค้าเคยActive (History Activity) ซึ่งจะมีเพียงแค่สัปดาห์เดียว ทั้งนี้ อาจจะฟังดูเหมือนว่าเราจะต้องการObservation Period ในระยะสั้นๆ เท่านั้น แต่จริง ๆ แล้วใน case เดียวกันอาจจะมีได้หลายสาเหตุ แต่เราจะโฟกัสที่สาเหตุหลักที่ทำให้คน Inactive เป็นจำนวนมาก ดังนั้นเราจึงต้องการ Observation Number (Sample Size) ที่มี case แบบนี้เยอะๆ เพื่อที่จะได้ Confidence level สูงๆ หรือเพื่อที่จะแน่ใจได้ว่าผลวิเคราะห์สาเหตุของเราถูกต้องที่สุด เพราะเหตุนี้ Observation period อาจจะต้องนานกว่าที่คาดเอาไว้ ขึ้นอยู่กับลักษณะของธุรกิจ เช่น ถ้าในธุรกิจอย่าง iTax ซึ่งเป็นแอปพลิเคชันช่วยคำนวณและวางแผนภาษี โดยเฉลี่ยอาจจะมี User เข้ามา Login แค่ปีละ 2 ครั้ง ทำให้จำเป็นจะต้องใช้Observation period นานกว่า 2 ปีในการเก็บ Sample Size ให้เยอะพอ
  • Data Context and Data Interpretation: เราจำเป็นที่จะต้องมี Data ที่ใช้ในการสังเกตพฤติกรรมการใช้ App ก่อนที่ลูกค้าจะ inactive ไป เช่น ชุดข้อมูลที่สามารถบอก Last seen Activity ของผู้ใช้ได้ และ สามารถ track User Click Journey ได้ ซึ่งการเก็บชุด Event ของ Activity ที่หลากหลายของผู้ใช้จะช่วยให้เราไม่พลาดการค้นหาต้นตอของสาเหตุที่แท้จริง ยิ่งไปกว่านั้น ถ้ามี User Profile ก็อาจจะมีประโยชน์สำหรับบางกรณี เช่น ลูกค้าผู้ชาย inactive เป็นส่วนใหญ่เพราะไม่สามารถหาสินค้าผู้ชายได้ในShopping App ของเรา เป็นต้น

Example Case3: การพิจารณา Data เพื่อใช้สำหรับ Demand Prediction Model

  • Observation number and period: หากเราต้องการ Predict Demand ของลูกค้า แต่ยังเก็บ Data ได้ไม่ถึงปี หลายๆท่านอาจจะนึกถึงการเอา Predictive Model ที่ทำมาแล้ว มาใช้กับชุด Data ของท่าน ในกรณีนี้ก็สามารถทำได้ ถ้า Data และ nature ของธุรกิจ มีความใกล้เคียงกับ Predictive Model ที่นำเข้ามาใช้ แต่ความเป็นจริงมักไม่เป็นแบบนั้นเสมอไป โดยเฉพาะการทำระบบแนะนำสินค้า(Recommender system) เพราะแต่ละธุรกิจมี Feature บางอย่างที่ต่างกัน อาจจะลักษณะสินค้าที่ไม่เหมือนกัน เช่น  JIB กับ Shopee ทำให้ต้องมีการสร้างและ Train Model ใหม่ เพื่อให้ fit กับ Data และnature ของธุรกิจนั้น ถ้าธุรกิจของเราคือ Shopping App ในตัวอย่างข้างต้น การ Train model ที่ต้องรวมถึงการ Cross-validation จำเป็นจะต้องมีข้อมูลพฤติกรรมการซื้อสินค้า โดยเฉลี่ยต่อคน เป็นจำนวนมากพอที่จะตัดสินได้ว่าลูกค้าคนนี้ชอบสินค้าแบบนี้จริง ๆ ถ้าเฉลี่ยคนเข้ามาซื้อสินค้า 3 ครั้งใน 6 เดือน ก็อาจจะต้องใช้ Observation Period มากกว่า 2 ปี เพื่อที่จะได้ Observation Number ที่เพียงพอนั่นเอง
  • Data Context and Data Interpretation: ในเรื่องการทำ Prediction โดยทั่วไป Data ที่เราใช้ จะต้องมีความ Significant ในแง่สถิติมากพอที่จะนำมาใช้ในการตัดสินบุคคล เพราะการใช้ Data ที่ Significant Level ต่ำ หรือ ในกรณีนี้ – ไม่ใช่เหตุปัจจัยหลักที่ทำให้เกิด Demand อาจจะทำให้เกิดปัญหา Underfitting Model หรือทำให้ได้ผลลัพธ์ที่ไม่ถูกต้อง ดังนั้นข้อมูลเพียงพอหรือไม่ ขึ้นอยู่กับว่า เรามี Data Fields ที่เป็นปัจจัยสำคัญที่ชี้วัดความต้องการของลูกค้ามากน้อยแค่ไหน เช่น หนึ่งในตัวชี้วัดอาจจะเป็นความถี่ที่ลูกค้าเปิดดูสินค้าประเภทนี้ หรือ Saved เอาไว้เป็นรายการที่ถูกใจ (Favorite) เป็นต้น

Example Case4: การพิจารณา Data เพื่อใช้สำหรับ Sentiment Analysis

  • Observation Number and Period: สำหรับ case การทำ Data Mining เช่น Sentiment Analysisที่ใช้วิเคราะห์ผลตอบรับของลูกค้า เช่น การสังเกตการณ์ Feedback ของลูกค้าผ่านช่องทาง Social Media Post เช่น  Twitter ซึ่งเป็นข้อมูลประเภทข้อความ (text as data) ในกรณีนี้ Observation number ก็เป็นสิ่งสำคัญที่สุด เพราะเราต้องการที่จะได้ความคิดเห็นส่วนใหญ่ของผู้ใช้บริการและสินค้าของเรา แต่ถ้าพูดถึง Observation Period ระยะเวลาการเก็บ Data ก็จะขึ้นอยู่กับระยะเวลาที่ต้องการจะทราบ Feedback เช่น ถ้าอยากจะทราบ Feedback ของลูกค้าหลังจาก Launch Product ออกมาได้ 3เดือน – Data ที่เราควรจะมีคือ Post ทั้งหมดที่กล่าวถึง Product ภายใน 3 เดือนย้อนหลังนี้ หรือ ถ้า App ของเราเพิ่งประสบปัญหา Server ล่มมาเป็นเวลา 2 วัน เลยอยากจะทราบ Feedback ของลูกค้าแค่ในช่วงนั้น เป็นต้น

แต่ถ้าในกรณีที่ท่านไม่มี Sentiment Analysis Tool และต้องการจะสร้างเอง – Observation number จำเป็นจะต้องมีเป็นมหาศาลเพื่อที่จะใช้ศึกษาทุกลักษณะการพูดที่แตกต่างกัน เพราะว่าคำ หรือ วลี หนึ่งอาจจะมีความหมายได้หลายอย่าง

 

มี Data ขนาดใหญ่มาก แต่ใช้ไม่ได้ เพราะอะไร?

ถึงแม้ เราจะมี Observation Number and Period และ Data Context and Data Interpretation อย่างเพียงพอสำหรับการวิเคราะห์ แต่ถ้า Data ของเราไม่พร้อมทางด้าน Data Quality หรือความสะอาด และความถูกต้องของข้อมูล ก็อาจจะทำให้ Data ที่มีไร้ความหมาย เช่น สมมุติเราต้องการทำ Customer Segmentation จากข้อมูล Customer Profile ที่เรามี แต่ถ้าข้อมูล ปีเกิด ดันใส่ผิดเป็นจำนวนเยอะมาก ก็ไม่สามารถจำแนกลักษณะกลุ่มคนได้ด้วยอายุ  หรือถ้าเก็บ Data ชื่อสินค้าเป็นลักษณะ Text Field อาจจะทำให้เราไม่สามารถระบุจำนวนที่แท้จริงของสินค้าได้ใน Transaction Data ทั้งนี้เราสามารถแก้ไขปัญหา Data Quality ได้โดยการทำ Data Cleansing หรือในบางกรณีอาจจะต้องเริ่มเก็บใหม่ทั้งหมด

สุดท้ายนี้ การที่เราจะสามารถตอบได้ว่าข้อมูลเราพร้อมหรือไม่ ขึ้นอยู่กับการตั้งโจทย์ว่าจะทำอะไรกับData  โดยจะต้องพิจารณาประกอบกับลักษณะของ Data และ Nature ของธุรกิจนั้น ๆ ด้วย ทำให้ในแต่ธุรกิจที่ต้องมีการพิจารณา case เรื่องความพร้อมที่แตกต่างกันไป การมีผู้เชี่ยวชาญในด้านข้อมูล (Data Scientist/ Analyst/ Engineer) ที่ค่อยให้คำปรึกษาควบคู่กับธุรกิจของท่านด้วย จะช่วยลดความเสี่ยงเรื่องความพร้อมของข้อมูลของท่าน ทาง JDC ก็มีให้บริการ การวิเคราะห์ความพร้อมของข้อมูล (Data Assessment) และหากท่านยังไม่มี Data Use Cases เราก็สามารถช่วยวิเคราะห์ Data Potential ของท่าน ว่าสามารถหา insight หรือ นำไปสร้าง impact อะไรให้กับธุรกิจของท่านได้