Data Science Thai Meeting, Feb 4th “3rd Gen Platform: data lake”

อยากจะเขียนเรื่อง Data Lake ที่เมื่อวานฟังมาแต่ก็คิดว่าความรู้ที่ฟังมาประมวลแล้วได้เพียงผิวผินอินโทรของเรื่อง ไม่สามารถอธิบายเป็นแก่นสารได้

แต่เข้าใจแล้วว่าการที่โลกนี้มี buzzwords ใหม่ๆ นั้นไม่ใช่เพราะมาร์เก็ตติ้งจะขายของอย่างเดียว แต่ในทางวิทยาศาสตร์ศัพท์พวกนี้จำเป็นต้องเกิดขึ้นเพื่อสรุปว่าตอนนี้เทคโนโลยีไปถึงไหน ทำอะไรได้แล้ว มันเป็น footnote ของการอธิบายเทคโนโลยี ณ ช่วงเวลาหนึ่ง มันจำเป็น

เมื่อก่อนเรามีวิชา Statistics เราสร้างสมมติฐานจาก samples (แต่ในยุคนั้นเรามักหลงคิดไปว่าค่าจากกลุ่ม samples ที่เราอุปโลกน์ขึ้นมาคือคำตอบ ซึ่งจริงๆ เราจะควบคุมให้เบี้ยวไปทางไหนก็ได้ถ้าเราต้องการ)

ต่อมาข้อมูลในองค์กร (ซึ่งดูจะเป็นชุดข้อมูลที่เก็บเป็นระเบียบเรียบร้อยมานานแล้วก่อนใครๆ และดูเหมือนจะมีแต่ fact คือ information ที่ไม่มั่ว ตามความเชื่อในยุคนั้น) เยอะขึ้นมันก็เลยเกิดการลองเรียกข้อมูลแบบ business intelligent

ต่อมาข้อมูลเริ่มเยอะขึ้น และอยู่กระจัดกระจายจนหาวิธีรวบรวมให้อยู่ด้วยกันไม่ได้อยู่พักหนึ่ง ก็เลยเกิดคอนเสปต์การขุดข้อมูล ก็เรียกกันว่า data mining เริ่มเข้าสู่ยุคของความพยายามขุดข้อมูลให้ทันด้วย cloud computing

แล้วกล่องข้อมูลก็มาในยุคถัดมา ในยุคที่ storage ราคาถูกและรวมศูนย์ได้ เกิดเป็น cloud storage ขึ้น เมื่อทั้งการเก็บและการคำนวนระดับมหภาคเกิดขึ้นได้แล้วก็เลยเกิดยุค Big Data ขึ้นมา

แต่ตอนนี้เรากำลังเข้าสู่ยุคเดียวกับวิชา Statistics อีกครั้ง เมื่อนักวิทยาศาสตร์ข้อมูลเริ่มลงความเห็นตรงกันแล้วว่าสิ่งที่อยู่ใน cloud storage ก็เป็นแค่ samples เท่านั้น เพราะสิ่งที่เรากำลังวิเคราะห์จริงๆ ไม่ใช่ตัวข้อมูล แต่เรากำลังพิจารณาแต่ละ event ที่หยุดนิ่งให้เราพิจารณาซ้ำแล้วซ้ำเล่าได้เท่านั้นเองเพราะเราเอามันมาเก็บ มันเก่าได้ มันล้าสมัยได้ และมันไม่จริง ณ เวลานี้ได้แล้วด้วย เพราะในความเป็นจริงทุกๆ เวลาของ timestamps มีบางสิ่งบางอย่างเกิดขึ้นใหม่ตลอดเวลา สิ่งนั้นคือเหตุการณ์หรือ event และนักวิทยาศาสตร์กำลังมองว่าเหตุการณ์ในหนึ่งห้วงเวลานั้นมีความกว้างเกินกว่าพาหะมิติเดียวอย่างข้อความ (text) จะสามารถบอกได้แล้ว เดี๋ยวนี้เรามีข้อมูลแบบภาพ เสียง ภาพเคลื่อนไหว และทุกอย่างมีลักษณะไหลมา (streaming) ตลอดเวลา เราต้องตั้งรับอย่างไรจึงจะสกัดข้อมูลเหล่านี้ออกมาใช้ได้ โดยเรียนรู้จากการทำ big data ด้วยการทำ cloud computing กับบรรดา samples ใน cloud storage ที่มีอยู่ แล้วเอามันออกมาจัดการกับข้อมูล ณ เวลาปัจจุบันได้เสมอไป

นี่เป็นเส้นที่เราจะก้าวข้ามไปเส้นสุดท้ายก่อนจะเข้าสู่ยุคต่อจากการทำ BI ในเชิง passive (คือเรียนรู้พฤติกรรมลูกค้าแล้วนำมาปรับใช้ในองค์กร) เรากำลังจะทำแบบเดียวกันคือเรียนรู้พฤติกรรมของคนในโลกของ big data แล้วนำกลับไปปรับใช้กับเขา เพื่อประโยชน์ของคน เพื่อชีวิตที่ดีกว่าของคนอื่น หรือแม้แต่ด้านแย่ๆ อย่างแค่เพื่อประโยชน์ของเรา โมเดลแบบเดียวกันของการทำ BI กำลังจะกลายเป็นการทำ AI เพื่อตอบสนอง ช่วยเหลือ แก้ไข ป้องกัน ให้กับปัจเจกบุคคลได้ทันที

นักวิทยาศาสตร์กำลังพยายามก้าวขาเข้ามาใน data lake เพื่อพิจารณาปัจจุบัน นี่คือสิ่งที่ได้เรียนรู้เมื่อวาน