Data Science Thai Meeting, Feb 4th “3rd Gen Platform: data lake”

อยากจะเขียนเรื่อง Data Lake ที่เมื่อวานฟังมาแต่ก็คิดว่าความรู้ที่ฟังมาประมวลแล้วได้เพียงผิวผินอินโทรของเรื่อง ไม่สามารถอธิบายเป็นแก่นสารได้

แต่เข้าใจแล้วว่าการที่โลกนี้มี buzzwords ใหม่ๆ นั้นไม่ใช่เพราะมาร์เก็ตติ้งจะขายของอย่างเดียว แต่ในทางวิทยาศาสตร์ศัพท์พวกนี้จำเป็นต้องเกิดขึ้นเพื่อสรุปว่าตอนนี้เทคโนโลยีไปถึงไหน ทำอะไรได้แล้ว มันเป็น footnote ของการอธิบายเทคโนโลยี ณ ช่วงเวลาหนึ่ง มันจำเป็น

เมื่อก่อนเรามีวิชา Statistics เราสร้างสมมติฐานจาก samples (แต่ในยุคนั้นเรามักหลงคิดไปว่าค่าจากกลุ่ม samples ที่เราอุปโลกน์ขึ้นมาคือคำตอบ ซึ่งจริงๆ เราจะควบคุมให้เบี้ยวไปทางไหนก็ได้ถ้าเราต้องการ)

ต่อมาข้อมูลในองค์กร (ซึ่งดูจะเป็นชุดข้อมูลที่เก็บเป็นระเบียบเรียบร้อยมานานแล้วก่อนใครๆ และดูเหมือนจะมีแต่ fact คือ information ที่ไม่มั่ว ตามความเชื่อในยุคนั้น) เยอะขึ้นมันก็เลยเกิดการลองเรียกข้อมูลแบบ business intelligent

ต่อมาข้อมูลเริ่มเยอะขึ้น และอยู่กระจัดกระจายจนหาวิธีรวบรวมให้อยู่ด้วยกันไม่ได้อยู่พักหนึ่ง ก็เลยเกิดคอนเสปต์การขุดข้อมูล ก็เรียกกันว่า data mining เริ่มเข้าสู่ยุคของความพยายามขุดข้อมูลให้ทันด้วย cloud computing

แล้วกล่องข้อมูลก็มาในยุคถัดมา ในยุคที่ storage ราคาถูกและรวมศูนย์ได้ เกิดเป็น cloud storage ขึ้น เมื่อทั้งการเก็บและการคำนวนระดับมหภาคเกิดขึ้นได้แล้วก็เลยเกิดยุค Big Data ขึ้นมา

แต่ตอนนี้เรากำลังเข้าสู่ยุคเดียวกับวิชา Statistics อีกครั้ง เมื่อนักวิทยาศาสตร์ข้อมูลเริ่มลงความเห็นตรงกันแล้วว่าสิ่งที่อยู่ใน cloud storage ก็เป็นแค่ samples เท่านั้น เพราะสิ่งที่เรากำลังวิเคราะห์จริงๆ ไม่ใช่ตัวข้อมูล แต่เรากำลังพิจารณาแต่ละ event ที่หยุดนิ่งให้เราพิจารณาซ้ำแล้วซ้ำเล่าได้เท่านั้นเองเพราะเราเอามันมาเก็บ มันเก่าได้ มันล้าสมัยได้ และมันไม่จริง ณ เวลานี้ได้แล้วด้วย เพราะในความเป็นจริงทุกๆ เวลาของ timestamps มีบางสิ่งบางอย่างเกิดขึ้นใหม่ตลอดเวลา สิ่งนั้นคือเหตุการณ์หรือ event และนักวิทยาศาสตร์กำลังมองว่าเหตุการณ์ในหนึ่งห้วงเวลานั้นมีความกว้างเกินกว่าพาหะมิติเดียวอย่างข้อความ (text) จะสามารถบอกได้แล้ว เดี๋ยวนี้เรามีข้อมูลแบบภาพ เสียง ภาพเคลื่อนไหว และทุกอย่างมีลักษณะไหลมา (streaming) ตลอดเวลา เราต้องตั้งรับอย่างไรจึงจะสกัดข้อมูลเหล่านี้ออกมาใช้ได้ โดยเรียนรู้จากการทำ big data ด้วยการทำ cloud computing กับบรรดา samples ใน cloud storage ที่มีอยู่ แล้วเอามันออกมาจัดการกับข้อมูล ณ เวลาปัจจุบันได้เสมอไป

นี่เป็นเส้นที่เราจะก้าวข้ามไปเส้นสุดท้ายก่อนจะเข้าสู่ยุคต่อจากการทำ BI ในเชิง passive (คือเรียนรู้พฤติกรรมลูกค้าแล้วนำมาปรับใช้ในองค์กร) เรากำลังจะทำแบบเดียวกันคือเรียนรู้พฤติกรรมของคนในโลกของ big data แล้วนำกลับไปปรับใช้กับเขา เพื่อประโยชน์ของคน เพื่อชีวิตที่ดีกว่าของคนอื่น หรือแม้แต่ด้านแย่ๆ อย่างแค่เพื่อประโยชน์ของเรา โมเดลแบบเดียวกันของการทำ BI กำลังจะกลายเป็นการทำ AI เพื่อตอบสนอง ช่วยเหลือ แก้ไข ป้องกัน ให้กับปัจเจกบุคคลได้ทันที

นักวิทยาศาสตร์กำลังพยายามก้าวขาเข้ามาใน data lake เพื่อพิจารณาปัจจุบัน นี่คือสิ่งที่ได้เรียนรู้เมื่อวาน

Site Icon

Consümotive

ทำ UX Research กับผู้บริโภคและให้คำปรึกษา UX User Experience Research, strategy and consultancy.

Proudly powered by WordPress & SeedThemes