ข้อมูลขนาดใหญ่ big data มีกี่องค์ประกอบ

วิทยาศาสตร์ เทคโนโลยีดิจิทัล และนวัตกรรม

04 Apr 2022

คุณลักษณะที่สำคัญของ Big Data และรูปแบบข้อมูลจะถูกนิยามตั้งแต่อดีตด้วย 3V,4V มาจนถึง 5V ในปัจจุบัน และมีหลายองค์ประกอบในการทำงาน

สรุปชัด! “5V” องค์ประกอบและคุณลักษณะที่สำคัญของ Big Data

ทุกวันนี้ Big Data เป็นคำที่หลายๆองค์กรให้ความสนใจอย่างมาก โดยในช่วงหลายปีที่ผ่านมาคุณลักษณะที่สำคัญของ Big Data และรูปแบบข้อมูลของ Big Data นั้นจะถูกนิยามด้วย 3V และ 4V ตามลำดับ แต่ในปัจจุบัน Big Data จะถูกนิยามด้วย “5V”

วันนี้ DIGI จะพาคุณไปสำรวจกันว่า Big Data คืออะไร รวมถึงองค์ประกอบ และคุณลักษณะที่สำคัญของ Big Data มีอะไรบ้าง

Big Data คืออะไร?

Big Data คือ ข้อมูลขนาดใหญ่มหาศาลที่เกี่ยวข้องกับองค์กร ทุกเรื่อง ทุกแง่มุม ทุกรูปแบบ ที่มาจากภายในองค์กรและภายนอก ทั้งแบบข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง ซึ่งทั้งหมดเป็นเพียงข้อมูลดิบที่รอการนำมาประมวลและวิเคราะห์ เพื่อนำผลที่ได้มาสร้างมูลค่าให้กับทางธุรกิจ หรือองค์กร

มารู้จัก 5V คุณลักษณะที่สำคัญของ big data

ข้อมูลในทุกวันนี้มีหลากหลาย เราจะรู้ได้ยังไงว่า “ข้อมูลรูปแบบไหนเป็น Big Data” จริงๆแล้วเราสามารถรู้ได้จากคุณลักษณะที่สำคัญของ Big Data ซึ่งจะประกอบด้วยคุณลักษณะ 5V ได้แก่

1. Volume (ปริมาณ)

ขึ้นชื่อว่า Big Data แน่นอนว่าจำเป็นต้องเป็นข้อมูลที่มี “ปริมาณมหาศาล” เพราะในการกำหนดคุณค่าของข้อมูล ปริมาณถือเป็นบทบาทที่สำคัญมาก ข้อมูลใดสามารถถือเป็น Big Data ได้จริงหรือไม่นั้น จะขึ้นอยู่กับปริมาณข้อมูล ยิ่งข้อมูลเยอะ โอกาสที่จะได้ insight จากข้อมูล Big Data นั้นก็ยิ่งเยอะตาม ซึ่งโดยปกติแล้วข้อมูลที่เป็น Big Data จะเริ่มต้นกันที่หลัก Terabytes ไปจนถึง Petabytes

2. Velocity (ความเร็ว)

Velocity จะหมายถึง “ความเร็วในการสะสมข้อมูล” ในกรณีของ Big Data ข้อมูลจะไหลเข้าจากแหล่งต่างๆ เช่น เครื่องจักร, โซเชียลมีเดีย หรือโทรศัพท์มือถือ อย่างรวดเร็วในปริมาณที่สูงและต่อเนื่อง ยิ่งข้อมูลถูกสร้างขึ้นและประมวลผลได้เร็วมากเท่าไหร่ ก็ยิ่งตอบสนองความต้องการได้เร็วขึ้น และมีข้อมูลที่สดใหม่ตลอดเวลา

3. Variety (ความหลากหลาย)

Variety จะหมายถึง ธรรมชาติของข้อมูลแบบ Big Data ที่มีหลากหลาย เช่น ข้อความ, รูปภาพ, เสียง, วิดีโอ โดยรูปแบบของข้อมูล Big Data จะได้แก่

  • ข้อมูลที่มีโครงสร้าง (Structured data)
  • ข้อมูลกึ่งโครงสร้าง (Semi- Structured data)
  • ข้อมูลไม่มีโครงสร้าง (Unstructured data)

นอกจากความหลากหลายของรูปแบบข้อมูลแล้ว คุณลักษณะความหลากหลายของ Big Data ยังรวมไปถึง ความหลากหลายของแหล่งข้อมูลที่มาจากทั้งในและนอกองค์กรอีกด้วย

4. Veracity (ความถูกต้อง)

Veracity เป็น V ตัวที่ 4 ที่หมายถึง “ความถูกต้องและน่าเชื่อถือของข้อมูล” ซึ่งเพิ่มมาจาก 3V เมื่อหลายปีก่อน เนื่องจากเมื่อมีข้อมูลมาขึ้นเลยทำให้ทราบว่า ข้อมูลที่เยอะ, หลากหลาย และรวดเร็ว หากไม่มีความถูกต้องก็อาจนำไปใช้งานได้ไม่เต็มที่ และอาจจะได้ข้อมูลเชิงลึกที่ไม่เป็นความจริง

ข้อมูลบางครั้งก็อาจยุ่งเหยิงและใช้งานยาก เพราะข้อมูลจำนวนมากที่ขาดความจริงหรือครบถ้วนอาจส่งผมเสียได้ เช่น ในด้านการแพทย์ หากข้อมูลเกี่ยวกับยาที่ผู้ป่วยกำลังรับประทานไม่ครบถ้วน ชีวิตของผู้ป่วยอาจตกอยู่ในอันตรายได้ เพราะฉะนั้น Big Data จึงควรมีคุณลักษณะของความถูกต้องอยู่ด้วย

5. Value

หลังจากพิจารณาทั้ง 4V ที่เแล้ว ยังมี V อีกหนึ่งตัวที่เป็นคุณลักษณะ Big Data ที่สำคัญที่สุดใน 5V นั่นก็คือ Value หรือ “คุณค่าของข้อมูล” การมีข้อมูลจำนวนมากแต่ไม่มีค่านั้นไม่ดีต่อบริษัท เว้นแต่คุณจะเปลี่ยนเป็นสิ่งที่มีประโยชน์ ข้อมูลในตัวมันเองไม่มีประโยชน์หรือมีความสำคัญ แต่หากเรานำมาแปลงหรือวิเคราะข้อมูลเพื่อนำ insight ออกมาจากข้อมูล ข้อมูล Big Data ก็จะสร้างมูลค่ามหาศาลให้กับองค์กรของคุณได้

องค์ประกอบของ big data

หลังจากที่เราได้รู้จัก 5V ที่เป็นคุณลักษณะสำคัญของ Big Data ไปแล้ว ก่อนที่จะเริ่มทำงานกับ Big Data เราจำเป็นต้องรู้จักองค์ประกอบของ Big Data Ecosystem ซึ่งองค์ประกอบเหล่านี้ได้แก่

แหล่งข้อมูล (Data Source)

องค์ประกอบแรกที่สำคัญของ Big Data นั่นก็คือ แหล่งข้อมูล (Data Source) ซึ่งแหล่งข้อมูลของ Big Data นั้นอาจจะมาจากหลากหลายแหล่ง เช่น โปรแกรม, ข้อมูลธุรกรรม (transaction),อุปกรณ์ต่างๆ หรืออุปกรณ์ IOT ทำให้มีความยากในการจัดการข้อมูลเนื่องจากแต่ละแหล่งมีโครงสร้างข้อมูลที่ต่างกัน

การนำเข้าข้อมูล (Ingestion)

การส่งผ่านข้อมูลเป็นขั้นตอนแรกของ Big Data Ecosystem ในการดึงข้อมูลดิบ โดยข้อมูลดิบนั้นจะมากจากทั้ง แหล่งข้อมูลภายใน (internal sources), ฐานข้อมูลเชิงสัมพันธ์ (relational databases), ฐานข้อมูลที่ไม่ใช่เชิงสัมพันธ์ (non-relational databases) และแหล่งอื่นๆอีกมากมาย ซึ่งการนำเข้าข้อมูลจะมีหลักๆ 2 ประเภท คือ

1.Batch เป็นการรวบรวมและส่งผ่านกลุ่มข้อมูล Big Data ขนาดใหญ่ไปด้วยกัน โดยการใช้งานจะต้องถูกกระตุ้นโดยเงื่อนไข เช่น ตั้งเวลาไว้ หรือ เรียกใช้เฉพาะกิจ

2.Streaming เป็นการไหลของข้อมูลแบบต่อเนื่อง ซึ่งจำเป็นอย่างมากสำหรับการวิเคราะห์ข้อมูลแบบเรียลไทม์

โดยในช่วงของการส่งผ่านข้อมูลจากแหล่งข้อมูลไปยังแหล่งเก็บข้อมูลอาจจะใช้กระบวนการได้หลากหลาย เช่น ETL ซึ่งย่อมาจาก Extract, transform and load หรืออธิบายง่ายๆก็คือ ดึงข้อมูล, แปลงข้อมูล และนำข้อมูลเข้าสู่แหล่งเก็บข้อมูลปลายทางนั่นเอง

แหล่งเก็บข้อมูล (Storage)

การเก็บข้อมูลขนาดใหญ่ หรือ Big Data ในปัจจุบันมักจะเก็บไว้ใน Data Warehouse หรือ Data Lake ซึ่งอาจจะนำมาพักไว้เพื่อให้พร้อมนำไปใช้งานต่อในการวิเคราะห์ หรือเก็บข้อมูลในอดีตก็ได้

โดย Data Warehouse จะเป็นการเก็บข้อมูล Big Data แบบดั้งเดิมที่เก็บได้เฉพาะข้อมูลที่มีโครงสร้างชัดเจน หรือกึ่งโครงสร้างจากหลายแหล่ง ส่วน Data Lake จะยืดหยุ่นกว่า และเก็บข้อมูลได้ทั้งข้อมูลที่มีโครงสร้างชัดเจนและข้อมูลที่ไม่มีโครงสร้างแน่นอน ซึ่งการเลือกใช้ก็ขึ้นอยู่กับเงื่อนไขหรือความต้องการในการนำ Big Data ไปใช้งานขององค์กร

การวิเคราะห์ (Analysis)

เมื่อมีข้อมูลดิบในแหล่งข้อมูลแล้ว เราจะสามารถนำข้อมูล Big Data มาจัดเตรียมและทำความสะอาด (Data Cleansing) เพื่อเข้าสู่กระบวนการวิเคราะห์ข้อมูลได้ โดยกระบวนการวิเคราะห์ข้อมูลมักจะได้แก่

– สถิติเชิงพรรณา หรือ Descriptive Analytics เช่น ค่าเฉลี่ย ผลรวม

– ความสัมพันธ์ของตัวแปร หรือ Diagnostics Analytics เช่น Correlation

– การพยากรณ์หรือทำนายอนาคต หรือ Predictive Analytics เช่น Machine Learning

– การวิเคราะห์แบบให้คำแนะนำ หรือ Prescriptive analytics เช่น Optimization

ซึ่งการวิเคราะห์จะขึ้นอยู่กับชนิดและบริบทของข้อมูล Big Data นั้น รวมถึงสิ่งที่องค์กรอยากรู้เกี่ยวกับข้อมูล

การนำผลลัพธ์ไปใช้ (Consumption)

การนำผลลัพธ์ไปใช้ถือเป็นองค์ประกอบสำคัญของ Big Data ซึ่งการนำข้อมูล Big Data จากการวิเคราะห์ไปใช้อาจอยู่ในรูปแบบ Data Visualization เช่น ตาราง,กราฟ, Dashboard สวยๆ หรืออาจจะเป็น insight ที่่ตอบคำถามทางธุรกิจ หรือส่งผลต่อการตัดสินใจขององค์กรได้

สรุป

Big Data เป็นข้อมูลขนาดใหญ่มหาศาล ที่สามารถนำผลที่ได้มาสร้างมูลค่าให้กับทางธุรกิจหรือองค์กรได้ ซึ่ง Big Data จะมีคุณลักษณะสำคัญคือ 5V ได้แก่ Volume, Velocity, Variety, Veracity และ Value โดยการทำงานกับ Big Data จะมีองค์ประกอบที่เริ่มตั้งแต่การนำเข้าข้อมูลจากแหล่งข้อมูล Big Data หลายแหล่งไปยังแหล่งเก็บข้อมูล และเมื่อเรามีข้อมูลในแหล่งเก็บข้อมูลแล้ว เราสามารถนำข้อมูลเหล่านั้นไปวิเคราะห์แล้วสร้างมูลค่าและนวัตกรรมต่างๆจากข้อมูล Big Data ได้