กระบวนการ Big Data process

การดำเนินงานโครงการ Big Data มีขอบเขตที่ค่อนข้างกว้างและแต่ละโครงการจะมีวัตถุประสงค์ที่แตกต่างกัน เช่น

บางโครงการต้องการสร้าง Data Lake เพื่อสร้างถังข้อมูลกลาง บางโครงการต้องการทำ Data Analytics ที่ใช้ข้อมูลระดับ Big Data บางโครงการต้องการสร้างช่องทางในการเข้าถึงข้อมูลที่เป็น Insight เป็นต้น


ดังนั้นแต่ละโครงการ จะมีวิธีการทำงานที่แตกต่างกัน

วันนี้ Coraline ขอเสนอ ขั้นตอน หรือ Working Process สำหรับโครงการ Big Data ที่มีทั้งในส่วนของ Data Management, Data Analytics และการพัฒนาช่องทางการนำเสนอดังภาพ


กระบวนการ Big Data process


1. Business Understanding เป็นการทำความเข้าใจปัญหา การตั้งโจทย์ และวางของเขตของการทำงาน


2. System Understanding ศึกษาระบบที่มีอยู่เดิม และการต่อยอดไประบบใหม่ เป็นการออกแบบระบบที่จะเข้าสู่ Big Data Ecosystem


3. System Integration การ Setup ระบบ Infrastructure เพื่อสร้างเป็น Big Data Platform


4. Data Understanding ทำความเข้าใจชุดข้อมูลที่จะนำเข้าระบบ


5. Data Pipeline and Integration ออกแบบ และสร้าง Data Pipeline โดยคำนึงถึงการเชื่อมโยงข้อมูล ซึ่งข้อมูลดิบจะถูกจัดก็บที่ Data Lake


6. Data Warehouse and Data Mart Development ออกแบบ และพัฒนา Data Warehouse และ โครงสร้างของ Data Mart


7. Data Modeling การสร้าง Model เพื่อการวิเคราะห์ข้อมูล โดยอาจมีหลาย Model


8. Model Evaluation การประเมินผลลัพธ์ที่ได้จากการวิเคราะห์


9. Outcome Development การออกแบบและพัฒนาช่องทางในการนำเสนอผลลัพธ์ เช่น BI, Application หรือ การเชื่อมต่อกับระบบอื่น

10. Testing การทดสอบระบบ


11. Project Transfer การส่งมอบระบบ เพื่อเตรียมนำไปใช้งาน


12. Knowledge Transfer การถ่ายทอดองค์ความรู้ ให้ผู้ดูแลในส่วนงานต่างๆ


ในการพัฒนาโครงการ แต่ละโครงการจะมีรายละเอียดที่แตกต่างกันไป ซึ่งขั้นตอนที่ 12 ขั้นตอนนี้ อาจจะทำพร้อมกันเป็นแบบ Parallel ในบางขั้นตอนได้และบางโครงการก็อาจจะมีไม่ครบ 12 ขั้นตอน

แต่อย่างไรก็ตาม เมื่อเรียกว่าเป็นโครงการ Big Data แล้ว ในการพัฒนาโครงการจึงมีความซับซ้อนและมีผู้เกี่ยวข้องหลายฝ่าย ดังนั้น"การวางแผนโครงการ" จึงเป็นส่วนที่สำคัญที่สุด

ในยุคสมัยนี้ ในนาทีนี้ จะมีคำเท่ๆคำหนึ่งที่ผู้บริหารองค์กรไม่ว่ารัฐหรือเอกชนทั้งขนาดใหญ่ ขนาดเล็ก มักจะกล่าวกันอยู่เสมอๆว่าเราจะนำมาใช้เพื่อทำให้องค์เราได้เปรียบ ทันสมัย มีความก้าวหน้า คือ Big Data ว่าแต่ Big Data ข้อมูลขนาดใหญ่คืออะไร ทำงานอย่างไร และนำไปใช้อะไรได้บ้าง

Big Data คืออะไร

คำจำกัดความของ Big Data

เพื่อให้ความเข้าใจเกี่ยวกับ Big Data มีมากขึ้นเรามาทำความเข้าใจเกี่ยวกับคำจัดความของคำว่า Big Data กันก่อน ในราวๆปี 2001 Gartner ได้ให้คำจำกัดความของคำว่า Big Data ไว้ว่า เป็นข้อมูลที่มีความหลากหลาย มีปริมาณมากๆ และมีความเร็วมากๆ ซึ่งรู้จักกันในนาม 3Vs (สามวี)

พูดให้ง่ายๆคือ Big Data คือปริมาณข้อมูลที่มาก มีความซับซ้อน โดยเฉพาะที่มาจากแหล่งข้อมูลใหม่ๆ ด้วยปริมาณที่มากมายมหาศาลทำให้ไม่สามารถประเมินและวิเคราะห์ด้วยวิธีการ ซอฟต์แวร์ ฮาร์ดแวร์แบบเดิมๆ แต่ข้อมูลมากมายมหาศาลเหล่านี้สามารถนำมาใช้ประโยชน์ได้ในทางธุรกิจที่ในอดีตไม่สามารถใช้ได้

3Vs ของ Big Data

V ที่1 คือ VOLUME

ปริมาณข้อมูลที่มากเป็นปัจจัยที่มีความสำคัญ ในปริมาณข้อมูลที่มากมายมหาศาลนั้นที่เราจะต้องประมวลผลนั้นเป็นข้อมูลที่ไม่มีโครงสร้าง มีความหนาแน่นของข้อมูลต่ำ และข้อมูลพวกนี้อาจเป็นข้มมูลที่ไม่ทราบค่า เช่น ฟีดข้อมูลของเฟสบุ๊ค ทวีทเตอร์ การคลิ๊กบนเวปไซท์หรืออุปกรณ์แอพพลิเคชั่นต่างๆ หรืออุปกรณ์ที่มีเซนเซอร์ บางองค์การอาจมีข้อมูลให้ประมวลผลเป็นสิบๆเทราไบต์ หรือบางองกรค์อาจมีเป็น ร้อยๆเพตะไบต์

V ที่2 คือ VELOCITY

คือความเร็วของการรรับข้อมูลหรืออาจเป็นการกระทำใดๆ โดยปกติก็เป็นความเร็วสูงสุดที่ทำการสตีมข้อมูลลงในหน่วยความจำโดยตรงกับการบันทึกข้อมูลลงบนฮาร์ดดิสก์ เครื่องมือหรืออุปกรณ์ที่ใช้กับอินเตอร์เนตในสมัยนี้ก็เป็นการทำงานแบบเรียลไทม์หรือเกือบๆจะเรียลไทม์ ซึ่งจะต้องมีการประมวลผลแบบเรียลไทม์

V ที่ 3 คือ VARIETY

Variety คือความหลากหลายของชนิดข้อมูล ข้อมูลในสมัยก่อนมักเป็นพวกข้อมูลที่เป็นโครงสร้างและมีความพอดีกับฐานข้อมูลเชิงสัมพันธ์ ปัจจุบันข้อมูลมีขนาดใหญ่ขึ้นและเป็นข้อมูลแบบไม่มีโครงสร้างหรือกึ่งโครงสร้าง เช่น ข้อมูลแบบตัวอักษร ข้อมูลภาพ ข้อมูลเสียง ซึ่งต้องการการประมวลผลเพิ่มเติม เพื่อที่จะแปลความหมาย และหารายละเอียดคำอธิบายของข้อมูล (meta data)

คุณค่าและความจริงของข้อมูล Big Data

Big Data ในช่วง 2-3 ปีหลังมานี้ได้เพิ่มมาอีก 2 Vs คือ Value และ veracity ซึ่งคุณค่าและความจริง ซึ่งข้อมูลมันมีค่าอยู่ในตัวของมันเอง แต่มันจะไม่มีประโยชน์เลยถ้าเราค้นไม่พบคุณค่าของมัน และความจริงของข้อมูลและความน่าเชื่อถือว่าเราจะเชื่อถือได้มากแค่ไหน ก็มีความสำคัญเท่าเทียมกันทั้งคุณค่าและความจริงของข้อมูล

ในปัจจุบัน Big Data ได้กลายเป็นทุนหรือทรัพย์สินไปแล้ว ในบริษัทเทคโนโลยีขนาดใหญ่บางบริษัทมูลค่าของบริษัทเกิดมาจากข้อมูลของเขา และในขณะนี้เขาก็วิเคราะห์และประมวลผลเพื่อเพิ่มมูลค่าของข้อมูลให้สูงชึ้นไปอีก

และด้วยความก้าวหน้าทางเทคโนโลยีในปัจจุบันส่งเสริมให้ราคาของอุปกรณ์การเก็บข้อมูลและคอมพิวเตอร์ลดลงแบบก้าวกระโดด ทำให้การเก็บข้อมูลง่ายและมีราคาถูก การเก็บข้อมูลและการเข้าถึงข้อมูลขนาดใหญ่สามารถทำได้ง่ายๆและมีราคาถูก ทำให้การตัดสินใจด้านธุรกิจมีความแม่นยำและถูกต้องมากขึ้น

การค้นหามูลค่าของข้อมูล Big Data มันไม่ใช่แค่การวิเคราะห์ธรรมดาเท่านั้น แต่มันต้องมีกระบวนการขั้นตอนทั้งหมด ซึ่งมีตั้งแต่การวิเคราะห์เชิงลึก ความต้องการของธุรกิจ ความสามารถในการถามข้อมูลที่ถูกต้องจากผู้บริหาร การจดจำรูปแบบ การให้ข้อมูลสำหรับสมมุติฐานต่างๆ และการทำนายพฤติกรรม เป็นต้น

ประวัติและความเป็นมาของ Big Data

ถึงแม้ว่าแนวคิดเรื่องข้อมูลขนาดใหญ่หรือ Big Data จะเป็นของใหม่และมีการเริ่มทำกันในไม่กี่ปีมานี้เอง แต่ต้นกำเนิดของชุดข้อมูลขนาดใหญ่ได้มีการริเริ่มสร้างมาตั้งแต่ยุค 60 และในยุค 70 โลกของข้อมูลก็ได้เริ่มต้น และได้พัฒนาศูนย์ข้อมูลแห่งแรกขึ้น และทำการพัฒนาฐานข้อมูลเชิงสัมพันธ์ขึ้นมา

ประมาณปี 2005 เริ่มได้มีการตะหนักถึงข้อมูลปริมาณมากที่ผู้คนได้สร้างข้นมาผ่านสื่ออนไลน์ เช่น เฟสบุ๊ค ยูทูป และสื่ออนไลน์แบบอื่นๆ  Hadoop เป็นโอเพ่นซอร์สเฟรมเวิร์คที่ถูกสร้างขึ้นมาในช่วงเวลาเดียวกันให้เป็นที่เก็บและวิเคราะห์ข้อมูลขนาดใหญ่ และในช่วงเวลาเดียวกัน NoSQL ได้ก็เริ่มขึ้นและได้รับความนิยมมากขึ้น

การพัฒนาโอเพนซอร์สเฟรมเวิร์ค เช่น Hadoop (และเมื่อเร็ว ๆ นี้ก็มี Spark) มีความสำคัญต่อการเติบโตของข้อมูลขนาดใหญ่ เนื่องจากทำให้ข้อมูลขนาดใหญ่ทำงานได้ง่าย และประหยัดกว่า ในช่วงหลายปีที่ผ่านมาปริมาณข้อมูลขนาดใหญ่ได้เพิ่มขึ้นอย่างรวดเร็ว ผู้คนยังคงสร้างข้อมูลจำนวนมาก ซึ่งไม่ใช่แค่มนุษย์ที่ทำมันขึ้นมา

การพัฒนาการของ IOT (Internet of Thing) ซึ่งเป็นเครื่องมืออุปกรณ์ที่เชื่อมต่อกับอินเตอร์เนตก็ทำการเก็บและรวบรวมข้อมูลซึ่งอาจเป็นเรื่องที่เกี่ยวกับพฤติกรรมการใช้งานของลูกค้า ประสิทธิภาพของสินค้า หรือการเรียนรู้ของเครื่องจักรพวกนี้ล้วนทำให้มีข้อมูลขนาดใหญ่

แม้ว่ายุคของข้อมูลขนาดใหญ่ Big Data มาถึงและได้เริ่มต้นแล้ว แต่มันก็ยังเป็นเพียงแต่ช่วงแรกๆ และระบบระบบคลาวด์คอมพิวติ้งก็ได้ขยายความเป็นไปได้มากขึ้น คลาวด์มีความสามารถในการในการใช้งานได้อย่างยืดหยุ่นได้

กระบวนการ Big Data process
กระบวนการ Big Data process

ตัวอย่างการนำ Big Data ไปใช้

ข้อมูลขนาดใหญ่หรือ Big Data ช่วยให้เราสามารถจัดการงานทางธุรกิจได้อย่างมีประสิทธิภาพ ได้ตั้งแต่การเก็บข้อมูลของลูกค้าเพื่อสร้างประสบการณ์ที่ดีให้กับลูกค้า เป็นต้น ต่อนี้ไปเป็นตัวอย่างเพียงส่วนหนึ่งของการใช้ข้อมูล Big Data

การพัฒนาผลิตภัณฑ์

บริษัท Netflix และ บริษัท  Procter & Gamble ได้ใช้ข้อมูล Big Data ช่วยในการคาดการณ์ความต้องการของลูกค้า พวกเขาสร้างโมเดลเชิงคาดการณ์สำหรับผลิตภัณฑ์และบริการใหม่ ๆ โดยการจำแนกคุณลักษณะที่สำคัญของผลิตภัณฑ์หรือบริการในอดีตและปัจจุบันและสร้างแบบจำลองความสัมพันธ์ระหว่างคุณลักษณะเหล่านี้กับความสำเร็จในเชิงพาณิชย์ของข้อเสนอ นอกากนี้ยังมีบริษัท P&G ยังใช้ข้อมูลของสื่อสังคมออนไลน์ในการวิเคราะห์ ในการทดสอบตลาดและเปิดตัวสินค้าในช่วงต้น เพื่อวางแผนการผลิตและเปิดตัวสินค้าใหม่

การคาดการณ์เพื่อการบำรุงรักษาเครื่องจักร

ปัจจัยที่ใช้ทำนายการชำรุดของเครื่องจักรนี้ มาจากข้อมูลทั้งที่เป็นแบบมีโครงสร้างเช่น วันเดือนปี ที่ผลิต รุ่น และข้อมูลที่ไม่มีโครงสร้าง เช่นข้อมูลจากเว็นเซอร์ต่างๆ เช่นอุณภูมิของเครื่องยนต์ การทำงานผิดปกติของเครืองจักร ซึ่งข้อมูลเหล่านี้จะต้องได้รับการวิเคราะห์ก่อนที่จะเกิดปัญหา การวิเคราะห์ข้อมูลเหล่านี้ เพื่อกำหนดตารางซ่อมบำรุง เพื่อประหยัดงบการซ่อมบำรุง และรวมไปถึงการสต๊อกอะไหล่ต่างๆ เพืท่อให้การซ่อมบำรุงได้อย่างมีประสิทธิภาพ ทันเวลา และประหยัดงบประมาณ

สร้างประสบการณืที่ดีให้กับลูกค้า

ในสภาวะการแข่งขันทางการค้าในปัจจุบัน การเสนอประสบการณ์และข้อเสนอที่ดีที่สุดและตรงใจแก่ลูกค้าที่สุดก็จะเป็นผู้ได้เปรียบในการแข่งขัน ข้อมูลขนาดใหญ่หรือ Big Data ช่วยให้ธุรกิจรวบรวมข้อมูลจากสื่อสังคมออนไลน์ ผู้เข้าชมเว๊ปไซท์ ผู้เข้าใช้แอพพลิเคชั่น ข้อมูลการตอบโต้ทางโทรศัพท์ ข้อมูลการสนทนาผ่านสื่อต่างๆ เพื่อช่วยให้ปรับปรุงการสื่อสารกับลูกค้า และเพิ่มมูลค่าให้ได้มากที่สุดด้วยการส่งข้อเสนอสุดพิเศษให้ตรงใจกับลูกค้า และยังช่วยแก้ปัญหาที่เกิดกับลูกค้า เป็นการแก้ปัญหาเชิงรุกได้อย่างมีประสิทธิภาพ

การตรวจสอบการโกงและการปฏิบัติตามกฎระเบียบ

การโกงในระบบเครือข่ายอินเตอร์เนตไม่ได้มีเฉพาะจากแฮกเกอร์เท่านั้น ซึ่งเราจะต้องเผชิญกับผู้เช่ยวชาญในหลายๆรูปแบบ ในระบบการรักษาความปลอดภัยสมัยใหม่นี้ได้มีการพัฒนาอย่างไม่หยุดนิ่ง การใช้ข้อมูลขนาดใหญ่สามารถทำให้เราระบุรูปแบบของข้อมูลที่เข้าในรูปที่มิชอบ และไม่ถูกต้องตามข้อกำหนดของเราได้

การเรียนรู้ของเครื่องจักร Learning Machine

การเรียนรู้ของเครื่องจักร หรือ Learning Machine กำลังเป็นที่นิยมอยู่ในขณะนี้ ข้อมูลโดยเฉพาะอย่างยิ่งข้อมูลขนาดใหญ่เป็นเหตุผลที่เราสามารถสอนเครื่องจักรได้ การมีข้อมูลขนาดใหญ่ทำให้ง่ายในการเตรียมข้อมูลในการสอนเครื่องจักรให้สามารถเรียนรู้ได้

ประสิทธิภาพในการปฏิบัติงาน

โดยปกติประสิทธิภาพในการปฏิบัติงานเรามักไม่ทราบว่าการดำเนินงานนั้นมีประสิทธิภาพเพียงใด แต่ในพื้นที่ที่มีข้อมูลขนาดใหญ่ ด้วยข้อมูลมูลขนาดใหญ่นี้ทำให้เราสามารถวิเคราะห์ และเข้าถึง การผลิตหรือการปฏิบัติงานได้ การตอบรับของลูกค้า รวมถึงปัจจัยอื่นๆที่จะทำให้ธุรกิจหยุดชะงักหรือขัดข้องได้ และสามารถคาดการณ์ความต้องการล่วงหน้าด้วยการวิเคราะห์ข้อมูลขนาดใหญ่ ข้อมูลขนาดใหญ่หรือ Big Data นี้ยังสามารถใช้เพื่อปรับปรุงการตัดสินใจให้สอดคล้องกับความต้องการของตลาดในปัจจุบันได้อีกด้วย

การขับเคลื่อนในการสร้างสรรค์สิ่งใหม่ๆ

ข้อมูลขนาดใหญ่สามารถช่วยคุณในการสร้างสรรค์สิ่งใหม่ ๆ ได้โดยการศึกษาความสัมพันธ์ระหว่าง บุคคล สถาบัน หน่วยงาน องค์กร และกระบวนการ และดำเนินการกำหนดวิธีการใหม่ในการใช้ข้อมูลเชิงลึกเหล่านั้น ใช้ข้อมูลเชิงลึกเพื่อปรับปรุงการตัดสินใจเกี่ยวกับการพิจารณาเรื่องการเงิน วางแผนและพิจารณาแผนงาน ตรวจสอบแนวโน้มและสิ่งที่ลูกค้าต้องการ นำเสนอผลิตภัณฑ์และบริการใหม่ ๆ ใช้การกำหนดราคาแบบไดนามิก ที่มีความเป็นไปได้ไม่มีที่สิ้นสุด

Big Data ข้อมูลขนาดใหญ่ มันทำงานอย่างไร

ข้อมูลขนาดใหญ่ให้ข้อมูลเชิงลึกใหม่ ๆ เพื่อเปิดโอกาสและรูปแบบธุรกิจใหม่ ๆ การเริ่มต้นใช้งานประกอบด้วย 3 ขั้นตอนสำคัญดังนี้

การรวบรวมข้อมูล

การรวบรวมข้อมูลของ Big Data เป็นการรวบรวมข้อมูลของจากหลากหลายทั้งที่มาและการใช้งานที่แตกต่างกันอย่างมากมาย ซึ่งกลไกและเทคโนโลยีแบบดั้งเดิม ETL (extract, transform, and load) ไม่สามารถทำได้ ซึ่ง Big Data หรือ ข้อมูลขนาดใหญ่ต้องการเทคนิค วิธีการ และเทคโนโลยีใหม่ในการรวบรวมข้อมูลขนาด เทราไบต์ และอาจจะเป็นระดับเพธาไบต์เลยก็มี

ในการรวบรวมข้อมูลนั้นต้องมีการประมวลผล จัดรูปแบบ ให้เหมาะสำหรับการใช้ในการวิเคราะห์หรือใช้งานสำหรับธุรกิจหรือวัตถุประสงค์นั้นๆ

การจัดการข้อมูล

ข้อมูลขนาดใหญ่ หรือ Big Data นั้นมีความต้องการสถานที่จัดเก็บขนาดใหญ่ การจัดเก็บข้อมูลมูลขนาดใหญ่จะเป็นชนิดใดก็ได้ไม่ว่าจะเป็นแบบ on premises หรือ แบบ cloud ขึ้นกับความต้องการหรือความสะดวกในการใช้ ซึ่งเราสามารถใช้และประเมินผลได้เช่นเดียวกัน บางครั้งก็มีความจำเป็นที่ต้องจัดเก็บไว้ใกล้กับแหล่งข้อมูล หรือข้อมูลบางอันต้องการความยืดหยุ่นสูงและไม่ต้องการบริหารจัดการก็ใช้เป็นแบบ Cloud ซึ่งกำลังเป็นที่นิยมกันเป็นอย่างมาก

การวิเคราะห์

การลงทุนสร้างข้อมูลขนาดใหญ่ หรือ Big data จะมีประโยชน์หรือคุ้มค่าก็ต่อเมื่อคุณใช้และวิเคราะห์ข้อมูล การวิเคราะห์ข้อมูลทำให้เกิดความกระจ่างและชัดเจนในชุดข้อมูลที่คุณมีอยู่ การสำรวจข้อมูลยังทำให้เราค้นพบสิ่งใหม่ แชร์สิ่งที่ค้นพบใหม่ๆต่อคนอื่น สร้างรูปแบบจำลองข้อมูล ด้วยการเรียนรู้ของเครื่องจักรและปัญญาประดิษฐ์ AI และนำข้อมูลเหล่านั้นไปใช้งาน

Big Data Process มีอะไรบ้าง

ขั้นตอนและกระบวนการทำงานของ Big Data มีอยู่ 3 ขั้นตอนหลักๆ ดังนี้.
1. จัดเก็บข้อมูล (Storage) ... .
2. การประมวลผลข้อมูล (Processing) ... .
3. การวิเคราะห์ข้อมูล (Analyst).

กระบวนการทำงานของ Big Data มีกี่ขั้นตอนอะไรบ้าง

5 ขั้นตอนในการทำ Big Data Project ให้ประสบความสำเร็จ.
1: รับรองการส่งผ่านข้อมูลที่ยืดหยุ่นและปรับขนาดได้ ... .
2: ขับเคลื่อนการประมวลผลและการผสมผสานข้อมูลขนาดใหญ่ ... .
3: ส่งมอบข้อมูลเชิงลึกเกี่ยวกับการวิเคราะห์Big Data ที่สมบูรณ์ ... .
4. ใช้แนวทางเชิงโซลูชัน (Solution-Oriented) ... .
5: เลือกผู้ขายที่เหมาะสม.

Data มีความสําคัญอย่างไร

ประโยชน์ของข้อมูลและความสำคัญของการใช้ข้อมูล.
1. ช่วยให้องค์กรเข้าใจสถานการณ์และประสิทธิภาพการทำงาน ... .
2. ช่วยให้องค์กรตัดสินใจได้ดีขึ้นและตรงกับความเป็นจริง ... .
3. ช่วยให้องค์กรรับมือและแก้ไขปัญหาได้ดีขึ้น ... .
4. ช่วยพัฒนากระบวนการทำงานให้ดีขึ้น ... .
5. เข้าใจลูกค้ามากขึ้น สร้างประสบการณ์ที่น่าพึงพอใจ.

Big Data เกิดขึ้นได้อย่างไร

1. ข้อมูลที่เกิดจากคนสู่คน ที่มีการสื่อสารกับโลกดิจิทัลผ่านสมาร์ทโฟน ในรูปแบบต่าง ๆ เช่น การส่งอีเมลหรือส่งข้อความ การโพสภาพถ่ายถึงกันหรือแม้แต่การทำข่าวให้เราได้ดูจากทั่วทุก มุมโลก ซึ่งไม่ใช่เพียงแค่ตัวอักษร รูปภาพ แต่อาจเป็นวิดีโอเคลื่อนไหวเกิดเป็นกิจกรรมการไลฟ์สด (Live chat) ณ สถานที่จริงเวลาจริงที่เกิดขึ้น ซึ่ง ...