การปฏิบัติของการจัดการข้อมูลครอบคลุมการเก็บรวบรวมและการกระจายข้อมูลที่มีคุณภาพสูงนอกเหนือจากการกำกับดูแลข้อมูลเพื่อควบคุมการเข้าถึงข้อมูล Show
การจัดการคุณภาพผู้ใช้ข้อมูลคาดว่าข้อมูลจะมีความน่าเชื่อถือเพียงพอและสอดคล้องกันสำหรับแต่ละกรณีการใช้งาน ผู้จัดการคุณภาพข้อมูลวัดและปรับปรุงคุณภาพของข้อมูลขององค์กร พวกเขาตรวจสอบทั้งข้อมูลที่มีอยู่และข้อมูลใหม่ และตรวจสอบว่าเป็นไปตามมาตรฐาน นอกจากนี้ยังอาจตั้งค่ากระบวนการจัดการข้อมูลที่บล็อกข้อมูลที่มีคุณภาพต่ำไม่ให้เข้าสู่ระบบ มาตรฐานคุณภาพข้อมูลโดยทั่วไปจะวัดต่อไปนี้
การกระจายข้อมูลและความสอดคล้องตำแหน่งข้อมูลสำหรับการกระจายข้อมูล สำหรับองค์กรส่วนใหญ่ ข้อมูลจะต้องมีการกระจายไปยัง (หรือใกล้) ตำแหน่งข้อมูลต่างๆ ที่ต้องการข้อมูล เหล่านี้รวมถึงระบบการดำเนินงาน DataLake และคลังข้อมูล การกระจายข้อมูลเป็นสิ่งจำเป็นเนื่องจากเวลาเครือข่ายแฝง เมื่อจำเป็นต้องใช้ข้อมูลสำหรับการใช้งานในการดำเนินงาน เวลาแฝงของเครือข่ายอาจไม่เพียงพอที่จะส่งข้อมูลในเวลาที่เหมาะสม การจัดเก็บสำเนาของข้อมูลในฐานข้อมูลภายในเครื่องช่วยแก้ไขปัญหาเวลาแฝงของเครือข่าย การกระจายข้อมูลยังเป็นสิ่งจำเป็นสำหรับการรวมข้อมูล คลังข้อมูลและ Data Lake รวบรวมข้อมูลจากแหล่งต่างๆ เพื่อนำเสนอมุมมองโดยรวมของข้อมูล คลังข้อมูลที่ใช้สำหรับการวิเคราะห์และการตัดสินใจในขณะที่ Data Lake เป็นศูนย์กลางรวมจากการที่ข้อมูลสามารถสกัดสำหรับกรณีการใช้งานต่างๆ กลไกการจำลองแบบข้อมูลและผลกระทบต่อความสอดคล้อง กลไกการกระจายข้อมูลมีผลที่อาจเกิดขึ้นกับความสอดคล้องกันของข้อมูลและนี่คือข้อพิจารณาที่สำคัญในการจัดการข้อมูล ผลความสอดคล้องที่แข็งแกร่งจากการจำลองแบบเวลาเดียวกันของข้อมูล ในวิธีการนี้ เมื่อค่าข้อมูลที่มีการเปลี่ยนแปลง แอปพลิเคชันทั้งหมดและผู้ใช้จะเห็นค่าที่เปลี่ยนแปลงของข้อมูล ถ้าค่าใหม่ของข้อมูลยังไม่ถูกจำลองแบบเป็นยัง การเข้าถึงข้อมูลถูกบล็อคจนกว่าสำเนาทั้งหมดจะถูกปรับปรุง การจำลองแบบเวลาเดียวกันจัดลำดับความสำคัญความสอดคล้องมากกว่าประสิทธิภาพและการเข้าถึงข้อมูล การจำลองแบบเวลาเดียวกันมักจะใช้สำหรับข้อมูลทางการเงิน ผลความสอดคล้องในที่สุดจากการจำลองแบบไม่ตรงกันของข้อมูล เมื่อมีการเปลี่ยนแปลงข้อมูลสำเนาจะได้รับการอัปเดตในที่สุด (โดยปกติจะภายในไม่กี่วินาที) แต่การเข้าถึงสำเนาที่ล้าสมัยจะไม่ถูกบล็อก สำหรับกรณีการใช้งานจำนวนมาก นี่ไม่ใช่ปัญหา ยกตัวอย่างเช่น การโพสต์ ชอบ และแสดงความคิดเห็นบนสื่อสังคมไม่จำเป็นต้องมีความสอดคล้องสูง เป็นอีกตัวอย่างหนึ่ง ถ้าลูกค้าเปลี่ยนหมายเลขโทรศัพท์ของพวกเขาในโปรแกรมหนึ่ง การเปลี่ยนแปลงนี้สามารถลดหลั่นกันได้แบบไม่เป็นเวลาเดียวกัน การเปรียบเทียบการสตรีมกับการอัปเดตแบบกลุ่ม Data Stream ภายนอกเปลี่ยนแปลงเมื่อเกิดขึ้น นี่คือวิธีการที่ต้องการถ้าการเข้าถึงข้อมูลใกล้เวลาจริงเป็นสิ่งจำเป็น ข้อมูลจะถูกดึง เปลี่ยน และส่งไปยังปลายทางโดยเร็วที่สุดเท่าที่มีการเปลี่ยนแปลง การปรับปรุงชุดงานมีความเหมาะสมมากขึ้นเมื่อข้อมูลจะต้องมีการประมวลผลในชุดงานก่อนส่งมอบ สรุปหรือดำเนินการวิเคราะห์ทางสถิติของข้อมูลและการส่งมอบเพียงผลเป็นตัวอย่างของการนี้ การปรับปรุงชุดยังสามารถรักษาความสอดคล้องภายในจุดในเวลาของข้อมูลถ้าข้อมูลทั้งหมดถูกแยกที่จุดเฉพาะในเวลา การอัปเดตชุดผ่าน กระบวนการดึง แปลง โหลด (ETL หรือ ELT) โดยทั่วไปจะใช้สำหรับกลุ่มข้อมูล Data Lake และการวิเคราะห์ Big Data ManagementBig Data เป็นปริมาณมากของข้อมูลที่องค์กรเก็บรวบรวมด้วยความเร็วสูงในช่วงเวลาสั้น ๆ ฟีดข่าววิดีโอบนโซเชียลมีเดียและ Data Stream จากเซ็นเซอร์อัจฉริยะเป็นตัวอย่างของข้อมูลขนาดใหญ่ ทั้งขนาดและความซับซ้อนของการดำเนินงานสร้างความท้าทายในการจัดการ Big Data ยกตัวอย่างเช่น ระบบข้อมูลขนาดใหญ่เก็บข้อมูล เช่น
เครื่องมือการจัดการ Big Data ต้องประมวลผลและเตรียมข้อมูลสำหรับการวิเคราะห์ เครื่องมือและเทคนิคที่จำเป็นสำหรับ Big Data มักจะทำหน้าที่ต่อไปนี้ บูรณาการข้อมูล เก็บข้อมูล และวิเคราะห์ข้อมูล สถาปัตยกรรมข้อมูลและการสร้างแบบจำลองข้อมูลสถาปัตยกรรมข้อมูล สถาปัตยกรรมข้อมูลอธิบายถึงสินทรัพย์ข้อมูลขององค์กร และให้พิมพ์เขียวสำหรับการสร้างและจัดการกระแสข้อมูล แผนการจัดการข้อมูลรวมถึงรายละเอียดทางเทคนิคเช่นฐานข้อมูลการดำเนินงาน Data Lake คลังข้อมูลและเซิร์ฟเวอร์ที่เหมาะสมที่สุดสำหรับการใช้กลยุทธ์การจัดการข้อมูล การทำแบบจำลองข้อมูล การสร้างแบบจำลองข้อมูลเป็นกระบวนการของการสร้างแบบจำลองข้อมูลแนวคิดและตรรกะที่เห็นภาพขั้นตอนการทำงานและความสัมพันธ์ระหว่างชนิดที่แตกต่างกันของข้อมูล โดยปกติแล้วการทำโมเดลข้อมูลเริ่มต้นด้วยการนำเสนอข้อมูลเชิงแนวคิด จากนั้นจึงแทนข้อมูลอีกครั้งในบริบทของเทคโนโลยีที่เลือก ผู้จัดการข้อมูลสร้างโมเดลข้อมูลแตกต่างหลายชนิดในระหว่างระยะการออกแบบข้อมูล การกำกับข้อมูลการกำกับดูแลข้อมูลประกอบด้วยนโยบายและขั้นตอนที่องค์กรดำเนินการเพื่อจัดการความปลอดภัยของข้อมูล ความซื่อสัตย์ และการใช้ข้อมูลอย่างมีความรับผิดชอบ กำหนดกลยุทธ์การจัดการข้อมูลและกำหนดผู้ที่สามารถเข้าถึงข้อมูลใดได้ นโยบายการกำกับดูแลข้อมูลยังสร้างความรับผิดชอบในลักษณะที่ทีมและบุคคลสามารถเข้าถึงและใช้ข้อมูลได้ หน้าที่การกำกับดูแลข้อมูลโดยทั่วไปจะประกอบด้วย การปฏิบัติตามกฎระเบียบ นโยบายการกำกับดูแลข้อมูลช่วยลดความเสี่ยงของค่าปรับหรือการกระทำตามระเบียบข้อบังคับ มุ่งเน้นไปที่การฝึกอบรมพนักงานเพื่อการยึดมั่นในกฎหมายเกิดขึ้นในทุกระดับ ยกตัวอย่างเช่น องค์กรร่วมมือกับทีมพัฒนาภายนอกเพื่อปรับปรุงระบบข้อมูล ผู้จัดการการกำกับดูแลข้อมูลยืนยันว่าข้อมูลส่วนบุคคลทั้งหมดถูกลบออกก่อนจะส่งต่อไปยังทีมภายนอกเพื่อการทดสอบ การรักษาความปลอดภัยและการควบคุมการเข้าถึง การกำกับดูแลข้อมูลช่วยป้องกันการเข้าถึงข้อมูลโดยไม่ได้รับอนุญาต และปกป้องข้อมูลจากการทุจริต ซึ่งจะรวมถึงทุกแง่มุมของการป้องกันดังต่อไปนี้
ขั้นตอนแรกของการจัดเก็บข้อมูลและการวิเคราะห์ข้อมูล Big Data คืออะไรขั้นตอนแรกของ Data Pipeline ในองค์กรนั้นเกี่ยวข้องกับระบบต้นทางการสื่อสารข้อมูล (Source Systems) และข้อมูลดิบ (Raw Data) โดยจะส่งข้อมูลจากต้นทาง(Ingest)ผสมผสาน (Blended)และวิเคราะห์ข้อมูล (Analyze) การผสมสานของข้อมูลที่หลากหลายจากไซโลทั่วทั้งองค์กรนั้นมักนำไปสู่ข้อมูลเชิงลึกที่สำคัญที่สุด
ข้อใดคือลำดับแรกขององค์ประกอบการจัดการข้อมุลที่เป็น Big Dataองค์ประกอบแรกที่สำคัญของ Big Data นั่นก็คือ แหล่งข้อมูล (Data Source) ซึ่งแหล่งข้อมูลของ Big Data นั้นอาจจะมาจากหลากหลายแหล่ง เช่น โปรแกรม, ข้อมูลธุรกรรม (transaction),อุปกรณ์ต่างๆ หรืออุปกรณ์ IOT ทำให้มีความยากในการจัดการข้อมูลเนื่องจากแต่ละแหล่งมีโครงสร้างข้อมูลที่ต่างกัน
ขั้นตอนแรกในการใช้วิทยาการข้อมูลคืออะไรขั้นตอนที่ 1 การตั้งคำถาม (ask an interesting question) คือ ตั้งคำถามที่ตนเองสนใจเป็นกระบวนการวิทยาการข้อมูลขั้นตอนแรกในการดำเนินกิจกรรม การตั้งคำถาม เช่น กรมควบคุมโรคต้องการวางแผนเกี่ยวกับการรับมือโรคไข้หวัดใหญ่ ในปีถัดไปเพื่อเป็นการสำรองยาและเวชภัณฑ์ อีกทั้งเป็นการบริหารจัดการวัคซีนของกรมควบคุมโรค เป็นต้น
ขั้นตอนแรกของกระบวนการเตรียมข้อมูลเพื่อนำไปประมวลผลคือข้อใดขั้นตอนแรก คือ การทำความเข้าใจกับวัตถุประสงค์ของการประมวลผลข้อมูล เนื่องจากผู้วิเคราะห์ จะต้องทำความเข้าใจวัตถุประสงค์อย่างถ่องแท้ เพื่อนำไปสู่การตั้งปัญหาและการหา คำตอบได้อย่าง ถูกต้อง เหมาะสม จากนั้นจึงนำไปสู่ขั้นตอนของการเก็บรวบรวมข้อมูล เพื่อให้ได้มาซึ่งข้อมูล ที่มีความ
|