การทำความสะอาดข้อมูลมีความสำคัญอย่างไร

คุณรู้หรือไม่ว่า Data Scientist ที่ทำงานจริงส่วนใหญ่ใช้เวลากว่า 80% ในการ Clean ข้อมูล และใช้อีก 20% ที่เหลือในการสร้างโมเดล การ Clean ข้อมูลนี้ เปรียบเหมือนการทำอาหาร เมื่อเรามีวัตถุดิบ นอกจากการคัดสรรวัตถุดิบอย่างพิถีพิถันแล้ว เรายังต้องนำวัตถุดิบนั้นมาทำความสะอาด ปลอกเปลือก ตัดแต่งส่วนที่เน่าเสียออก หั่นให้เป็นรูปร่างที่พร้อมปรุง และอีกหลากหลายขั้นตอน เพื่อให้อาหารจานนั้นถูกปรุงออกมาอย่างดีที่สุด

เหตุผลที่ข้อมูลไม่สะอาดนั้น มีที่มาได้จากหลากหลายสาเหตุ ตั้งแต่การพิมพ์ผิด พิมพ์ตก เครื่องมือเกิด Error หรือ ข้อมูลตัวเลขที่มีความเป็นไปได้น้อยมาก เช่น คนอายุ 120 ปี หรือ ส่วนสูง 230 ซม. เป็นต้น ซึ่งในทางเทคนิคจะเรียกว่าข้อมูลที่อยู่นอกกลุ่มว่า "Outlier" ดังนั้น Data Scientist ที่ดีนั้นจำเป็นต้องแสดงให้เจ้าของข้อมูลนั้นเข้าใจว่า การ Clean Data นั้นเป็นขั้นตอนที่ยาก สำคัญ และใช้เวลานาน เพราะนอกจากการหาคำจำกัดความของ “ความไม่สะอาด” ของข้อมูลแล้ว เรายังต้องหาวิธีจัดการกับข้อมูลที่ตกหล่นหายไป หรือที่เราเรียกว่า "Missing value" อีกด้วย ทั้งหมดนี้ Data Scientist จำเป็นต้องใช้กลไกทางความคิดเพื่อออกแบบเป็นโมเดลสำหรับการ Clean Data โดยเฉพาะ เนื่องจากเรากำลังพูดถึงข้อมูลขนาดใหญ่ หรือ Big Data ที่ตาเปล่าและสองมือไม่สามารถจัดการได้ไหว

 

ขั้นตอนเบื้องต้นในการ Clean ข้อมูล 4 ขั้นตอน ได้แก่

1. Parsing คือ การแจกแจงข้อมูล หรือการใช้หัวข้อของชุดข้อมูล

เช่น ชื่อ: สมศรี, จังหวัด: กรุงเทพ, น้ำหนัก: 75, ส่วนสูง: 160, อายุ: 60, เพศ: หญิง

การทำความสะอาดข้อมูลมีความสำคัญอย่างไร

ความสำคัญของขั้นตอนนี้ไม่ใช่แค่การใช้ Head ของข้อมูล แต่เป็นการทำความเข้าใจว่าคำจำกัดความของชุดข้อมูลนั้นๆ คืออะไร รวมไปถึงเข้าใจค่า และความหมายของมัน เช่น มีค่าสูงสุด หรือ ต่ำสุดเท่าไหร่ เป็นต้น

2. Correcting คือ การแก้ไขข้อมูลที่ผิดพลาด เช่น ในช่องเพศ มีการใส่ตัวเลข หรือแม้กระทั่งตัวเลขที่ผิดปกติไปเนื่องจากมี 0 เกินมา ก็เป็นได้

การทำความสะอาดข้อมูลมีความสำคัญอย่างไร

วิธีการ Correct data นี้ต้องใช้กลยุทธ์ทางสถิติกันหน่อย ไม่ว่าจะเป็นการหาค่าเฉลี่ย ค่าเบี่ยงเบียนมาตรฐาน หรือ standard deviation หรือแม้กระทั่งการใช้ Clustering algorithm ก็ช่วยได้ หลังจากนั้นก็ต้องมาพิจารณากันต่อว่า ในช่องที่มีข้อมูลผิดพลาดนั้น เราจะมีการลบทิ้งทั้งแถวไปเลย หรือจะแก้ไขข้อมูลที่ผิดนั้นด้วยการแทนที่ด้วยตัวใดตัวหนึ่ง ถ้านึกอะไรไม่ออกก็ให้นึกถึง หลักการสิถิติเข้าไว้ก่อน ดังกราฟนี้

การทำความสะอาดข้อมูลมีความสำคัญอย่างไร

3. Standardizing คือ การทำข้อมูลให้เป็นรูปแบบเดียวกัน ตัวอย่างเช่น จังหวัด กรุงเทพฯ ที่มีรูปแบบ กทม. กรุงเทพฯ และ กรุงเทพมหานคร ซึ่งคอมพิวเตอร์ไม่สามารถทราบได้เองว่ามันคือจังหวัดเดียวกัน ส่วนข้อมูลที่เป็นตัวเลขนั้น ในกรณีที่ต้องการแก้ปัญหาเรื่องหน่วย หรือความกว้างของข้อมูลที่ไม่เหมือนกัน สามารถวิธี Standard Normal Distribution ได้ ซึ่งวิธีนี้เป็นการจัดเรียงข้อมูลให้อยู่ในรูป Normalization หรือ ระฆังคว่ำที่เราคุ้นเคยกันดี สูตรการทำ Standardization คือ

การทำความสะอาดข้อมูลมีความสำคัญอย่างไร

4. Duplicate Elimination คือ การลบชุดข้อความซ้ำซ้อนทิ้ง ซึ่งอาจต้องใช้การเขียน Algorithm เพื่อระบุชุดข้อมูลที่ซ้ำซ้อน

การทำความสะอาดข้อมูลมีความสำคัญอย่างไร

ด้วยความยาก และใช้เวลานานกว่าจะได้ข้อมูลที่พร้อมนำไปสร้าง Model ตอนนี้หลายๆ องค์กรที่มีโครงการทำ Big Data System จึงให้ Data Scientist เป็นผู้ออกแบบวิธีการเก็บข้อมูล ควบคู่ไปกับ Data Engineer ด้วย ซึ่งจะเห็นได้ว่า การ Clean Data นั้น ต้องอาศัยความรู้ด้านสถิติ และความคิดสร้างสรรค์ในการออกแบบ Algorithm หรือการเขียนโปรแกรมมาประกอบกัน การเป็น Data Scientist ที่ดี ควรให้ความสำคัญกับการ Clean ข้อมูลไม่แพ้การสร้าง Model เพราะหากเมื่อวัตถุดิบที่มีไม่สะอาดสมบูรณ์ ก็ยากนักที่จะได้ผลลัพธ์ออกมาสวยงามแบบได้ตามที่ต้องการ

จุดประสงค์ของการทำความสะอาดข้อมูลคืออะไร

Data cleaning หมายถึง การทำความสะอาดข้อมูล หรือการทำข้อมูลให้สมบูรณ์ เป็นกระบวนการตรวจสอบและการแก้ไข (หรือลบ) รายการข้อมูลที่ไม่ถูกต้องออกไปจากชุดข้อมูล ตารางหรือฐานข้อมูล ซึ่งเป็นหลักสำคัญของฐานข้อมูล เพราะหมายถึงความไม่สมบูรณ์ ความไม่ถูกต้อง ความไม่สัมพันธ์กับข้อมูลอื่นๆ เป็นต้น จึงต้องมีการแทนที่ การปรับปรุง หรือการ ...

ทำไมต้องทำความสะอาดข้อมูล

การทำความสะอาดข้อมูล เกิดขึ้นเนื่องจาก มีความไม่สอดคล้องของข้อมูล ซึ่งอาจเกิดจากข้อผิดพลาดของการบันทึกข้อมูล การส่งข้อมูล หรือการให้ความหมายของข้อมูลที่จัดเก็บ แตกต่างกัน ยิ่งต้องมีการบูรณาการกับฐานข้อมูลอื่นๆ เช่น คลังข้อมูล หรือหลายฐานข้อมูล จึงมีโอกาสสูงที่จะเกิด "ข้อมูลที่ไม่สะอาด" ขึ้น

การทําความสะอาดข้อมูลมีอะไรบ้าง

การทำความสะอาดข้อมูล Data cleansing หรือ data cleaning หรือ data scrubbing คือ กระบวนการตรวจสอบ การแก้ไข หรือการลบ เพื่อให้รายการข้อมูลที่ไม่ถูกต้องออกไปจากชุดข้อมูล ตารางหรือฐานข้อมูล ซึ่งเป็นหลักสำคัญของฐานข้อมูล เพราะหมายถึงความไม่สมบูรณ์ ความไม่ถูกต้อง ความไม่สัมพันธ์กับข้อมูลอื่น ๆ เป็นต้น จึงทำให้ผู้เชี่ยวชาญหลาย ...

การทำความสะอาดข้อมูล (Data Cleansing) อยู่ในขั้นตอนใด

การท าความสะอาดข้อมูลเป็นการท างานที่เกี่ยวกับการตรวจสอบและแก้ไขข้อมูล เพื่อให้ข้อมูลอยู่ใน รูปแบบที่ถูกต้องและสมบูรณ์ โดยขั้นตอนของการท าความสะอาดข้อมูลนับเป็นขั้นตอนแรกที่ส าคัญของการ เตรียมพร้อมข้อมูล ซึ่งถ้าข้อมูลไม่มีความถูกต้อง หรือไม่สมบูรณ์ อาจจะส่งผลให้ค าตอบหรือข้อสรุปที่ได้ไม่ สามารถน าไปใช้ประโยชน์ได้ ...