คนที่จะเป็นนักวิทยาการข้อมูล (Data Science) ควรมีลักษณะอย่างไร

คนที่จะเป็นนักวิทยาการข้อมูล (Data Science) ควรมีลักษณะอย่างไร

Show

กว่าจะออกมาเป็น Data Scientist

ต้องผ่านการเรียนรู้มาตั้งแต่พื้นฐานเลข สถิติ ความน่าจะเป็น ไปจนถึงการเขียนโปรแกรม แต่อย่างไรก็ตาม ในปัจจุบันนี้จะมีเทคโนโลยีใหม่ๆ ออกมาช่วยในการทำงานการโมเดลข้อมูลต่างๆ สามารถถูกออกแบบและจัดการได้ง่ายขึ้น จากเดิมที่ต้อง run ด้วยภาษา C ใช้ MATLAB เปลี่ยนมาเป็นเทรนเขียนโปรแกรมด้วย Python หรือ R จนล่าสุด Google ได้ปล่อย TensorFlow ออกมาทำหน้าที่เป็น Machine Learning ตัวใหม่ที่น่าสนใจ และว่ากันว่าใช้งานง่ายอีกด้วย แบบนี้แล้วอาชีพ Data Scientist จึงเป็นอาชีพที่ต้องอาศัยการตื่นตัวอยู่ตลอดเวลา ซึ่งการเป็น Data Scientist ที่ประสบความสำเร็จนั้น ควรมีอุปนิสัยดังต่อไปนี้

1. ช่างสังเกต และชอบตั้งคำถาม

พร้อมกับการหาคำตอบด้วยเหตุผลที่เป็นข้อมูลData Scientist จะมองทุกอย่างเป็นคำถาม และสร้างตารางเปรียบเทียบคำตอบนั้นๆ โดยใช้ข้อมูลหรือตัวเลข เป็นตัวตัดสินใจในการหาคำตอบตัวอย่างง่ายๆ เช่น หากจะเดินทางจากแจ้งวัฒนะไปบางนา มีเส้นทางไหนให้เลือก แต่ละทางใช้เวลาเดินทางเท่าไร มีค่าใช้จ่ายอย่างไร สภาพถนนคล่องตัวหรือไม่ เป็นต้น หรือแม้กระทั่งสิ่งรอบตัวที่ไม่เกี่ยวข้องกับการตัดสินใจ ก็เป็นปัญหาสนุกๆให้ Data Scientist ได้ เช่น การวางผังเมือง สภาพเศรษฐกิจ หรือแม้กระทั่งการเลือกตั้งของประเทศอเมริกา ที่มีการใช้ Big data อธิบายเหตุผลของการเลือกตั้ง โดยอาศัยข้อมูลประชากร เช่น เชื้อชาติ อายุ เพศ อาชีพ ฐานเงินเดือน เป็นต้น

2. ชอบติดตามข่าวสาร และเทคโนโลยีใหม่ๆ

เพราะเทคโนโลยี ไม่เคยหลับ หรือหยุดนิ่ง หากไม่รู้จัก Update ตัวเอง ก็จะกลายเป็น Technician ที่ล้าหลัง ทั้งนี้งานหลักของ Data Scientist นอกจากจะเป็นนักวิเคราะห์แล้ว ยังมีหน้าที่เป็นนักออกแบบ Innovation อีกด้วย ข่าวสารต่างๆ จึงเป็นเหมือนตัวแปรที่เข้ามามีส่วนในการพัฒนาโมเดลต่างๆ ให้ครอบคลุมมากขึ้น

3. ไม่เกี่ยงการในการเลือกใช้ Tool

นอกจากโปรแกรมภาษามากมายให้เหล่า Data Scientist ได้เลือกใช้แล้ว แต่ละ Algorithm ก็หลากหลาย อีกด้วย ยังไม่รวมไปถึง Parameter set up และ Dataset ที่แสนเยอะจนน่าปวดหัวทำให้การเป็น Data Scientist ที่ดี จึงเป็นคนที่ไม่ยึดติดอยู่กับเครื่องมือใด เครื่องมือหนึ่ง ไม่ว่าจะเป็น R Python Matlab SAS หรือแม้กระทั่ง Excel เพราะแต่ละปัญหาอาจจะถูกออกแบบ และแก้ไขได้หลายแบบ ซึ่งต้องทดสอบหลายครั้ง จนกว่าจะหาโมเดลที่เหมาะสมที่สุด

4. การสื่อสาร หรือ Storytelling

จุดบอดของนักวิจัย หรือ Technician คือ การอธิบายหลักการยากๆ หรือผลงานออกมาให้บุคคลภายนอกที่ไม่มีพื้นฐานเชิงเทคนิคให้เข้าใจผลลัพธ์หรือความสำคัญของโมเดล บางครั้งกว่าจะได้โมเดลออกมาต้องผ่านการค้นคว้าวิจัย หรือทำการบ้านมาอย่างหนัก แต่ถ้าหากไม่สามารถนำเสนอผลงาน หรือขายให้ฝ่ายธุรกิจเห็นรูปธรรมได้ สิ่งที่อุตส่าห์ทุ่มเทมานั้น อาจจะเสียเปล่าได้ ดังนั้นนอกจากจะต้องเป็นผู้เชี่ยวชาญด้านข้อมูลแล้ว ยังต้องให้ความสำคัญกับวิชาอื่นๆ ที่เกี่ยวข้องอีกด้วย ไม่ว่าจะเป็น Marketing หรือ Business Communicationเป็นต้น

5. ไม่กลัวความผิดพลาด แต่กล้าที่จะมองหาทางออกของความผิดพลาด

Error เป็นสิ่งที่มาคู่กับการทำโมเดล หรือ แม้กระทั่งการทำ Forecasting เพราะเรากำลังมองไปยังอนาคต ปกติแล้วการทำ Predicting Model จะนำข้อมูลเก่าขนาดใหญ่มาใช้เป็นต้นแบบ และนักวิจัยมักจะเลือกโมเดลที่ให้ค่า Error น้อยที่สุด แต่ต้องไม่ลืมว่า Error นั้นก็มีความสำคัญ ซึ่งเมื่อโมเดลถูกนำไปใช้จริง อาจจำเป็นต้องมีข้อกำหนดเพื่อจัดการError นั้นต่อไป

6. ไม่ย่อท้อต่ออุปสรรค

อุปสรรคสำคัญของการทำโมเดลข้อมูล คือ เวลาทุกขั้นตอนของการทำโมเดลนั้นต่างต้องใช้เวลานาน ตั้งแต่ Business Understanding, Data Understanding, Data Cleansing, Data Modeling, Model Evaluation, Implementationโดยเฉพาะ การ Clean ข้อมูล เนื่องจากข้อมูลที่ใช้เป็น Big Data ซึ่งต้องใช้พลังในการจัดการข้อมูลสูง และการโมเดลแต่ละครั้งก็ใช้เวลานาน สำหรับData Scientist ที่ดีมักจะสร้างโมเดลหลายๆ ตัวเพื่อใช้ประกอบการตัดสินใจเลือกว่าโมเดลไหนเหมาะสมสำหรับการนำไปใช้งานจริง ทั้งหมดทั้งมวล ต้องอาศัยความทุ่มเท และความคิดสร้างสรรค์ที่อยู่ภายใต้ความกดดันจากธุรกิจ

วิทยาศาสตร์ข้อมูลคืออะไร

วิทยาศาสตร์ข้อมูลคือการศึกษาข้อมูลเพื่อดึงข้อมูลเชิงลึกที่มีความหมายสำหรับธุรกิจ เป็นแนวทางสหสาขาวิชาที่ผสมผสานหลักการและแนวทางปฏิบัติต่างๆ จากสาขาวิชาคณิตศาสตร์ สถิติ ปัญญาประดิษฐ์ และวิศวกรรมคอมพิวเตอร์ เพื่อวิเคราะห์ข้อมูลจำนวนมาก การวิเคราะห์นี้ช่วยให้นักวิทยาศาสตร์ข้อมูลสามารถถามและตอบคำถามต่างๆ ได้ เช่น เกิดอะไรขึ้น ทำไมถึงเกิดขึ้น จะเกิดอะไรขึ้น และทำอะไรกับผลลัพธ์ได้บ้าง

ทำไมวิทยาศาสตร์ข้อมูลจึงมีความสำคัญ

วิทยาศาสตร์ข้อมูลมีความสำคัญเนื่องจากเป็นการผสมผสานเครื่องมือ วิธีการ และเทคโนโลยีเข้าด้วยกันเพื่อสร้างความหมายจากข้อมูล องค์กรสมัยใหม่นั้นเต็มไปด้วยข้อมูล ทั้งยังมีอุปกรณ์จำนวนมากที่สามารถรวบรวมและจัดเก็บข้อมูลได้โดยอัตโนมัติ ระบบออนไลน์และพอร์ทัลการชำระเงินจะเก็บข้อมูลในด้านอีคอมเมิร์ซ การแพทย์ การเงิน และด้านอื่นๆ ของชีวิตมนุษย์เป็นหลัก เรามีข้อมูลในรูปแบบข้อความ เสียง วิดีโอ และรูปภาพในปริมาณมาก  

ทว่าข้อมูลดิบนั้นไม่มีค่าอะไรเลย เว้นแต่จะสามารถนำมาใช้งานได้จริง นักวิทยาศาสตร์ข้อมูลสามารถแปลงข้อมูลดิบเป็นคำแนะนำที่มีความหมายได้ พวกเขาสามารถค้นพบและแก้ไขปัญหาที่ธุรกิจต่างๆ ไม่เคยรู้มาก่อนว่ามีอยู่ หลายๆ องค์กรสามารถนำคำแนะนำเหล่านี้ไปใช้เพื่อช่วยให้ลูกค้าพึงพอใจมากขึ้น ปรับห่วงโซ่อุปทานให้เหมาะสม หรือเปิดตัวผลิตภัณฑ์ใหม่

ความเป็นมาของวิทยาศาสตร์ข้อมูล

แม้ว่าคำว่าวิทยาศาสตร์ข้อมูลไม่ใช่คำใหม่อะไร แต่ความหมายและนัยยะแฝงของคำนี้ก็เปลี่ยนไปตามกาลเวลา คำนี้ปรากฏขึ้นครั้งแรกในทศวรรษที่ 60 เป็นชื่อหนึ่งของสาขาสถิติ ในช่วงปลายยุค 90 ผู้เชี่ยวชาญด้านวิทยาการคอมพิวเตอร์ได้กำหนดคำศัพท์นี้อย่างเป็นทางการ คำจำกัดความที่เสนอให้กับวิทยาศาสตร์ข้อมูล คือ เป็นสาขาแยกอิสระซึ่งมีสามแง่มุมด้วยกัน ได้แก่ การออกแบบข้อมูล การรวบรวม และการวิเคราะห์ ซึ่งต้องใช้เวลาอีก 10 ปีกว่าจะใช้คำนี้นอกภาคการศึกษา 

อนาคตของวิทยาศาสตร์ข้อมูล

นวัตกรรมปัญญาประดิษฐ์และแมชชีนเลิร์นนิงช่วยให้การประมวลผลข้อมูลรวดเร็วขึ้นและมีประสิทธิภาพมากขึ้น ความต้องการทางอุตสาหกรรมก่อให้เกิดระบบนิเวศของหลักสูตร ปริญญา และตำแหน่งงานในสาขาวิทยาศาสตร์ข้อมูล เนื่องด้วยชุดทักษะข้ามสายงานและความเชี่ยวชาญอันเป็นที่ต้องการ วิทยาศาสตร์ข้อมูลจึงแสดงให้เห็นถึงการเติบโตที่คาดการณ์ไว้อย่างแน่วแน่ในอีกหลายทศวรรษหน้า

เราใช้วิทยาศาสตร์ข้อมูลเพื่ออะไรบ้าง

วิทยาศาสตร์ข้อมูลใช้เพื่อศึกษาข้อมูลใน 4 วิธีหลัก ดังนี้

1. การวิเคราะห์แบบพรรณนา

การวิเคราะห์แบบพรรณนาจะตรวจสอบข้อมูลเพื่อค้นหาข้อมูลเชิงลึกว่าเกิดอะไรขึ้นหรือเกิดอะไรในสภาพแวดล้อมข้อมูล โดยมีลักษณะเฉพาะตัวในการใช้การแสดงข้อมูลเป็นภาพ เช่น แผนภูมิวงกลม แผนภูมิแท่ง กราฟเส้น ตาราง หรือการบรรยายที่สร้างขึ้น ตัวอย่างเช่น บริการจองเที่ยวบินอาจบันทึกข้อมูล อาทิ จำนวนตั๋วที่จองในแต่ละวัน การวิเคราะห์แบบพรรณนาจะเผยให้เห็นยอดการจองที่เพิ่มขึ้น ยอดการจองที่ต่ำลง และเดือนที่บริการนี้มีผลการดำเนินงานสูง

2. การวิเคราะห์แบบวินิจฉัย

การวิเคราะห์แบบวินิจฉัยคือการตรวจสอบข้อมูลแบบเจาะลึกหรือแบบละเอียดเพื่อทำความเข้าใจถึงสาเหตุ โดยมีลักษณะเฉพาะตัวในการใช้เทคนิคต่างๆ เช่น การเจาะลึก การค้นพบข้อมูล การทำเหมืองข้อมูล และการหาความสัมพันธ์ อาจมีการดำเนินการและการเปลี่ยนแปลงข้อมูลหลายรายการในชุดข้อมูลที่กำหนดเพื่อค้นหารูปแบบที่ไม่ซ้ำกันในแต่ละเทคนิคเหล่านี้ ตัวอย่างเช่น บริการเที่ยวบินอาจเจาะลึกในเดือนที่มีผลการดำเนินงานสูงโดยเฉพาะ เพื่อให้เข้าใจว่าเหตุใดยอดการจองจึงเพิ่มขึ้น ซึ่งอาจนำไปสู่การค้นพบว่ามีลูกค้าจำนวนมากไปที่เมืองใดเมืองหนึ่งเพื่อเข้าร่วมงานการแข่งขันกีฬาประจำเดือน

3. การวิเคราะห์แบบคาดการณ์

การวิเคราะห์แบบคาดการณ์ใช้ข้อมูลในอดีตเพื่อสร้างการคาดการณ์ที่แม่นยำเกี่ยวกับรูปแบบข้อมูลที่อาจเกิดขึ้นในอนาคต โดยมีลักษณะเฉพาะตัวในการใช้เทคนิคต่างๆ เช่น แมชชีนเลิร์นนิง การพยากรณ์ การจับคู่รูปแบบ และการสร้างแบบจำลองเชิงคาดการณ์ ในแต่ละเทคนิคเหล่านี้ มีการฝึกฝนคอมพิวเตอร์ให้ทำวิศวกรรมย้อนกลับการสัมพันธ์ที่เป็นเหตุเป็นผลในข้อมูล ตัวอย่างเช่น ทีมบริการเที่ยวบินอาจใช้วิทยาศาสตร์ข้อมูลเพื่อคาดการณ์รูปแบบการจองเที่ยวบินสำหรับปีต่อๆ ไปในช่วงต้นปีของแต่ละปี โปรแกรมคอมพิวเตอร์หรืออัลกอริทึมอาจตรวจดูข้อมูลเก่าและคาดการณ์ยอดการจองที่เพิ่มขึ้นสำหรับจุดหมายปลายทางบางแห่งในเดือนพฤษภาคม เมื่อคาดการณ์ความต้องการในการเดินทางในอนาคตของลูกค้าแล้ว บริษัทก็สามารถเริ่มโฆษณาแบบกำหนดเป้าหมายสำหรับเมืองเหล่านั้นได้ตั้งแต่เดือนกุมภาพันธ์

4. การวิเคราะห์แบบให้คำแนะนำ

การวิเคราะห์แบบให้คำแนะนำจะต่อยอดจากข้อมูลที่คาดการณ์ ไม่เพียงแต่คาดการณ์สิ่งที่น่าจะเกิดขึ้น แต่ยังแนะนำการตอบสนองที่เหมาะสมที่สุดต่อผลลัพธ์นั้นด้วย โดยสามารถวิเคราะห์ผลกระทบที่อาจเกิดขึ้นจากตัวเลือกต่างๆ และแนะนำแนวทางปฏิบัติที่ดีที่สุด และใช้การวิเคราะห์กราฟ การจำลอง การประมวลผลเหตุการณ์ที่ซับซ้อน นิวรัลเน็ตเวิร์ค และกลไกการแนะนำจากแมชชีนเลิร์นนิง         

กลับไปที่ตัวอย่างการจองเที่ยวบินอีกครั้ง การวิเคราะห์แบบให้คำแนะนำอาจตรวจดูแคมเปญการตลาดในอดีตเพื่อเพิ่มประโยชน์สูงสุดจากยอดการจองที่เพิ่มขึ้นในอนาคต นักวิทยาศาสตร์ข้อมูลสามารถคาดการณ์ผลลัพธ์การจองในระดับการใช้จ่ายทางการตลาดต่างๆ ในช่องทางการตลาดหลายๆ ช่องทาง การคาดการณ์ข้อมูลเหล่านี้จะทำให้บริษัทจองเที่ยวบินมีความมั่นใจมากขึ้นในการตัดสินใจทางการตลาด

วิทยาศาสตร์ข้อมูลมีประโยชน์ต่อธุรกิจอย่างไร

วิทยาศาสตร์ข้อมูลกำลังปฏิวัติวิธีการดำเนินงานของบริษัทต่างๆ หลายธุรกิจไม่ว่าขนาดใดก็จำเป็นต้องมีกลยุทธ์ด้านวิทยาศาสตร์ข้อมูลที่แข็งแกร่ง เพื่อขับเคลื่อนการเติบโตและรักษาความสามารถในการแข่งขัน ประโยชน์หลักๆ บางส่วน ได้แก่

ค้นพบรูปแบบการเปลี่ยนแปลงที่ไม่รู้จัก

วิทยาศาสตร์ข้อมูลช่วยให้ธุรกิจต่างๆ ค้นพบรูปแบบและความสัมพันธ์ใหม่ๆ ที่มีศักยภาพในการเปลี่ยนแปลงองค์กรได้ สามารถเปิดเผยการเปลี่ยนแปลงการจัดการทรัพยากรในต้นทุนต่ำเพื่อสร้างผลกระทบสูงสุดต่ออัตรากำไร ตัวอย่างเช่น บริษัทอีคอมเมิร์ซใช้วิทยาศาสตร์ข้อมูลแล้วค้นพบว่ามีการสอบถามจากลูกค้ามากเกินไปหลังเวลาทำการ การตรวจสอบพบว่าลูกค้ามีแนวโน้มที่จะซื้อมากขึ้นหากพวกเขาได้รับการตอบกลับทันทีแทนที่จะรอคำตอบในวันทำการถัดไป การให้บริการลูกค้าทุกวันตลอด 24 ชั่วโมงช่วยให้ธุรกิจมีรายได้เพิ่มขึ้น 30%

คิดค้นผลิตภัณฑ์และโซลูชันใหม่ๆ

วิทยาศาสตร์ข้อมูลสามารถเผยให้เห็นช่องว่างและปัญหาที่อาจไม่มีใครสังเกตเห็นได้ ข้อมูลเชิงลึกที่มากขึ้นเกี่ยวกับการตัดสินใจซื้อ ความคิดเห็นของลูกค้า และกระบวนการทางธุรกิจ สามารถขับเคลื่อนนวัตกรรมในการดำเนินการภายในและโซลูชันภายนอกได้ ตัวอย่างเช่น โซลูชันการชำระเงินออนไลน์ใช้วิทยาศาสตร์ข้อมูลเพื่อเปรียบเทียบและวิเคราะห์ความคิดเห็นของลูกค้าเกี่ยวกับบริษัทบนโซเชียลมีเดีย การวิเคราะห์พบว่าลูกค้าลืมรหัสผ่านในช่วงที่มีการซื้อสูงสุด และไม่พึงพอใจกับระบบเรียกคืนรหัสผ่านปัจจุบัน บริษัทสามารถคิดค้นโซลูชันที่ดีขึ้น และลูกค้ามีความพึงพอใจเพิ่มขึ้นอย่างมาก

การเพิ่มประสิทธิภาพแบบเรียลไทม์

เป็นเรื่องยากมากสำหรับธุรกิจ โดยเฉพาะอย่างยิ่งองค์กรขนาดใหญ่ ในการตอบสนองต่อสภาวการณ์ที่เปลี่ยนแปลงอยู่เสมอแบบเรียลไทม์ ซึ่งอาจทำให้เกิดความสูญเสียหรือการหยุดชะงักที่สำคัญในกิจกรรมทางธุรกิจ วิทยาศาสตร์ข้อมูลสามารถช่วยบริษัทต่างๆ คาดการณ์การเปลี่ยนแปลงและตอบสนองต่อสถานการณ์ต่างๆ ได้อย่างเหมาะสม ตัวอย่างเช่น บริษัทขนส่งทางรถบรรทุกใช้วิทยาศาสตร์ข้อมูลเพื่อลดเวลาหยุดทำงานเมื่อรถบรรทุกเสีย พวกเขาระบุเส้นทางและรูปแบบการเปลี่ยนที่ทำให้รถเสียเร็วขึ้นและปรับเปลี่ยนตารางเวลารถบรรทุก นอกจากนั้นพวกเขายังจัดตั้งคลังอะไหล่ทั่วไปที่ต้องเปลี่ยนบ่อยๆ ด้วย เพื่อให้สามารถซ่อมแซมรถบรรทุกได้เร็วขึ้น  

กระบวนการวิทยาศาสตร์ข้อมูลคืออะไร

ปัญหาทางธุรกิจมักจะก่อให้เกิดกระบวนการวิทยาศาสตร์ข้อมูล นักวิทยาศาสตร์ข้อมูลจะทำงานร่วมกับผู้มีส่วนได้ส่วนเสียทางธุรกิจเพื่อทำความเข้าใจว่าธุรกิจต้องการอะไร เมื่อระบุปัญหาได้แล้ว นักวิทยาศาสตร์ข้อมูลอาจแก้ไขปัญหาโดยใช้กระบวนการวิทยาศาสตร์ข้อมูล OSEMN:

O – รับข้อมูล

ข้อมูลอาจเป็นได้ทั้งข้อมูลที่มีอยู่ก่อนแล้ว ข้อมูลที่เพิ่งได้มาใหม่ หรือคลังข้อมูลที่สามารถดาวน์โหลดได้จากอินเทอร์เน็ต นักวิทยาศาสตร์ข้อมูลสามารถดึงข้อมูลจากฐานข้อมูลภายในหรือภายนอก ซอฟต์แวร์ CRM ของบริษัท บันทึกเว็บเซิร์ฟเวอร์ โซเชียลมีเดีย หรือซื้อจากแหล่งบบริษัทภายนอกที่เชื่อถือได้

S – ขัดข้อมูล

การขัดข้อมูลหรือการล้างข้อมูลเป็นกระบวนการสร้างมาตรฐานของข้อมูลตามรูปแบบที่กำหนดไว้ล่วงหน้า ซึ่งรวมถึงการจัดการข้อมูลที่ขาดหายไป การแก้ไขข้อผิดพลาดของข้อมูล และการลบข้อมูลผิดปกติ ตัวอย่างบางส่วนของการขัดข้อมูล ได้แก่ 

  • การเปลี่ยนค่าวันที่ทั้งหมดเป็นรูปแบบมาตรฐานทั่วไป  
  • การแก้ไขข้อผิดพลาดด้านการสะกดคำหรือการเว้นวรรคเกิน  
  • การแก้ไขความไม่ถูกต้องทางคณิตศาสตร์หรือการลบเครื่องหมายจุลภาคออกจากตัวเลขจำนวนมาก

E – สำรวจข้อมูล

การสำรวจข้อมูลคือการวิเคราะห์ข้อมูลเบื้องต้นที่ใช้สำหรับการวางแผนกลยุทธ์สร้างแบบจำลองข้อมูลเพิ่มเติม นักวิทยาศาสตร์ข้อมูลได้รับความเข้าใจเบื้องต้นเกี่ยวกับข้อมูลโดยใช้สถิติเชิงพรรณนาและเครื่องมือสร้างภาพข้อมูล จากนั้นก็สำรวจข้อมูลเพื่อระบุรูปแบบที่น่าสนใจซึ่งสามารถศึกษาหรือดำเนินการได้      

M – จำลองข้อมูล

มีการนำซอฟต์แวร์และอัลกอริทึมแมชชีนเลิร์นนิงมาใช้เพื่อดึงข้อมูลเชิงลึกยิ่งขึ้น คาดการณ์ผลลัพธ์ และกำหนดแนวทางปฏิบัติที่ดีที่สุด โดยจะนำเทคนิคแมชชีนเลิร์นนิง เช่น การเชื่อมโยง การจัดประเภท และการจัดกลุ่ม ไปใช้กับชุดข้อมูลการฝึกฝน อาจมีการทดสอบแบบจำลองกับข้อมูลการทดสอบที่กำหนดไว้ล่วงหน้าเพื่อประเมินความถูกต้องของผลลัพธ์ และสามารถปรับแต่งแบบจำลองข้อมูลได้หลายครั้งเพื่อปรับปรุงผลลัพธ์ 

N – ตีความผลลัพธ์

นักวิทยาศาสตร์ข้อมูลทำงานร่วมกับนักวิเคราะห์และธุรกิจต่างๆ เพื่อนำข้อมูลเชิงลึกต่างๆ มาใช้จริง พวกเขาสร้างไดอะแกรม กราฟ และแผนภูมิ เพื่อแสดงแนวโน้มและการคาดการณ์ต่างๆ การสรุปข้อมูลช่วยให้ผู้มีส่วนได้ส่วนเสียเข้าใจและนำผลลัพธ์ไปใช้อย่างมีประสิทธิภาพ

เทคนิควิทยาศาสตร์ข้อมูลมีอะไรบ้าง

ผู้เชี่ยวชาญด้านวิทยาศาสตร์ข้อมูลใช้ระบบคอมพิวเตอร์เพื่อติดตามกระบวนการวิทยาศาสตร์ข้อมูล เทคนิคยอดนิยมที่นักวิทยาศาสตร์ข้อมูลใช้ ได้แก่

การจัดหมวดหมู่

การจัดหมวดหมู่เป็นการจัดเรียงข้อมูลออกเป็นกลุ่มหรือหมวดหมู่เฉพาะ โดยมีการฝึกฝนคอมพิวเตอร์ให้ระบุและจัดเรียงข้อมูล ชุดข้อมูลที่รู้จักจะใช้เพื่อสร้างอัลกอริทึมการตัดสินใจในคอมพิวเตอร์ที่ประมวลผลและจัดหมวดหมู่ข้อมูลอย่างรวดเร็ว ตัวอย่างเช่น  

  • จัดเรียงสินค้าว่าเป็นที่นิยมหรือไม่เป็นที่นิยม  
  • จัดเรียงใบสมัครประกันว่ามีความเสี่ยงสูงหรือมีความเสี่ยงต่ำ  
  • จัดเรียงความคิดเห็นบนโซเชียลมีเดียว่าเป็นเชิงบวก เชิงลบ หรือเป็นกลาง

ผู้เชี่ยวชาญด้านวิทยาศาสตร์ข้อมูลใช้ระบบคอมพิวเตอร์เพื่อติดตามกระบวนการวิทยาศาสตร์ข้อมูล 

การถดถอย

การถดถอยเป็นวิธีการหาความสัมพันธ์ระหว่างจุดข้อมูลที่ดูเหมือนไม่เกี่ยวข้อง 2 จุด ความสัมพันธ์ดังกล่าวมักจะได้รับการจำลองตามสูตรทางคณิตศาสตร์และแสดงเป็นกราฟหรือเส้นโค้ง เมื่อทราบค่าของจุดข้อมูลหนึ่งแล้ว จะใช้การถดถอยเพื่อทำนายจุดข้อมูลอื่น ตัวอย่างเช่น  

  • อัตราการแพร่กระจายของโรคติดต่อทางอากาศ 
  •  ความสัมพันธ์ระหว่างความพึงพอใจของลูกค้ากับจำนวนพนักงาน  
  • ความสัมพันธ์ระหว่างจำนวนสถานีดับเพลิงกับจำนวนผู้บาดเจ็บจากเหตุเพลิงไหม้ ณ จุดใดจุดหนึ่ง 

การจัดกลุ่ม

การจัดกลุ่มเป็นวิธีการจัดกลุ่มข้อมูลที่เกี่ยวข้องอย่างใกล้ชิดเข้าด้วยกัน เพื่อค้นหารูปแบบและความผิดปกติ การจัดกลุ่มจะแตกต่างจากการจัดเรียง เนื่องจากไม่สามารถจำแนกข้อมูลเป็นหมวดหมู่คงที่ได้อย่างแม่นยำ ดังนั้นจะจัดกลุ่มข้อมูลตามความสัมพันธ์ที่เป็นไปได้มากที่สุด ซึ่งอาจค้นพบรูปแบบและความสัมพันธ์ใหม่ๆ จากการจัดกลุ่มนี้ ตัวอย่างเช่น  

  • จัดกลุ่มลูกค้าที่มีพฤติกรรมการซื้อคล้ายคลึงกันเพื่อการให้บริการลูกค้าที่ดีขึ้น  
  • จัดกลุ่มการรับส่งข้อมูลเครือข่ายเพื่อระบุรูปแบบการใช้งานรายวันและระบุการโจมตีเครือข่ายได้เร็วขึ้น  
  • จัดกลุ่มบทความเป็นหมวดหมู่ข่าวที่หลากหลายและใช้ข้อมูลนี้เพื่อค้นหาเนื้อหาข่าวปลอม

หลักการพื้นฐานเบื้องหลังเทคนิควิทยาศาสตร์ข้อมูล

แม้ว่ารายละเอียดจะแตกต่างกันไป แต่หลักการพื้นฐานที่อยู่เบื้องหลังเทคนิคเหล่านี้ ได้แก่

  • สอนเครื่องให้รู้วิธีการจัดเรียงข้อมูลตามชุดข้อมูลที่รู้จัก ตัวอย่างเช่น กำหนดคำหลักตัวอย่างให้กับคอมพิวเตอร์ด้วยค่าการจัดเรียง “ยินดี” คือเชิงบวก และ “รังเกียจ” คือเชิงลบ
  • ให้ข้อมูลที่ไม่รู้จักแก่เครื่อง และอนุญาตให้อุปกรณ์จัดเรียงชุดข้อมูลอย่างอิสระ
  •  อนุญาตให้มีผลลัพธ์ที่ไม่ถูกต้อง และจัดการกับปัจจัยความน่าจะเป็นของผลลัพธ์  

เทคโนโลยีวิทยาศาสตร์ข้อมูลต่างกันอย่างไร

ผู้ปฏิบัติงานด้านวิทยาศาสตร์ข้อมูลทำงานร่วมกับเทคโนโลยีที่ซับซ้อน เช่น

  1. ปัญญาประดิษฐ์: โมเดลแมชชีนเลิร์นนิงและซอฟต์แวร์ที่เกี่ยวข้องใช้สำหรับการวิเคราะห์แบบคาดการณ์และแบบให้คำแนะนำ
  2. การประมวลผลบนระบบคลาวด์: เทคโนโลยีระบบคลาวด์ช่วยให้นักวิทยาศาสตร์ข้อมูลมีความยืดหยุ่นและสามารถประมวลผลที่จำเป็นสำหรับการวิเคราะห์ข้อมูลขั้นสูง
  3. อินเทอร์เน็ตในทุกสิ่ง: IoT คือ อุปกรณ์ต่างๆ ที่สามารถเชื่อมต่ออินเทอร์เน็ตได้โดยอัตโนมัติ อุปกรณ์เหล่านี้คอยรวบรวมข้อมูลสำหรับการริเริ่มกระบวนการวิทยาศาสตร์ข้อมูล โดยสร้างข้อมูลจำนวนมหาศาลที่สามารถนำมาใช้สำหรับการขุดข้อมูลและการดึงข้อมูลได้
  4. คอมพิวเตอร์ควอนตัม: คอมพิวเตอร์ควอนตัมสามารถทำการคำนวณที่ซับซ้อนด้วยความเร็วสูง นักวิทยาศาสตร์ข้อมูลผู้เชี่ยวชาญใช้ข้อมูลเหล่านี้เพื่อสร้างอัลกอริทึมเชิงปริมาณที่ซับซ้อน

วิทยาศาสตร์ข้อมูลเป็นคำศัพท์ที่ครอบคลุมบทบาทและสาขาอื่นๆ ที่เกี่ยวข้องกับข้อมูล ลองมาดูบางส่วนกัน

วิทยาศาสตร์ข้อมูลและการวิเคราะห์ข้อมูลต่างกันอย่างไร

แม้ว่าทั้งสองคำนี้อาจใช้สลับกันได้อยู่บ้าง แต่การวิเคราะห์ข้อมูลถือเป็นส่วนย่อยของวิทยาศาสตร์ข้อมูล วิทยาศาสตร์ข้อมูลเป็นคำศัพท์ที่ครอบคลุมการประมวลผลข้อมูลทุกด้าน ตั้งแต่การรวบรวมไปจนถึงการสร้างแบบจำลองข้อมูลเชิงลึก ในทางกลับกัน การวิเคราะห์ข้อมูลส่วนใหญ่จะเกี่ยวข้องกับด้านสถิติ คณิตศาสตร์ และการวิเคราะห์เชิงสถิติ โดยมุ่งเน้นที่การวิเคราะห์ข้อมูลเท่านั้น แต่วิทยาศาสตร์ข้อมูลนั้นเกี่ยวข้องกับภาพรวมของข้อมูลองค์กร ในบริษัทหลายๆ แห่ง นักวิทยาศาสตร์ข้อมูลและนักวิเคราะห์ข้อมูลจะทำงานร่วมกันเพื่อบรรลุเป้าหมายทางธุรกิจร่วมกัน นักวิเคราะห์ข้อมูลอาจใช้เวลามากกว่าในการวิเคราะห์ตามปกติ เพื่อจัดทำรายงานทั่วไป ส่วนนักวิทยาศาสตร์ข้อมูลอาจออกแบบวิธีจัดเก็บ จัดการ และวิเคราะห์ข้อมูล พูดง่ายๆ ก็คือ นักวิเคราะห์ข้อมูลจะทำความเข้าใจข้อมูลที่มีอยู่ แต่นักวิทยาศาสตร์ข้อมูลจะสร้างวิธีการและเครื่องมือใหม่ๆ ในการประมวลผลข้อมูลสำหรับนักวิเคราะห์

วิทยาศาสตร์ข้อมูลและการวิเคราะห์ธุรกิจต่างกันอย่างไร

แม้ว่าวิทยาศาสตร์ข้อมูลและการวิเคราะห์ธุรกิจอาจมีความทับซ้อนกันอยู่บ้าง แต่ความแตกต่างที่สำคัญคือการใช้เทคโนโลยีในแต่ละสาขา นักวิทยาศาสตร์ข้อมูลทำงานใกล้ชิดกับเทคโนโลยีข้อมูลมากกว่านักวิเคราะห์ธุรกิจ โดยนักวิเคราะห์ธุรกิจจะคอยเชื่อมช่องว่างระหว่างธุรกิจกับไอที พวกเขาระบุกรณีธุรกิจต่างๆ รวบรวมข้อมูลจากผู้มีส่วนได้ส่วนเสีย หรือตรวจสอบโซลูชัน ในทางกลับกัน นักวิทยาศาสตร์ข้อมูลใช้เทคโนโลยีในการทำงานกับข้อมูลทางธุรกิจ พวกเขาอาจเขียนโปรแกรม ใช้เทคนิคแมชชีนเลิร์นนิงเพื่อสร้างแบบจำลอง และพัฒนาอัลกอริทึมใหม่ๆ นักวิทยาศาสตร์ข้อมูลไม่เพียงแต่เข้าใจปัญหาเท่านั้น แต่ยังสามารถสร้างเครื่องมือที่ช่วยแก้ปัญหาได้ ไม่ใช่เรื่องแปลกที่จะเห็นนักวิเคราะห์ธุรกิจและนักวิทยาศาสตร์ด้านข้อมูลที่ทำงานในทีมเดียวกัน นักวิเคราะห์ธุรกิจจะนำผลลัพธ์จากนักวิทยาศาสตร์ข้อมูลมาใช้ เพื่อบอกเล่าให้ธุรกิจในวงกว้างเข้าใจได้

วิทยาศาสตร์ข้อมูลและวิศวกรรมข้อมูลต่างกันอย่างไร

วิศวกรข้อมูลสร้างและรักษาระบบที่ช่วยให้นักวิทยาศาสตร์ข้อมูลสามารถเข้าถึงและตีความข้อมูลได้ วิศวกรข้อมูลทำงานใกล้ชิดกับเทคโนโลยีพื้นฐานมากกว่านักวิทยาศาสตร์ข้อมูล โดยทั่วไปแล้ว บทบาทหน้าที่จะเกี่ยวข้องกับการสร้างแบบจำลองข้อมูล การสร้างไปป์ไลน์ข้อมูล (Data Pipeline) และการดูแลการแยก แปลง โหลด (ETL) วิศวกรข้อมูลอาจดูแลจัดการโครงสร้างพื้นฐานที่เกี่ยวข้องด้วย เช่น พื้นที่จัดเก็บข้อมูลขนาดใหญ่ การสตรีม และแพลตฟอร์มการประมวลผล อาทิ Amazon S3 ทั้งนี้ขึ้นอยู่กับรูปแบบและขนาดองค์กร ส่วนนักวิทยาศาสตร์ข้อมูลจะใช้ข้อมูลที่วิศวกรข้อมูลประมวลผลเพื่อสร้างและฝึกฝนโมเดลการคาดการณ์ นักวิทยาศาสตร์ข้อมูลอาจส่งต่อผลลัพธ์ให้นักวิเคราะห์เพื่อทำการตัดสินใจ

วิทยาศาสตร์ข้อมูลและแมชชีนเลิร์นนิงต่างกันอย่างไร

แมชชีนเลิร์นนิงเป็นศาสตร์ของการฝึกฝนเครื่องให้วิเคราะห์และเรียนรู้จากข้อมูลในแบบเดียวกับมนุษย์ ซึ่งเป็นหนึ่งในวิธีการที่ใช้ในโปรเจกต์วิทยาศาสตร์ข้อมูลเพื่อหาข้อมูลเชิงลึกจากข้อมูลโดยอัตโนมัติ วิศวกรด้านแมชชีนเลิร์นนิงเชี่ยวชาญด้านการประมวลผล อัลกอริทึม และทักษะการเขียนโค้ดเฉพาะสำหรับวิธีการแมชชีนเลิร์นนิง ส่วนนักวิทยาศาสตร์ข้อมูลอาจใช้วิธีการแมชชีนเลิร์นนิงเป็นเครื่องมือหนึ่งหรือทำงานอย่างใกล้ชิดกับวิศวกรด้านแมชชีนเลิร์นนิงคนอื่นๆ เพื่อประมวลผลข้อมูล

วิทยาศาสตร์ข้อมูลและสถิติต่างกันอย่างไร 

สถิติเป็นเขตข้อมูลทางคณิตศาสตร์อย่างหนึ่งที่พยายามรวบรวมและตีความข้อมูลเชิงปริมาณ ในทางตรงกันข้าม วิทยาศาสตร์ข้อมูลเป็นสหสาขาวิชาที่ใช้วิธีการ กระบวนการ และระบบทางวิทยาศาสตร์ในการดึงความรู้จากข้อมูลในรูปแบบต่างๆ นักวิทยาศาสตร์ข้อมูลจะใช้วิธีการจากหลากหลายสาขาวิชา รวมทั้งสาขาสถิติด้วย อย่างไรก็ตาม แต่ละสาขาจะแตกต่างกันไปในกระบวนการและปัญหาที่พวกเขาศึกษา  

AWS มีเครื่องมือมากมายในการสนับสนุนนักวิทยาศาสตร์ข้อมูลทั่วโลก ได้แก่

พื้นที่จัดเก็บข้อมูล

สำหรับคลังข้อมูล Amazon Redshift สามารถเรียกใช้การสืบค้นที่ซับซ้อนกับข้อมูลที่มีโครงสร้างหรือไม่มีโครงสร้างได้ นักวิเคราะห์และนักวิทยาศาสตร์ข้อมูลสามารถใช้ AWS Glue เพื่อจัดการและค้นหาข้อมูลได้ AWS Glue จะสร้างแค็ตตาล็อกรวมของข้อมูลทั้งหมดในที่เก็บข้อมูลดิบโดยอัตโนมัติพร้อมแนบข้อมูลเมตา เพื่อให้สามารถค้นพบได้

แมชชีนเลิร์นนิง

Amazon SageMaker เป็นบริการแมชชีนเลิร์นนิงที่มีการจัดการเต็มรูปแบบซึ่งทำงานบน Amazon Elastic Compute Cloud (EC2) ซึ่งช่วยให้ผู้ใช้สามารถจัดระเบียบข้อมูล สร้าง ฝึกฝน และปรับใช้โมเดลแมชชีนเลิร์นนิง และปรับขนาดการดำเนินงานได้

การวิเคราะห์

  • Amazon Athena เป็นบริการสืบค้นแบบโต้ตอบที่ช่วยให้ง่ายต่อการวิเคราะห์ข้อมูลใน Amazon S3 หรือ Glacier ซึ่งมีความรวดเร็ว เป็นแบบไร้เซิร์ฟเวอร์ และทำงานโดยใช้การสืบค้น SQL มาตรฐาน
  • Amazon Elastic MapReduce (EMR) ประมวลผลข้อมูลขนาดใหญ่โดยใช้เซิร์ฟเวอร์อย่าง Spark และ Hadoop
  •  Amazon Kinesis ช่วยให้สามารถรวบรวมและประมวลผลข้อมูลการสตรีมแบบเรียลไทม์ได้ ใช้การคลิกสตรีมของเว็บไซต์ บันทึกแอปพลิเคชัน และข้อมูลการวัดและส่งข้อมูลทางไกลจากอุปกรณ์ IoT 
  • Amazon OpenSearch ช่วยให้สามารถค้นหา วิเคราะห์ และแสดงภาพข้อมูลระดับเพตะไบต์ได้

นักวิทยาศาสตร์ข้อมูลต้องทำอะไรบ้าง

นักวิทยาศาสตร์ข้อมูลสามารถใช้เทคนิค เครื่องมือ และเทคโนโลยีที่หลากหลาย ซึ่งเป็นส่วนหนึ่งของกระบวนการวิทยาศาสตร์ข้อมูล โดยจะเลือกชุดเทคนิค เครื่องมือ และเทคโนโลยีที่ดีที่สุดตามปัญหา เพื่อผลลัพธ์ที่รวดเร็วและแม่นยำยิ่งขึ้น

หน้าที่และงานในแต่ละวันของนักวิทยาศาสตร์ข้อมูลจะแตกต่างกันไปตามขนาดและข้อกำหนดขององค์กร แม้ว่าโดยทั่วไปแล้วจะเป็นไปตามกระบวนการวิทยาศาสตร์ข้อมูล แต่รายละเอียดอาจแตกต่างกันไป ในทีมวิทยาศาสตร์ข้อมูลขนาดใหญ่ นักวิทยาศาสตร์ข้อมูลอาจทำงานร่วมกับนักวิเคราะห์ วิศวกร ผู้เชี่ยวชาญด้านแมชชีนเลิร์นนิง และนักสถิติคนอื่นๆ เพื่อให้แน่ใจว่าได้ดำเนินกระบวนการวิทยาศาสตร์ข้อมูลครบทุกด้านและบรรลุเป้าหมายทางธุรกิจได้ 

แต่ในทีมขนาดเล็ก นักวิทยาศาสตร์ข้อมูลอาจต้องรับผิดชอบหลายหน้าที่ โดยอาจทำหน้าที่หลายอย่างหรือรับบทบาทที่ทับซ้อนกัน ทั้งนี้ขึ้นอยู่กับประสบการณ์ ทักษะ และภูมิหลังทางการศึกษา ในกรณีนี้ ความรับผิดชอบในแต่ละวันของพวกเขาอาจรวมถึงวิศวกรรม การวิเคราะห์ และแมชชีนเลิร์นนิง ควบคู่ไปกับวิธีการทางวิทยาศาสตร์ข้อมูลหลัก 

นักวิทยาศาสตร์ข้อมูลต้องเผชิญกับความท้าทายใดบ้าง

แหล่งข้อมูลหลายแหล่ง

แอปและเครื่องมือประเภทต่างๆ ก่อให้เกิดข้อมูลหลายรูปแบบ นักวิทยาศาสตร์ข้อมูลต้องล้างและเตรียมข้อมูลให้สอดคล้องกัน ซึ่งอาจเป็นเรื่องที่น่าเบื่อและใช้เวลานาน

การทำความเข้าใจปัญหาทางธุรกิจ

นักวิทยาศาสตร์ข้อมูลต้องทำงานร่วมกับผู้มีส่วนได้ส่วนเสียและผู้จัดการธุรกิจหลายรายเพื่อระบุปัญหาที่ต้องแก้ไข ซึ่งอาจเป็นเรื่องที่ท้าทาย โดยเฉพาะอย่างยิ่งในบริษัทขนาดใหญ่ที่มีหลายทีมซึ่งมีข้อกำหนดที่แตกต่างกันไป

การขจัดอคติ

เครื่องมือแมชชีนเลิร์นนิงไม่ถูกต้องเสมอไป และอาจส่งผลให้เกิดความไม่แน่นอนหรืออคติบางอย่างได้ อคติคือความไม่สมดุลในข้อมูลการฝึกฝนหรือพฤติกรรมการคาดการณ์ของแบบจำลองในกลุ่มต่างๆ เช่น อายุหรือช่วงรายได้ ตัวอย่างเช่น หากมีการฝึกฝนเครื่องมือนี้เกี่ยวกับข้อมูลจากบุคคลวัยกลางคนเป็นหลัก การคาดการณ์ที่เกี่ยวข้องกับคนหนุ่มสาวและผู้สูงอายุอาจมีความแม่นยำน้อยลง สาขาแมชชีนเลิร์นนิงเปิดโอกาสให้จัดการกับอคติโดยตรวจจับอคติและวัดผลในข้อมูลและแบบจำลอง

ขั้นตอนถัดไปสำหรับวิทยาศาสตร์ข้อมูล

คนที่จะเป็นนักวิทยาการข้อมูล (Data Science) ควรมีลักษณะอย่างไร

เริ่มต้นการสร้างใน Console

เริ่มต้นสร้างด้วย AWS ใน AWS Management Console

ลงชื่อเข้าใช้