Project 4 ประเภท ที่ควรมีใน Data Science Portfolio ของคุณ

27-ม.ค.-21

คัมภีร์เทพ IT

จากที่ Data Scientist เริ่มเป็นที่ต้องการมากขึ้น การที่จะได้งานทำในตำแหน่งนี้จึงไม่ใช่เรื่องที่ทำได้ง่ายนัก คุณจำเป็นต้องแสดงให้เห็นว่า คุณมีความสามารถและเหมาะสมที่จะเป็น Data Scientist ซึ่ง Portfolio ก็ถือเป็นส่วนสำคัญในการได้งานเช่นกัน และในบทความนี้จะมาแนะนำ Project 4 ประเภท ที่ควรมีใน Data Science Portfolio ของคุณ

1. Data Cleaning

ในฐานะ Data Scientist คุณอาจใช้เวลาเกือบ 80% ของเวลาทั้งหมดในการ Clean Data ของคุณ คุณไม่สามารถสร้าง Model ที่มีประสิทธิภาพบน Dataset ที่ไม่ Clean และไม่เป็นระเบียบ

เมื่อคุณกำลัง Clean Data ของคุณ อาจต้องใช้เวลาหลายชั่วโมงในการ Research เพื่อหาจุดประสงค์ของแต่ละ Column ใน Dataset บางครั้งคุณอาจใช้เวลาหลายชั่วโมงหรือหลายวันในการ Clean Data ของคุณ แต่กลับมาพบว่า Dataset ที่คุณกำลังวิเคราะห์อยู่นั้น ยังไม่สามารถนำไปใช้ประโยชน์ได้ตามที่ต้องการ จากนั้นคุณก็ต้องเริ่ม Process ใหม่ซ้ำ ๆ อีก

การ Clean Data อาจเป็นงานที่น่าหงุดหงิดและน่ากังวลใจ อย่างไรก็ตามมันเป็นส่วนสำคัญอย่างยิ่งในงานด้าน Data Science และเพื่อให้คุณกังวลน้อยลง คุณจึงควรต้องฝึกฝนมัน

มี Dataset อยู่มากมายที่คุณสามารถนำไปใช้เพื่อฝึกฝนการ Clean Data ได้ เมื่อคุณกำลังมองหาตัวเลือกสำหรับ Dataset ที่จะใช้ใน Data Cleaning Projects คุณจำเป็นต้องตรวจสอบให้แน่ใจว่า:

  • Dataset ถูกกระจายไปยังหลาย Files
  • มีความแตกต่างเล็กน้อย, Null Values และมีวิธีการ Clean ที่เป็นไปได้ที่หลากหลาย
  • ต้องการการ Research หลาย ๆ ครั้ง เพื่อให้เข้าใจอย่างถ่องแท้
  • และที่สำคัญที่สุดคือ ต้องใกล้เคียงกับการใช้งานในชีวิตจริงมากที่สุด

การ Clean Dataset ที่ดีมักจะถูกพบใน Websites ที่รวบรวมและการสรุปผลของ Datasets ซึ่ง Websites ประเภทนี้จะรวบรวม Data จากแหล่งต่าง ๆ โดยไม่ต้องไปหาเอง ซึ่งทำให้พวกมันเป็นตัวเลือกที่ยอดเยี่ยมสำหรับ Cleaning Projects โดยตัวอย่างของ Website ดังกล่าว ก็เช่น:

2. Exploratory Data Analysis

เมื่อ Data ของคุณ Clean และเป็นระเบียบแล้ว คุณจะต้องทำการวิเคราะห์ในเชิงสำรวจข้อมูล (EDA) ซึ่ง EDA เป็นหนึ่งในขั้นตอนที่สำคัญในทุก Data Science Project และประโยชน์ของการทำ EDA มีหลายอย่าง เช่น:

  • ได้ข้อมูลในเชิงลึกของ Datasets
  • ได้พบ Pattern และ Structure พื้นฐาน
  • แยกข้อมูลที่สำคัญออกมาให้
  • มีโอกาสได้ตรวจจับความผิดปกติ

มีเทคนิคมากมายที่เราสามารถปฏิบัติตามเพื่อทำ EDA อย่างมีประสิทธิภาพ ซึ่งส่วนใหญ่เทคนิคเหล่านี้เป็นการใช้ Graphic เข้ามาช่วย เหตุผลก็คือ ควรสังเกต Pattern และความผิดปกติใน Data เมื่อมันถูกแสดงออกมา เทคนิคทางด้าน Graphic ที่ใช้ในการทำ EDA นั้นเป็นสิ่งที่ได้อย่างตรงไปตรงมา เช่น:

  • การ Plot Raw Data เพื่อจะได้เห็นข้อมูลเชิงลึกในเบื้องต้น
  • การ Plot ดูสถิติเบื้องต้นของ Raw Data เช่น Mean และ Standard Deviation
  • Focus ไปที่การวิเคราะห์เฉพาะส่วนของ Data เพื่อให้ได้ผลลัพธ์ที่ดีขึ้น

มี Sources มากมายที่คุณสามารถเรียนรู้พื้นฐานของ EDA และพัฒนาสัญชาตญาณของคุณในการสำรวจและหา Pattern ภายใน Data ของคุณ และนี่ก็คือ Courses ที่น่าสนใจสำหรับหัวข้อนี้ซึ่งเปิดสอนโดย Johns Hopkins University ใน Coursera

3. Data Visualization

เมื่อ Data Scientist ได้สร้าง Data Science Project ประเภทใดขึ้นก็ตาม พวกเขามักจะสร้าง Project เพื่อที่จะเปิดเผยความลับและ Information ที่สามารถช่วยปรับปรุงหรือทำความเข้าใจ Data ได้ในทางใดทางหนึ่ง

โดยส่วนใหญ่ มักจะทำในเชิงวิชาการหรือในเชิงธุรกิจ หนึ่งในทักษะที่ Data Scientist ทุกคนต้องพัฒนา ก็คือ ความสามารถในการทำให้ Data ของพวกมีความน่าสนใจขึ้นมา และวิธีที่ดีที่สุดในการทำให้ Data น่าสนใจก็คือ การแสดงให้เห็นภาพขึ้นมา

มี Datasets เป็นจำนวนมากที่เปิดเผยต่อสาธารณะซึ่งคุณสามารถใช้เพื่อฝึกฝนในเรื่อง Data Visualization, สร้าง Dashboards และเล่าเรื่องราวด้วย Data ของคุณ และตัวอย่าง Datasets ที่น่าสนใจ ได้แก่ FiveThirtyEight, Google’s Dataset Search, Data is Plural และแน่นอนว่าเมื่อพูดถึง Datasets ก็ต้องกล่าวถึง Kaggle ด้วย

เพื่อให้เกิดความโดดเด่น คุณต้องเป็นนักเล่าเรื่องที่ดี Data ของคุณจำเป็นต้องมีประสิทธิภาพในการทำให้มองเห็นภาพ โชคดีที่มีแหล่งข้อมูลมากมายที่คุณสามารถเรียนรู้และฝึกฝนทักษะ Data Visualization ใน Data ของคุณ คุณสามารถอ่านบทความเกี่ยวกับ Visualization หรือลองดู Visualization Courses เหล่านี้

4. Machine Learning

สิ่งหนึ่งที่อาจสร้างหรือทำลายโอกาสในการทำงานด้าน Data Science ก็คือ ทักษะเกี่ยวกับ Machine Learning บางครั้งเมื่อมีมือใหม่เข้ามาใน Field นี้ พวกเขามักจะมองข้ามพื้นฐานแล้วตรงไปที่สิ่งที่อยู่ในระดับ Advance ทันที

แต่...ก่อนที่คุณจะลงลึกในหัวข้อที่อยู่ในระดับ Advance ดังกล่าว คุณจะต้องแน่ใจว่า คุณมีพื้นฐานที่แม่นยำเกี่ยวกับพื้นฐานของ Machine Learning แล้ว การเชี่ยวชาญในสิ่งที่เป็นพื้นฐานนั้นไม่เพียงจะช่วยเสริมสร้างทักษะของคุณ แต่ยังช่วยให้คุณมีความรู้ที่จำเป็นเกี่ยวกับ Concept ในขั้น Advance และ Concept ใหม่ ๆ ได้เร็วและง่ายขึ้น

คุณควรตรวจสอบให้แน่ใจว่า มี Project ที่ครอบคลุมพื้นฐานทั้งหมดของ Machine Learning ทั้งหมด เช่น Regression (Linear, Logistics เป็นต้น), Classification Algorithms และ Clustering ซึ่ง Resources เกี่ยวกับพื้นฐานของ Machine Learning ที่น่าสนใจได้แก่ Chapter 5: Machine Learning Basics ในหนังสือ The Deep Learning และ Machine Learning Course ของ CodeAcademy

และนี่คือไอเดียของ Machine Learning Project ที่ดูเรียบง่ายแต่ทรงพลังอย่างมาก:

ที่มา:  https://towardsdatascience.com/

 

 

รับตำแหน่งงานไอทีใหม่ๆ ด้วยบริการ IT Job Alert

 

อัพเดทบทความจากคนวงในสายไอทีทาง LINE ก่อนใคร
อย่าลืมแอดไลน์ @techstarth เป็นเพื่อนนะคะ

เพิ่มเพื่อน

 

บทความล่าสุด