3 ขั้นตอน สำหรับทำ Data Analysis Project ที่ใช้ SQL

28-ธ.ค.-22

คัมภีร์เทพ IT

ในบทความนี้ จะมานำเสนอ 3 ขั้นตอน สำหรับทำ Data Analysis Project ที่ใช้ SQL ซึ่งวัตถุประสงค์ของ Projects เหล่านี้คือการใช้ SQL (MySQL) เพื่อวิเคราะห์ข้อมูลเกี่ยวกับ Data Science Job Salaries จากนั้นใช้ Google Data Studio เพื่อ Visualize ข้อมูลเหล่านั้น

1. Cleaning the Data

สำหรับ Dataset ที่จะใช้ใน Project นี้ จะเกี่ยวกับเงินเดือนของตำแหน่งงาน Data Science โดยคุณสามารถดูข้อมูลทั้งหมดเกี่ยวกับคอลัมน์ที่อยู่ใน Dataset ได้ที่ภาพด้านล่างนี้:

คราวนี้ เราจะมาเจาะลึกลงไปใน Dataset ของเรา แล้วดูว่า เราจะพบสิ่งที่ผิดปกติกับพวกมันหรือไม่

เมื่อทำ Query ด้านบนแล้ว เราจะเห็น Table ของเราได้ดังนี้

เราสามารถดูได้เพียงไม่กี่แถว เนื่องจาก Dataset มีข้อมูลเป็นจำนวนมาก แต่เราก็พอจะสามารถเห็นว่ามีบางอย่างแปลก ๆ ในบางคอลัมน์ ที่ชื่อ "MyUnknownColumn" ซึ่งดูแล้วไม่ค่อยถูกต้องนัก

ดังนั้น เรามาเปลี่ยนชื่อมัน เป็น “employee_id” ซึ่งมันดูเข้าท่ากว่า

แน่นอนว่า มันดูดีขึ้นกว่าเดิม

ต่อไป เราลองมาดู Data Types กัน เพราะ Data Types ที่ไม่ถูกต้องนั้น อาจทำให้เกิดปัญหาร้ายแรงในการวิเคราะห์ข้อมูลในอนาคตได้

การใช้ DESCRIBE จะทำให้เราสามารถเห็น Data Types ของคอลัมน์ทั้งหมดได้

คราวนี้เรามาหาค่า NULL กัน โดยเราจะค้นหาค่า NULL คอลัมน์ต่อคอลัมน์

เราทำสิ่งนี้ เพื่อให้ไม่มีค่า NULL ใน Dataset ของเรา (ซึ่งนับว่าเป็นเรื่องที่ดี) และตอนนี้ เราก็พร้อมสำหรับการทำ Exploratory Data Analysis แล้ว

หมายเหตุ: นี่เป็นเพียงข้อสังเกต คือ กระบวนการ Data Cleaning สามารถครอบคลุมในขั้นตอนอื่น ๆ ได้มากมาย แต่เนื่องจากเราแยก Dataset จาก Source ที่มีการ Clean Data ได้ดีมาประมาณหนึ่งอยู่แล้ว จึงทำให้เราไม่จำเป็นต้องเน้นในส่วนนี้มากนัก

2. EDA (Exploratory Data Analysis)

ในการสำรวจข้อมูลครั้งแรก มาดูกันว่า เราจะต้องวิเคราะห์ข้อมูลจำนวนเท่าใด

จะเห็นว่า เรามีข้อมูลอยู่ทั้งหมด 607 แถว ที่จะต้องวิเคราะห์

เรารู้ว่าเรามีคอลัมน์ที่ชื่อว่า job_title ที่จะอธิบายชื่อของตำแหน่งงานของคนทำงาน คราวนี้ เรามาดูตำแหน่งงานที่ได้รับความนิยมสูงสุด 5 อันดับแรกใน Dataset ของเรากัน

จะเห็นว่า ตำแหน่งงานที่ได้รับความนิยมสูงสุดใน Dataset ของเรา ได้แก่ Data Scientist, Data Engineer, Data Analyst, ML Engineer และ Research Scientist

ต่อไป มาดูจำนวนคนต่อระดับของประสบการณ์และเงินเดือนโดยเฉลี่ยของแต่ละระดับกัน

ข้อมูลนี้อธิบายว่า แต่ละตัวย่อ มาจากอะไร ซึ่งมีอยู่ในช่วงต้นของบทความนี้

จากข้อมูล เราจะเห็นว่า คนทำงานในระดับ Seniors ถือเป็นกลุ่มคนส่วนใหญ่ใน Dataset ของเรา

เรายังสังเกตเห็นอีกว่า เมื่อคุณมีประสบการณ์ทำงานมากขึ้น เงินเดือนโดยเฉลี่ยก็เพิ่มขึ้นอย่างมีนัยสำคัญ

ต่อไป เราจะมาหาจำนวนอัตราการทำงานแบบ Remote กัน โดยพบว่ามี คนทำงานมากกว่าครึ่งในสาขา Data Science ที่ทำงานแบบ Remote

ใน Query ด้านบนนี้ เราจะเห็นว่าเงินเดือนโดยเฉลี่ย มีรูปแบบอย่างไร ในช่วงหลายปีที่ผ่านมา

สุดท้าย มาดูประเภทของคนทำงาน และเงินเดือนโดยเฉลี่ย ของพวกเขากัน

จะเห็นว่า คนทำงานส่วนใหญ่ทำงานรูปแบบ Full-Time

เงินเดือนโดยเฉลี่ยของคนทำงานที่ทำงานในรูปแบบสัญญาจ้าง จะมีอัตราที่สูงกว่ารูปแบบอื่น

3. Visualization

จากที่เห็นด้านล่างนี้ ถูกทำขึ้นโดยใช้ Google Data Studio

ด้วย Dashboard ข้างต้น เราสามารถเห็นว่า เงินเดือนโดยเฉลี่ยมีแนวโน้มเป็นอย่างไรในช่วงหลายปีที่ผ่านมา, จำนวนของคนทำงานที่ทำงานแบบ Remote 100% เมื่อเทียบกับจำนวนคนทำงานทั้งหมด, เงินเดือนโดยเฉลี่ยในแต่ละระดับของประสบการณ์ทำงาน และจำนวนคนทำงานในแต่ละประเภทของประสบการณ์ทำงาน

ที่มา: https://medium.com/

 

 

รับตำแหน่งงานไอทีใหม่ๆ ด้วยบริการ IT Job Alert

 

อัพเดทบทความจากคนวงในสายไอทีทาง LINE ก่อนใคร
อย่าลืมแอดไลน์ @techstarth เป็นเพื่อนนะคะ

เพิ่มเพื่อน

 

บทความล่าสุด