Data Scientists ควรเรียนรู้ภาษา Programming ใดก่อนดี

22-ต.ค.-19

คัมภีร์เทพ IT

Data Scientist เป็นอีกหนึ่งสายอาชีพที่เป็นที่ต้องการในยุคที่มีข้อมูลเกิดขึ้นอย่างมากมายมหาศาล และแน่นอนว่าการที่จะต้องจัดการกับข้อมูลมากมายเหล่านั้น จะต้องใช้เครื่องมือต่าง ๆ เข้ามาช่วย ซึ่งรวมถึงภาษา Programming ด้วย วันนี้เรามาหาคำตอบกันว่า หากคุณสนใจหรือต้องการทำงานเป็น Data Scientists ควรเรียนรู้ภาษา Programming ใดก่อนดี

Top 3 ภาษา Programming สำหรับงาน Data Science

Genevieve Hayes กล่าวว่า เธอได้สำรวจดูงาน Data Science นับ 100 งาน จาก 4 ประเทศ คือ Australia, Canada, UK และ USA ใน LinkedIn ระหว่างวันที่ 22 เมษายน ถึง 5 พฤษภาคม 2019 พบว่า ตำแหน่งงานที่ประกาศอยู่นี้เป็นภาพรวมของ ประเภทของนายจ้าง, ขนาด , Industry และ Level ของตำแหน่งงาน แต่ไม่รวมในระดับผู้จัดการ ซึ่งก่อนหน้านี้เธอใช้การวิเคราะห์แบบนี้ เพื่อที่จะระบุว่าทักษะสำคัญหลัก ๆ ที่ผู้จ้างงานต้องการในงาน Data Science มีอะไรบ้าง ซึ่งยังไม่รวมภาษา Programming และเทคโนโลยีที่ใช้

แต่ตอนนี้เธอมุ่งมั่นที่จะค้นหาว่า Top 10 ภาษา Programming สำหรับงาน Data Science ที่นายจ้างกำลังประกาศหาอยู่ มีอะไรบ้าง ซึ่งแสดงใน Chart ด้านล่าง

คุณจะเห็นว่า Python, R และ SQL นั้น เป็น 3 ภาษาที่เป็นที่ต้องการมากที่สุดสำหรับงาน Data Science ซึ่งไม่ใช่เรื่องที่น่าประหลาดใจอะไรนัก

แต่อย่างไรก็ตาม มันจะยิ่งน่าสนใจ หากเราจะทำการวิเคราะห์ในขั้นต่อไป โดยพิจารณาถึงความต้องการของแต่ละภาษาตาม Level ของตำแหน่งงาน

จากงานที่โฆษณาอยู่นับ 100 งาน เมื่อพิจจารณาดูแล้วพบว่า มี 15 งาน ที่อยู่ใน Entry Level (เช่น งานที่ระบุถึง “Junior”, “Graduate”, “Intern” เป็นต้น) มี 44 งาน ที่อยู่ใน Mid-Level และอีก 44 งาน อยู่ใน Senior Level (เช่น งานที่ระบุถึง “Senior”, “Principal”, “Lead” เป็นต้น)

ใน Chart ด้านล่าง จะแสดงให้เห็นถึงว่า ยิ่งทำงานในระดับอาวุโสเพิ่มขึ้น ความสามารถในการเขียน Program ในภาษา Python หรือ R ถือว่ามีความสำคัญมากขึ้น แต่ความสามารถในการเขียน Program ใน SQL กลับเป็นเรื่องที่สำคัญน้อยลง

สิ่งนี้ชี้ให้เห็นว่า ในระยะยาว คุณควรจะเรียนรู้ภาษา R หรือ Python มากกว่า SQL

คำถามที่น่าสนใจคือ ทำไมถึงเป็นเช่นนั้น? เพราะอะไร SQL ถึงมีความสำคัญที่น้อยลงสำหรับ Senior Data Scientists

ความแตกต่างหลัก ๆ ระหว่าง SQL กับ R และ Python

ทั้ง R และ Python เป็นภาษา Programming สำหรับงานทั่วไป (General Purpose Programming Languages) ที่มี Add-on Packages ที่ให้ User สามารถทำงานตาม Technical Requirements ได้สูงสุดของ Data Science รวมถึงการวิเคราะห์ทางสถิติและ Machine Learning

เมื่อ Level ของงานสูงขึ้น ความสามารถในเรื่องของ Machine Learning และการวิเคราะห์ทางสถิติ ก็ยิ่งมีความสำคัญสูงขึ้น ดังนั้นจึงเป็นเหตุผลที่ว่า การรู้ภาษา Programming ที่จำเป็นต่อการทำงานเหล่านี้ก็มีความสำคัญมากขึ้น

ในทางตรงกันข้าง SQL ซึ่งเป็นภาษา Database ที่ถูกออกแบบมาโดยเฉพาะสำหรับการ Query และการจัดการข้อมูลใน Relational Databases

โดยทั่วไปแล้ว นายจ้างต้องการคนที่มีทักษะ SQL เนื่องจากพวกเขามักเก็บข้อมูลไว้ใน Relational Databases และต้องการให้ Data Scientists สามารถเข้าถึงได้ แต่เมื่อคุณสามารถเข้าถึงข้อมูลที่คุณต้องการเพื่อใช้ในงานบางอย่างแล้ว บทบาทของ SQL ก็จะลดลง

ถึงแม้ว่า Data Scientists ในทุก Level ควรจะสามารถจัดการกับข้อมูลของได้ แต่ทักษะเหล่านี้จะมีความสำคัญที่น้อยลงไป เมื่อทำงานอยู่ในระดับที่ Senior มากขึ้น ในองค์กรที่มีขนาดใหญ่มากพอ Senior Data Scientists อาจมี Junior Data Scientists เป็นจำนวนมาก ที่ช่วยกรองและจัดเตรียมข้อมูลให้พวกเขา ดังนั้น พวกเขาจึงสามารถ Focus ไปยังเนื้องานที่พวกเขามีศักยภาพในการเพิ่มมูลค่าให้ได้มากที่สุด อย่างการพัฒนา Model (Model Development)

ดังนั้น R และ Python จึงถูกมองว่าเป็น 2 ภาษา Programming ของ Data Science อย่างแท้จริง ในขณะที่ SQL มีไว้เพื่อช่วยในส่วนของการ Support (นอกเหนือจากนั้น ยังมีหลาย Packages ที่เขียนขึ้นสำหรับทั้งภาษา Python และ R ที่อนุญาตให้ Users สามารถเรียกใช้ SQL Queries จากภาษาเหล่านี้)

แล้วจะเลือก R หรือ Python ดีล่ะ?

อันที่จริง หากคุณวางแผนที่จะทำงานในสายอาชีพทางด้าน Data Science คุณควรเรียนรู้ทั้ง 3 อย่างคือ Python, R และ SQL

การเรียนรู้ภาษาทั้ง 3 ไม่เพียง เพิ่มโอกาสในเรื่องการจ้างงาน และโอกาสในการ Interact กับ Data Scientists คนอื่น ๆ เท่านั้น แต่ยังช่วยให้คุณได้รับประโยชน์จากจุดแข็งที่แตกต่างกันของแต่ละภาษา และสามารถเลือกภาษาที่เหมาะสมที่สุดสำหรับแต่ละงานอีกด้วย

อย่างไรก็ตาม หากคุณกำลังมองที่จะเปลี่ยนไปทำงานด้าน Data Science และต้องการเริ่มงานในด้าน Data Science โดยเร็วที่สุดแล้วละก็ คุณควรเลือกที่จะเรียนรู้สักหนึ่งภาษาก่อนแล้ว พยายามให้เก่งในภาษานั้น รวมทั้งเรียนรู้วิธีการใช้งานเพื่อที่จะได้ทำงานที่หลากหลายได้อย่างมีประสิทธิภาพ, จากนั้นก็เรียนรู้วิธีทำงานในส่วนที่ย่อย ๆ ลง (หรืองานในกลุ่มเดียวกัน) ในหลากหลายภาษา

นอกจากนี้ พวกหลักการที่รองรับภาษา Programming ส่วนใหญ่ (เช่น Functions, For และ While Loops, If/Else Statements และ Variable Types) อาจมีความเป็นอเนกประสงค์ที่มากขึ้นหรือน้อยลง ดังนั้น เมื่อคุณเชี่ยวชาญสัก 1 ภาษา คุณจะพบว่ามันง่ายมากที่จะย้อนกลับไปแล้วเลือกภาษาที่ 2 (หรือ 3) ได้ในภายหลัง

จากที่ได้กล่าวถึงในหัวข้อก่อนหน้านี้ หากคุณต้องเลือกสัก 1 ภาษาเพื่อเป็นจุดเริ่มต้น นายจ้างอาจต้องการแนะนำให้เรียนรู้ภาษา Python ก่อน

แต่ความต้องการของนายจ้างนั้น ก็ไม่ได้เป็นเพียงสิ่งเดียวที่ควรพิจารณาเกี่ยวกับการเลือกภาษา Programming สำหรับ Data Science ยังมีคำถามอื่น ๆ ที่คุณควรถามตัวเอง ก่อนที่จะตัดสินใจในขั้นสุดท้าย เช่น :

  • ภาษา Programming ใด ที่คนอื่นเขากำลังใช้งานกันอยู่
  • คุณจะใช้ภาษานั้นเพื่อทำงานอะไร/ประเภทไหน
  • แล้วอนาคตจะเป็นอย่างไร
  • ภาษา Programming ใด ที่คุณชอบมันมากที่สุด

สรุป

ในบทความนี้เราได้ ลงลึกเกี่ยวกับการตัดสินใจเลือกเรียนรู้ภาษา Programming สักภาษา รวมทั้งกล่าวถึงปัจจัยที่ต้องพิจารณาที่ต้องเลือกระหว่าง R กับ Python แต่สุดท้าย หากคุณยังไม่สามารถตัดสินใจได้ว่าจะเลือกภาษาไหนดี ก็อาจใช้วิธีโยนเหรียญเอาก็ได้ ทั้งภาษา R และ Python ถือเป็นภาษาที่ยอดเยี่ยมสำหรับ Data Science และคิดว่าทั้ง 2 ภาษานี้จะยังคงได้รับความนิยมอยู่อีกนาน

ที่มา:  https://towardsdatascience.com/

 

ดูตำแหน่งงานที่ใช้ทักษะภาษา Python, SQL ได้ที่นี่

 

รับตำแหน่งงานไอทีใหม่ๆ ด้วยบริการ IT Job Alert

 

อัพเดทบทความจากคนวงในสายไอทีทาง LINE ก่อนใคร
อย่าลืมแอดไลน์ @techstarth เป็นเพื่อนนะคะ

เพิ่มเพื่อน

 

บทความล่าสุด