5 Data Science Tools ที่นิยมถูกใช้งาน

31-ส.ค.-18

คัมภีร์เทพ IT

ปัจจุบัน เมื่อพูดถึง Data Science เชื่อว่าทุกคนคงรู้จักกันดีอยู่แล้ว และคงไม่มีใครคิดว่าเป็นเรื่องใหม่อีกต่อไป วันนี้เรามาดูกันดีกว่าว่า 5 Data Science Tools ที่เป็นที่นิยมและมีการใช้งานกันบ่อยๆ มีอะไรบ้าง ติดตามจากบทความนี้ได้เลย

1. Python

เมื่อพูดถึง Data Science แล้ว Python ถือเป็น Tool หนึ่งที่เป็นที่นิยมใช้ในกลุ่มนักวิทยาศาสตร์ข้อมูล (Data Scientists) ในการสำรวจของ KDnuggets Analytics / Data Science Software ในผู้ใช้ 2,052 ราย ภาษาได้รับการกล่าวถึงเป็นเครื่องมืออันดับต้นๆ จาก 65.6% ของผู้ตอบแบบสอบถาม 
Alexander Osipenko (Lead Data Scientist ที่ Cindicator Inc.) กล่าวว่า เขาใช้ Python ทั้งส่วน Data Science และ Back end ซึ่งมันช่วยในเรื่อง Development และ Machine Learning Model Deployment ได้อย่างรวดเร็ว และมันก็เป็นเรื่องสำคัญมากเพื่อให้แน่ใจเกี่ยวกับ Security ของ Tools ที่ใช้ในการ Implement
ส่วน Katie Malone (นักฟิสิกส์อนุภาค ที่ย้ายไปเป็น Co-Leading ในทีม Data Science Research ที่ Civis Analytics Inc.) กล่าวว่า ในฐานะนักฟิสิกส์คนหนึ่ง Python ถือเป็นหนึ่งในตัวเลือกของการทำงานด้าน Data Science และตอนนี้ก็ยังคงใช้งานมันอยู่ สำหรับเธอ หนึ่งในสิ่งที่น่าสนใจมากคือ  Python มี Open Source Ecosystem ที่แข็งแกร่ง ทำให้เธอสามารถเข้าถึง Python Libraries ต่างๆมากมายในด้าน Data Science ซึ่งมันช่วยในการแก้ปัญหาที่ต้องใช้การวิเคราะห์ที่เฉพาะเจาะจงได้มากขึ้น ขณะที่ Leslie De Jesus (Innovation Director และ Lead Data Scientist ที่ Wovenware) ก็เห็นพ้องกันกับ Katie โดยเธอกก็ใช้ Python Libraries รวมทั้ง Scrapy สำหรับ Web Scraping เพื่อให้สามารถ Extract Data จาก Internet และ Upload มันลงใน Data Frame เพื่อการวิเคราะห์ นอกจากนี้ยังใช้ Libraries อื่นอย่าง Pandas และ NumPy เพื่อการวิเคราะห์ข้อมูลและจัดการเรื่อง Matrix โดยทั้ง 2 Tools นี้ช่วยให้สร้าง Code ได้เร็วขึ้นและ NumPy ก็มี Broadcasting Function ด้วย ขณะเดียวกัน Niranjan Krishnan (Head of Data Science and Innovation ที่ Tiger Analytics) ก็สนับสนุนเช่นกันว่า ที่บริษัทมีการใช้ Python ในการพัฒนางานด้าน Marketing Campaigns และ Online Advertising ด้วย
แต่ Python ก็มีข้อเสียอยู่นิดหน่อยคือ มันเป็น Code-based และต้องใช้ทักษะ Programming และการคิดวิเคราะห์ในระดับที่ค่อนข้างสูงสักหน่อย อย่างไรก็ตาม Knime และ Alteryx เป็นทางเลือกที่ดีซึ่งเป็น Menu-driven และไม่ใช้ Code ในการทำงานมากนัก ซึ่งสามารถใช้ได้ทั้ง Data Scientists และ Business Analysts 

2. R

R ก็เป็นอีกภาษา Programming หนึ่งที่มีการใช้งานกันมากในแวดวง Data Science จะว่าไปแล้วมันดูจะใช้งานง่ายกว่า และใช้ได้หลากหลายวัตถุประสงค์มากกว่า Python เล็กน้อย จาก KDnuggets Poll ภาษา R อยู่ในอันดับ 3 ด้วย 48.5% ของผู้ตอบแบบสอบถาม ทำให้มันติดอยู่ใน Tools ที่ได้รับความนิยมในแวดวง Data Science 
Malone จาก Civis Analytics กล่าวว่า ภาษา R มีความสามารถที่ซับซ้อนในเรื่อง Machine Learning และ Statistics และมันก็มักเป็นอีกทางเลือกที่ในทีมของเอมักเลือกใช้นอกเหนือจาก Python 
ขณะที่ Jon Krohn (Chief Data Scientist ที่ Untapt Inc.) ก็กล่าวว่า R เป็นภาษาที่เขาใช้ในการดู Data อย่างพวกสถิติ เช่น Mean, Median และ Quartiles, สร้าง Graph ต่างๆ ได้อย่างรวดเร็ว รวมทั้งสร้าง Test data sets ซึ่งง่ายต่อการ Share และ Export ไปเป็น CSV format อีกด้วย

3. Jupyter Notebook

สำหรับเรื่อง Data Visualization และ Data Communication นั้น มี Data Scientists หลายๆ ทีมที่ยกให้ Jupyter Notebook เป็นหนึ่งใน Data Science Tools 
Sofus Macskássy (Vice President of Data Science ที่ HackerRank) กล่าวว่า Jupyter Notebook รองรับการใช้งานทั้งภาษา R และ Python ด้วย Library ต่างๆ สำหรับ Data Access และ Visualizations อีกทั้ง Tool ตัวนี้ยังช่วยให้ทีมสามารถ Export Workbooks เพื่อนำเสนอได้อย่างง่ายดายและกลายเป็นมาตรฐานของ Data Science ไปแล้ว 
เมื่อกล่าวถึง ความยืดหยุ่นของ Jupiter ในการใช้ Libraries ที่เป็นที่นิยมมากที่สุดคือ a perk ของ Michael Golub (Senior Vice President of Digital and Analytics Services ที่ Anexinet) โดย Golub กล่าวว่า Jupyter Notebook เป็นจุดเริ่มต้นสำหรับการทำงานแบบร่วมมือกันใน Data Science Project และมีประโยชน์อย่างมากเมื่อต้องการความมีส่วนร่วมในเรื่องที่ต้องศึกษาเรียนรู้ร่วมกัน 
นอกจากนี้ Untapt's Krohn กล่าวว่า ที่ Untapt เองมีการใช้ Jupyter Notebook ในการเขียน Prototype Code รวมไปถึงการพิมพ์ Tables ของข้อมูล, Summary Metrics และ Charts

4. Tableau

เพื่อลดช่องว่างระหว่าง ทีม Data Science กับการวิเคราะห์ที่มุ่งเน้นด้าน Business, Tableau Software ถือเป็นตัวเชื่อมที่ดีในเรื่องนี้ 
Pooja Pandey (Senior Executive for SEO ที่ Entersoft Security) กล่าวว่า มันเป็น Tool ที่ยอดเยี่ยมมากสำหรับ Data Scientists รวมทั้งมือใหม่ที่ทำงานด้าน Data Science, Tableau เป็น Tool สำหรับสร้าง Dashboard ได้อย่างรวดเร็วเพื่อให้เห็นข้อมูล Insight และข้อมูลเชิงวิเคราะห์โดยใช้ Leaning curve ที่สั้น 
ขณะที่ Sophie Miles (CEO ของ QuotesAdvisor.com) ก็กล่าวว่า มันเป็น Tool สำหรับ Data Visualization ที่เร็วที่สุดและเป็น Tool สำหรับ Business Intelligence ที่มีวิวัฒนาการ ซึ่งมันง่ายในการใช้งานและง่ายต่อเรียนรู้เป็นอย่างมาก หน่วยงานต่างๆ ในบริษัทก็สามารถ Customize Report ที่ละเอียดถี่ถ้วน ได้ตามที่แต่ละฝ่ายต้องการ และด้วยความที่ Tableau มี Dashboard ที่ยืดหยุ่นสูงมาก ทำให้คนที่ทำงานสามารถเอาเวลาไปทำงานที่มีประโยชน์เพิ่มขึ้นแทนที่จะใช้เวลาทำ Report 

5. Keras

สำหรับ Wei Lin (Chief Data Scientist ของ CTO office ที่ Hitachi Vantara), Tools ของ Data Science ที่เข้าใช้งานมากที่สุดคือ Python, R และ Keras โดยสำหรับ Python และ R ก็ใช้เพื่อวัตถุประสงค์ต่างๆ ตามที่ได้กล่าวไปแล้วในข้อแรกๆ ส่วน Keras นั้นเป็น Open Source Neural Network Library ที่ถูกเขียนขึ้นใน Python เพื่อให้สามารถทดลองกับ Deep Neural Networks และมันยังทำงานได้บน TensorFlow, Microsoft Cognitive Toolkit หรือ Theano สำหรับจุดที่ลงตัวและน่าสนใจของ Keras คือ การจับคู่ pattern ที่มีมิติอันหลากหลายได้
Osipenko กล่าวว่า หลักในการเพิ่ม Tools ใหม่ๆ คือต้องดูว่าจะช่วยทำให้ชีวิตของ Data Scientist ง่ายขึ้นมากแค่ไหน สำหรับ Keras ซึ่งเป็น Open-Source นั้น ช่วยให้ Process ในการพัฒนา Neural Networks เร็วขึ้นมาก ใครก็ตามที่เขียน Neural Networks บน TensorFlow จะเข้าใจสิ่งนี้ และแม้ว่า Keras จะไม่ Perfect แต่มันก็สามารถเปลี่ยนแปลง Development Process และทำให้ Developer คนอื่นๆ สามารถอ่าน Code ของคุณได้ง่ายขึ้น

ที่มา:  https://searchbusinessanalytics.techtarget.com/

 

 

รับตำแหน่งงานไอทีใหม่ๆ ด้วยบริการ IT Job Alert

 

อัพเดทบทความจากคนวงในสายไอทีทาง LINE ก่อนใคร
อย่าลืมแอดไลน์ @techstarth เป็นเพื่อนนะคะ

เพิ่มเพื่อน

 

บทความที่เกี่ยวข้อง