คัมภีร์เทพ IT 9 Python Libraries ที่ควรเพิ่มเข้าไปใน Data Science Toolkit ของคุณ

9 Python Libraries ที่ควรเพิ่มเข้าไปใน Data Science Toolkit ของคุณ

04-มิ.ย.-21

คัมภีร์เทพ IT

9 Python Libraries ที่ควรเพิ่มเข้าไปใน Data Science Toolkit ของคุณ

ในขณะที่ Data Science กำลังเติบโตและถูกพัฒนาอย่างต่อเนื่อง จึงเป็นเรื่องธรรมดาที่จะมี Tools ใหม่ ๆ เกิดขึ้นเรื่อย ๆ โดยเฉพาะเมื่อพิจารณาถึงข้อเท็จจริงที่ว่า ในอดีตนั้น Data Science มีอุปสรรคบางอย่างที่กั้นขวางคนที่จะเข้ามา บทความนี้ จะมาแนะนำ 9 Python Libraries ที่ควรเพิ่มเข้าไปใน Data Science Toolkit ของคุณ

สำหรับ Libraries ในบทความนี้ จะแบ่งออกเป็น 3 กลุ่ม คือ Model Deployment, Data Modelling และ Exploratory Data Analysis

Model Deployment

1. Kedro

ไม่น่าแปลกใจเลยที่ Data Science กำลังเข้ามาบรรจบกับ Software Engineering Practices มากขึ้นเรื่อยๆ เนื่องจาก Data Science ต้องพึ่งพา Computer Science อย่างมาก ในขณะที่ Data Science มีการพัฒนาอย่างต่อเนื่อง จึงมีการสร้าง Solutions ต่าง ๆ ขึ้นมาเพื่อช่วยให้สามารถสร้าง Data Science Solutions ได้ง่ายขึ้น ซึ่งหนึ่งใน Solutions เหล่านี้รวมถึง Kedro ด้วย

Kedro เป็น Workflow Tool สำหรับ Data Science Pipeline Development ที่รองรับ Code ที่พร้อมสำหรับ Production และช่วยให้คุณสร้าง Portable Pipelines สำหรับ Data ของคุณ โดยรวมแล้ว มันจะประยุกต์ใช้ Software Engineering Principles เพื่อช่วยให้คุณสร้าง Code ให้เป็นมาตรฐาน สามารถทำซ้ำได้ และเป็น Module ย่อยมากขึ้น

คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับ Kedro ได้ที่นี่

2. Gradio

Gradio จะช่วยให้คุณ Build และ Deploy Web Apps สำหรับ Machine Learning Models ของคุณด้วย Code เพียงแค่ 3 บรรทัด ถึงแม้มันมีจุดประสงค์เดียวกับ Streamlit หรือ Flask แต่ Grado ก็ช่วยให้คุณสามารถ Deploy Model ทำได้รวดเร็วและง่ายขึ้นมาก

Gradio มีประโยชน์ ดังต่อไปนี้:

มันช่วยให้สามารถ Validate Model ได้มากขึ้น โดยเฉพาะอย่างยิ่ง มันจะช่วยให้คุณสามารถ Test Input ต่าง ๆ ใน Model ได้แบบ Interactive
มันเป็นวิธีที่ดีในการทำ Demos
มันง่ายต่อการใช้งานและกระจายออกไป เนื่องจากทุกคนสามารถเข้าถึง Web App ได้ผ่าน Public Link

คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับ Gradio ได้ที่นี่

3. Streamlit

การสร้าง Machine Learning รวมทั้ง Data Science Applications และ Programs อาจเป็นกระบวนการที่ยากและมักจะมีความซับซ้อนเกินไป

Streamlit เป็นอีก Tool ยอดนิยมที่ใช้สร้าง User Interfaces มันเป็น Open-Source Python Library ที่ใช้ในการสร้าง Custom Web Applications ที่มีประสิทธิภาพ สำหรับ Data Science และ Machine Learning นอกจากนี้ Streamlit สามารถเข้ากันได้กับ Libraries and Frameworks หลัก ๆ ได้มากมาย เช่น Latex, OpenCV, Vega-Lite, Seaborn, PyTorch, NumPy, Altair และอื่น ๆ

คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับ Streamlit ได้ที่นี่

Data Modelling

1. PyCaret

มีงานมากมายในด้าน Machine Learning ของ Data Science ที่เราต้องการทำอย่างรวดเร็วและได้รับคำตอบในทันที แต่คุณจะทำแบบนั้นได้ยาก หาก Code ที่ยาวเกินไป อาจทำให้คุณยุ่งยาก

PyCaret เป็น Machine Learning Library แบบ Low-Code ที่จะช่วยให้คุณกระโดดข้ามจาก Idea ไปสู่คำตอบได้โดยตรงด้วยการสร้าง Models อย่างรวดเร็ว นอกจากนี้ยังหมายถึงว่า คุณสามารถทำการทดลอง, หา Missing values, Encode Categorical Data และสร้างสิ่งต่าง ๆ ได้เร็วกว่าปกติมาก

คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับ PyCaret ได้ที่นี่

2. Prophet

Time series ถือเป็นแนวคิดที่สำคัญใน Data Science และมันก็ถูกใช้งานแทบจะตลอดเวลาเพื่อการคาดการณ์ที่เป็นประโยชน์ใน Scenarios ต่าง ๆ เช่น รายได้ของ Retail Store หรือ อัตราการเกิดอาชญากรรมของเมือง โดย Prophet เป็น Library สำหรับ Python ที่ช่วยให้คุณสร้าง Time Series Models และนำ Data ของคุณไปใช้กับพวกมัน เพื่อที่จะได้รับการพยากรณ์ที่ Update ได้โดยอัตโนมัติ

Prophet ได้รับการพัฒนาโดย Facebook และเป็น Tool ที่ทรงพลัง โดยเฉพาะอย่างยิ่งสำหรับการวิเคราะห์ Time Series

คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับ Prophet ได้ที่นี่

Exploratory Data Analysis

1. Pandas Profiling

Pandas Profiling เป็น Python Library ที่ทำให้ Exploratory Data Analysis (EDA) มาตรฐานของคุณเสร็จสมบูรณ์ได้ด้วย Code เพียง 1 บรรทัด โดยพื้นฐานแล้ว มันจะคำนวณการวิเคราะห์หลายอย่าง และแสดงพวกมันในรูปแบบของ Report ซึ่งจะช่วยให้คุณได้เห็นสิ่งต่าง ๆ เช่น ลักษณะของ Dataset, Variable Properties, ความสัมพันธ์ของ Variable, Missing Values, การกระจายตัวของ Data และอื่น ๆ

มันง่ายพอ ๆ กับการ Implement ดังต่อไปนี้:

คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับ Pandas Profiling ได้ที่นี่

2. D-Tale

หากคุณชื่นชอบและเชี่ยวชาญใน Excel คุณน่าจะหลงรัก D-Tale

D-Tale เป็น Python Library ที่แสดง Pandas DataFrame ออกมาให้เห็นภาพได้ง่ายขึ้น แต่มีความเฉพาะเจาะจงยิ่งขึ้น มันจะแสดงออกมาในรูปแบบของ Interactive Pivot Table

จุดเด่นของ D-Tale คือ มี Features มากมายที่คล้ายกับ Pandas Profiling นอกจากนี้ยังมี Features ที่เกี่ยวข้องกับ Excel Pivot Tables อย่างเช่น Conditional Formatting, Sorting Data, Filtering Data เป็นต้น

คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับ D-Tale ได้ที่นี่

3. Autoviz

หาก Pandas Profiling และ D-Tale ยังไม่เพียงพอที่จะทำการ Automate EDA และ Visualizations ของคุณ Autoviz (Automated Visualizations) ก็น่าจะเป็นอีกตัวเลือกที่ดี เช่นเดียวกับชื่อของมัน Autoviz จะทำการเปลี่ยน Data ของคุณให้เป็น สิ่งที่คุณเห็นแล้วเข้าใจได้ง่าย ด้วย Code เพียงไม่กี่บรรทัด

Autoviz สามารถช่วยค้นหา Features ที่สำคัญใน Data ของคุณได้อย่างรวดเร็ว และจะกระจายออกไปทั้งหมดด้วย Code เพียงบรรทัดเดียว สิ่งนี้ทำให้ง่ายต่อการทำงานกับ Datasets ขนาดใหญ่และทำความเข้าใจได้ว่ากำลังเกิดอะไรขึ้น ซึ่งคุณสามารถทำการเปลี่ยนแปลงได้รวดเร็วยิ่งขึ้น ในขณะเดียวกัน คุณก็จะรู้สึกประทับใจกับ Data ที่ Clean

คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับ Autoviz ได้ที่นี่

4. Plotly

มันเป็นเรื่องที่ไม่ต้องสงสัยเลยว่า Graphs และ Demonstrations เป็นส่วนสำคัญของ Data Science การสร้าง Graph ไม่เพียงช่วยให้คุณสามารถเห็นได้ทันทีว่าคุณทำบางอย่างเสียหายหรือผิดพลาดไป แต่ยังช่วยให้คุณเห็นภาพที่ชัดเจนว่า การเปลี่ยนแปลง Code ของคุณ สามารถส่งผลต่อ Data ของคุณได้อย่างไร

Plotly ถือเป็น Tool ที่คุณควรต้องรู้จักสำหรับการสร้าง Visualizations เนื่องจากมันมีประสิทธิภาพ, ใช้งานง่าย และมีประโยชน์อย่างมาก ในการ Interact กับ Visualizations

นอกจาก Plotly แล้วยังมี Dash ซึ่งเป็น Tool ที่ช่วยให้คุณสร้าง Dynamic Dashboards ด้วยการใช้ Plotly Visualizations อีกทั้ง Dash ยังเป็น Web-Based Python Interface ที่ช่วยลดความจำเป็นในการใช้ JavaScript ใน Analytical Web Applications ประเภทนี้ และยังช่วยให้คุณสามารถ Run Plots เหล่านี้ได้ ทั้งแบบ Online และ Offline

คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับ Plotly ได้ที่นี่

ที่มา: https://towardsdatascience.com/

รับตำแหน่งงานไอทีใหม่ๆ ด้วยบริการ IT Job Alert

อัพเดทบทความจากคนวงในสายไอทีทาง LINE ก่อนใคร
อย่าลืมแอดไลน์ @techstarth เป็นเพื่อนนะคะ

บทความล่าสุด

บทความ IT เจ๋งๆ

9 Python Libraries ที่ควรเพิ่มเข้าไปใน Data Science Toolkit ของคุณ

ประเภทบทความ