4 Tools ที่คนทำงานด้าน Data Science ควรรู้จักไว้

28-ก.ย.-22

คัมภีร์เทพ IT

ปัจจุบันแวดวงไอทีและเทคโนโลยีได้รับการพัฒนาอย่างรวดเร็วมาก อีกทั้งมีการสร้างสิ่งที่ช่วยอำนวยความสะดวกให้การทำงานของคนใน Fields ต่าง ๆ มากขึ้น ไม่เว้นแม้กระทั้งแวดวง Data Science ดังนั้น บทความนี้จะมาแนะนำ 4 Tools ที่คนทำงานด้าน Data Science ควรรู้จักไว้ มาให้ได้อ่านกัน เรามาดูกันเลยว่ามี Tools อะไรบ้าง

1. Pandas Profiling

Pandas Profiling ใช้งาน df.describe() Function จาก Pandas และมีการอธิบายรายละเอียดเกี่ยวกับ Function การทำงานอีกด้วย นอกจากนี้ยังให้ข้อมูลสรุปผลที่น่าทึ่งสำหรับ dataframe อย่างรวดเร็วและมีประสิทธิภาพ

Package นี้มีประสิทธิภาพอย่างมากสำหรับ EDA (Exploratory Data Analysis) อีกทั้งยังช่วยให้คุณสามารถสำรวจ Data ของคุณให้เห็นภาพอย่างชัดเจนโดยที่ไม่ต้องเขียน Code — แต่มันก็ทำให้คุณยังคงอยู่ใน Python Environment ของคุณ

คุณสามารถติดตั้ง Package ในเครื่องของคุณได้ด้วยคำสั่งเหล่านี้:

 

 

 

Pandas Profiling สามารถนำเสนอสถิติและข้อมูลสรุปผลขั้น Advance สำหรับ Dataset โดยที่คุณไม่ต้องเขียน Code ให้ยุ่งยากมากนัก

https://pandas-profiling.github.io/pandas-profiling/docs/master/rtd/pages/introduction.html

นี่คือคำอธิบายทั้งหมดเกี่ยวกับ Function การทำงานของ Pandas Profiling ซึ่งได้อธิบายไว้ใน Documentation Website

2. Lux

Lux เป็น Package เดียวในบทความนี้ที่เน้นไปที่การสร้าง Chart เป็นหลัก แทนที่มันจะจัดเตรียม Environment ให้แก่ Users ในการสร้าง Chart ขึ้นมา แต่ Lux กลับมีการอนุญาตให้ Users ส่งผ่าน DataFrame ของพวกเขา จากนั้น System จะทำการสร้างและแนะนำ Charts เพื่อให้ Users สามารถเลือกได้โดยอัตโนมัติ นี่เป็นวิธีการที่รวดเร็วมากในการสร้าง Charts ที่ยอดเยี่ยม โดยเฉพาะอย่างยิ่งหากคุณสร้าง Charts มาตรฐานในรูปแบบที่มีอยู่แล้ว โดยทั่วไปการเขียน Code เพื่อให้ได้ผลลัพธ์แบบเดียวกันกับ Package นี้ อาจทำให้ Workflow ช้าลงได้ ดังนั้น Lux จึงเป็นตัวเลือกที่ดีเยี่ยมเพื่อหลีกเลี่ยงสิ่งนี้

https://github.com/lux-org/lux

หากต้องการ Import Lux ให้ทำตามด้านล่างนี้:

3. Tensorflow

Tensorflow เป็น Machine Learning Package ที่เป็น Open Source ที่ถูกพัฒนาโดย Google มันทำให้ Machine Learning ใน Python สามารถเข้าถึงได้มากขึ้น และมันก็ได้รับการ Update ใหม่ออกมาเรื่อย ๆ

ในการ Import Package ให้ Run คำสั่งต่อไปนี้:

นี่คือตัวอย่างของ Model ง่าย ๆ ที่คุณสามารถ Run ด้วย Tensorflow:

นี่คือ Documentation และ Datasets ฉบับสมบูรณ์สำหรับ Model นี้

นอกจากนี้ Tensorflow ยังจะช่วยให้คุณสร้าง Neural Networks ได้อย่างง่ายดาย และนี่ก็คือ Screenshot จาก Neural Networks Tutorial

และหากคุณต้องการดูคู่มือฉบับเต็ม สามารถดูได้จากที่นี่

4. Mito — A Spreadsheet Extension for Jupyter Lab that Generates Code

Mito เป็น Spreadsheet ที่สามารถแก้ไขได้ ซึ่งคุณสามารถเรียกใช้ใน Python Environment ของคุณได้ ในการแก้ไขแต่ละครั้งที่คุณทำใน Mitosheet จะสร้างสิ่งที่เหมือนกับ Python ดังที่แสดงอยู่ด้านล่าง Mito มักจะถูกใช้งานเป็นหลักโดยคน 2 กลุ่ม กลุ่มแรกคือ Python Users ที่ต้องการประหยัดเวลาในการค้นหาข้อมูลเกี่ยวกับ Syntax ใน Google และต้องการ Generate Code ให้รวดเร็วและมองเห็นได้ชัดเจนขึ้น กลุ่มที่ 2 คือ Spreadsheet Users ที่ต้องการจะเจาะลึกในการวิเคราะห์ Python แต่อาจยังไม่มีความเชี่ยวชาญในการเขียน Code มากนัก

สำหรับ Mito คุณสามารถ:

  • สร้าง Visualizations
  • ดู Summary Statistics
  • Merge Dataset Together
  • Generate Pivot Tables
  • Edit Specific Cell Values
  • Filter และ Sort Datasets
  • Save และ Replay Analyses (macros)
  • ดู Record ที่คุณทำการแก้ไข
  • และอื่น ๆ

from Author

ในการแก้ไขแต่ละครั้ง มีการสร้างสิ่งที่เหมือนกับ Python ขึ้นมา

from Author

ในการ Install Mito ให้ Run คำสั่งเหล่านี้:

จากนั้นเปิด Jupyter Lab และสร้าง Mitosheet:

นี่คือคำแนะนำฉบับเต็มในการ Install

ที่มา: https://medium.com/

 

 

รับตำแหน่งงานไอทีใหม่ๆ ด้วยบริการ IT Job Alert

 

อัพเดทบทความจากคนวงในสายไอทีทาง LINE ก่อนใคร
อย่าลืมแอดไลน์ @techstarth เป็นเพื่อนนะคะ

เพิ่มเพื่อน

 

บทความล่าสุด