4 Cool Python Libraries That You Should Know About

08-Oct-21

คัมภีร์เทพ IT

See the original english version Click here!

 

Python Libraries ได้รับความนิยมมากขึ้นเนื่องจากมันช่วยให้เราประหยัดเวลาในการทำงาน แต่คนส่วนใหญ่มักมุ่งเน้นไปที่ Libraries ยอดนิยม แต่ก็ยังมี Libraries ที่ไม่ค่อยมีใครรู้จักอีกเป็นจำนวนมากที่มีประโยชน์เช่นกัน และนี่ก็เป็น 4 Python Libraries สุดเจ๋ง ที่ไม่ค่อยมีใครรู้จัก แต่มีประโยชน์มาก

1. QuickDA

QuickDA เป็น Low-Code Library ที่ใช้งานง่าย ซึ่งมีประโยชน์ในเรื่อง Data Cleaning, Data Exploration และ Data Visualization โดยใช้ Code เพียงแค่ไม่กี่บรรทัด นอกจากนี้ QuickDA ยังช่วยให้คุณประหยัดเวลาในการทำงานได้ และมี Features เจ๋ง ๆ มากมาย หากคุณอยากทราบรายละเอียดเกี่ยวกับ Features ของมัน สามารถอ่านต่อได้ที่นี่ และอีกบทความที่นี่

ส่วนที่ดีที่สุดเกี่ยวกับ QuickDA ก็คือ มันใช้ Libraries ต่าง ๆ เช่น Pandas, Matplotlib, Seaborn และ Plotly ดังนั้น คุณจะรู้สึกคุ้นเคยเมื่อเริ่มใช้งาน อย่างเช่น คุณคงจำฟังก์ชัน .describe() ของ Panda ได้ใช่ไหม QuickDA เองก็สามารถทำได้เช่นกัน แต่ทำได้ดีกว่า

ดังที่เราจะเห็นด้านล่าง มัน Return ข้อมูลทางด้านสถิติเกี่ยวกับ Features แต่ยังรวมถึง Object Type, จำนวนของ Null และ Unique Values รวมทั้ง ความเบ้ (Skewness) ของข้อมูล

มันเป็นเรื่องง่ายและรวดเร็วที่จะได้รับข้อมูล Insights ด้วย QuickDA คุณสามารถได้รับ Overview รวมถึงพวก Warning เกี่ยวกับ Dataset และ Data Visualization ด้วย Code เพียงแค่บรรทัดเดียว คุณไม่จำเป็นต้องพิมพ์ Code ให้ยืดยาวเพื่อให้ได้ Graph เพียงแค่ Graph เดียว

ที่บอกว่า คุณสามารถรับ Warning เกี่ยวกับ Dataset หมายถึง QuickDA สามารถแสดง High Cardinality, High Correlation ระหว่าง Features, High Percentage ของ Missing Values, High Percentage ของ Zeros

QuickDA ยังมี Features เจ๋ง ๆ อีกมากมาย ดังนั้น ขอแนะนำให้คุณลองใช้งานมันดู  

2. ELI5

Machine Learning Models ไม่เพียงเกี่ยวข้องกับวิธีที่ Model สามารถ Predict ได้ถูกต้องเท่านั้น แต่ยังเกี่ยวกับวิธีการ Predict ของมันอีกด้วย บางครั้งเราจำเป็นต้องเข้าใจว่า Features ใดที่ช่วยขับเคลื่อนการ Predict เพื่อปรับ Model ให้เหมาะสมหรืออธิบายมัน ตัวอย่างเช่น ในปัญหาการจำแนกประเภทการประมวลผลของ Natural Language เราจะทราบได้อย่างไรว่า คำใดมีอิทธิพลต่อการ Predict และนั่นก็คือ สิ่งที่ Eli5 เข้ามาช่วยได้อย่างแม่นยำยิ่งขึ้น

Eli5 จะช่วยให้คุณ Debug ตัว Machine Learning Classifiers และอธิบายการ Predict มันรองรับทั้ง Machine Learning Frameworks และ Packages ยอดนิยมหลายตัว เช่น Scikit-Learn, Keras, XGBoost, LightGBM และ CatBoost 

จากตัวอย่างด้านล่างนี้ NLP Project ที่ทำการจัดประเภทการ Review โรงแรม และเราก็ต้องรู้ว่า คำใด ที่มีอิทธิพลต่อ Review ที่ดีและไม่ดีมากที่สุด คุณสามารถดูได้จากด้านล่าง

เราจะเห็นว่า Eli5 จะทำการ Return ตาราง Code ของสี ที่แสดง Features ที่มีน้ำหนักสูงสุดสำหรับ Model เราจะเห็นได้ว่า Model สามารถระบุคำได้อย่างยอดเยี่ยม และส่งผลดีต่อการ Review ในเชิงบวกและการ Review ที่มีคำหยาบคายในเชิงลบ ซึ่งมันดูสมเหตุสมผล

หากคุณชอบ Pandas DataFrame ก็สามารถทำได้ด้วย Code ต่อไปนี้:

Eli5 เป็น Library ที่แนะนำให้ใช้ ซึ่งสามารถช่วยคุณประหยัดเวลาได้ มันยังมี Features อื่น ๆ ที่คุณสามารถดูได้ที่นี่

3. OpenDataSets

สมมติว่า คุณกำลังเริ่ม Project เพื่อฝึกฝนทักษะ Data Analysis และ Machine Learning คำถามคือ คุณจะเริ่มต้นจากตรงไหน คนส่วนใหญ่คงไปที่ Kaggle, ค้นหา Dataset ที่น่าสนใจ, ทำการ Download File, ค้นหา File ใน Folder Downloads และลาก File ไปยัง Folder ที่ Notebook ของคุณกำลังทำงานอยู่ ดูเหมือนจะมีไม่กี่ขั้นตอนใช่ไหม แต่จะดีไหม ถ้าเรามีวิธีที่ดีกว่านี้ นั่นคือ สิ่งที่ OpenDataSets เข้ามาช่วยแก้ปัญหา

OpenDataSets ช่วยให้เรา Download Dataset จาก Notebook มันจะสร้าง Folder ที่มี Dataset ใน Folder เดียวกันกับที่ Notebook ของคุณ Save มันยอดเยี่ยมใช่ไหมล่ะ

ในการใช้งาน คุณเพียงแค่พิมพ์ pip install opendataset ใน Terminal ของคุณ จากนั้น คุณจำเป็นต้อง Import ไปยัง Notebook โดยพิมพ์ import opendatasets as od และตอนนี้คุณก็พร้อมแล้ว Kaggle จะถาม Credentials ของคุณ แต่คุณสามารถได้สิ่งนั้นใน Kaggle Profile Page ของคุณ จากตัวอย่างด้านล่างนี้ เราต้องการ Download “Heart Attack” Dataset และนี่คือ Code ที่คุณจะใช้:

ดังที่คุณเห็นด้านบน Folder ทางด้านซ้ายของรูปภาพ ไม่มี Folder ที่มี Heart Attack Dataset อย่างไรก็ตาม ทันทีที่เรา Run Code มันจะ Download Dataset ให้เรา คุณจะเห็นว่า Dataset จะถูก Unzip ให้ มันง่ายมากเลย จริงไหม

4. Comma

Comma เป็นหนึ่งใน Library ที่คุณไม่รู้ว่าคุณต้องการมัน จนกว่าคุณจะต้องการ Comma จะช่วยให้จัดการกับ CSV Files ได้ง่ายขึ้น ตัวอย่างเช่น คุณสามารถ Extract ข้อมูลจาก CSV Files ใน List หรือ Dictionary ได้อย่างง่ายดาย และนี่ก็คือ วิธีการทำงานของมัน

ในขั้นแรก คุณสามารถติดตั้ง Comma โดยพิมพ์ pip install comma ใน Terminal ของคุณ เท่านี้ก็เรียบร้อย ตอนนี้มา Import Comma และ Dataset ที่เราจะใช้งานกัน

ตารางที่อยู่ด้านบนถูกสร้างขึ้นโดยใช้ Comma เรายังสร้างตารางโดยใช้ Pandas เพื่อใช้สำหรับเปรียบเทียบด้วย ซึ่งพวกมันดูแทบจะเหมือนกันเลย ตอนนี้ สมมติว่าคุณต้องการได้ค่าของ Column ออกมาเป็น List คุณสามารถทำได้ง่าย ๆ ด้วย Code ดังต่อไปนี้:

หากคุณต้องการข้อมูลของ Row เป็น Dictionary คุณสามารถทำได้ง่าย ๆ ด้วยการพิมพ์ table[0]

คุณสามารถทำแบบนี้กับ Pandas ได้เช่นกัน แต่อาจต้องใช้ Code มากกว่านี้ หากคุณจำเป็นต้องทำอบบนี้บ่อย ๆ Comma อาจช่วยคุณประหยัดเวลาของคุณได้ มันเป็น Library ที่แนะนำให้คุณควรเรียนรู้ไว้

สรุป

และนี่ก็เป็นบาง Libraries ที่หลายคนอาจไม่รู้จัก แต่คุณก็ควรเรียนรู้และรู้จักพวกมันไว้บ้าง พวกมันอาจไม่เหมาะสำหรับทุกคน แต่มันจะมีประโยชน์มากตอนที่คุณต้องการใช้งานมันเท่านั้น แต่อย่างไรก็ตาม มันก็อาจช่วยให้คุณสามารถประหยัดเวลาในการทำงานไปได้หลายชั่วโมง

ที่มา: https://towardsdatascience.com/

 

 

รับตำแหน่งงานไอทีใหม่ๆ ด้วยบริการ IT Job Alert

 

อัพเดทบทความจากคนวงในสายไอทีทาง LINE ก่อนใคร
อย่าลืมแอดไลน์ @techstarth เป็นเพื่อนนะคะ

เพิ่มเพื่อน

 

บทความล่าสุด