8 Python Packages ที่คนทำงานสาย Data ควรรู้จักไว้

19-ส.ค.-22

คัมภีร์เทพ IT

ปัจจุบัน Python กำลังได้รับความนิยมเพิ่มขึ้นช้า ๆ แต่มั่นคง จนกลายเป็น Ecosystem ที่มี Packages เฉพาะทางอยู่เป็นจำนวนมากสำหรับการประมวลผลและวิเคราะห์ข้อมูล และในบทความนี้จะมาแนะนำ 8 Python Packages ที่คนทำงานสาย Data ควรรู้จักไว้ รวมทั้งมีคำแนะนำสำหรับการ Install อีกด้วย

1. NumPy

NumPy ซึ่งเป็นผลงานที่สร้างสรรค์โดย Travis Oliphant ถือเป็นเครื่องมือสำหรับกสนวิเคราะห์ที่แท้จริงของภาษา Python มันช่วยให้ Users สามารถใช้งาน Arrays แบบหลายมิติได้ พร้อมด้วยชุด Functions ขนาดใหญ่เพื่อให้สามารถดำเนินการทางด้านคณิตศาสตร์ที่หลายหลากบน Arrays เหล่านั้น ซึ่ง Arrays ก็คือ กลุ่มของ Data ที่จัดเรียงตามมิติต่าง ๆ ซึ่งใช้ Vectors และ Matrices ทางคณิตศาสตร์ Arrays ไม่ได้มีประโยชน์เพียงแค่สำหรับการจัดเก็บ Data เท่านั้น แต่ยังมีประโยชน์สำหรับ Matrix Operations ที่รวดเร็ว (vectorization) อีกด้วย ซึ่งจำเป็นอย่างยิ่งเมื่อคุณต้องการแก้ปัญหาเฉพาะกิจเกี่ยวกับ Data Science 

Website: http://www.numpy.org/

คำสั่งสำหรับการ Install: pip install NumPy

2. SciPy

อันที่จริงมันเป็น Project ดั้งเดิมของ Travis Oliphant, Pearu Peterson และ Eric Jones โดย SciPy ช่วยทำหน้าที่ของ NumPy ให้สมบูรณ์ยิ่งขึ้น ด้วยการนำเสนอ Scientific Algorithms ที่หลากหลายมากขึ้นสำหรับ Linear Algebra, Sparse Matrices, Signal & Image Processing, Optimization, Fast Fourier Transformation และอื่น ๆ อีกมากมาย

Website: http://www.scipy.org/

คำสั่งสำหรับการ Install: pip install scipy

3. Pandas

Pandas Package จะจัดการกับทุกสิ่งที่ NumPy และ SciPy ไม่สามารถทำได้ ต้องขอบคุณ Object Data Structures, DataFrames และ Series เฉพาะตัวของมัน ที่ทำให้ Panda สามารถช่วยคุณในการจัดการกับ Tables ของ Data ประเภทต่าง ๆ ที่ซับซ้อน (ซึ่งเป็นสิ่งที่ Arrays ของ NumPy ไม่สามารถทำได้) และ Time Series ด้วยการสร้างสรรค์ของ Wes McKinney จึงทำให้คุณสามารถโหลด Data จาก Sources ต่าง ๆ ได้อย่างง่ายดายและราบรื่น จากนั้นคุณก็สามารถจัดการกับ Elements ที่ขาดหายไป, Add, Rename, Aggregate, Reshape รวมทั้งแสดง Data เหล่านี้ตามรูปแบบที่คุณต้องการ 

Website: http://pandas.pydata.org/

คำสั่งสำหรับการ Install: pip install pandas

4. Scikit-learn

แต่แรกมันเป็นเพียงส่วนหนึ่งของ SciKits (SciPy Toolkits) ซึ่ง Scikit-learn ถือเป็นแกนหลักของการ Operations ของ Data Science บน Python มันมีแทบทุกสิ่งที่คุณต้องการในแง่ของ Data Preprocessing, Supervised & Unsupervised Learning, Model Selection, Validation และ Error Metrics สำหรับ Scikit-learn นั้น เริ่มต้นในปี 2007 โดยเป็นโครงการ Google Summer of Code ของ David Cournapeau และตั้งแต่ปี 2013 เป็นต้นมา นักวิจัยจาก INRA (French Institute for Research in Computer Science and Automation) ก็ได้เข้ามาครอบครองโครงการนี้แทน

Website: http://scikit-learn.org/stable/

คำสั่งสำหรับการ Install: pip install scikit-learn

5. Matplotlib

Matplotlib ถูกพัฒนาขึ้นโดย John Hunter มันเป็น Library ที่มี Building Blocks ทั้งหมดที่จำเป็นเพื่อการสร้าง Plots จาก Arrays และเพื่อแสดงผลแบบ Interactive คุณสามารถค้นหา Plotting Frameworks ที่เหมือน MATLAB ทั้งหมดได้ใน pylab module ได้

Website: http://matplotlib.org/

คำสั่งสำหรับการ Install: pip install matplotlib

อีกทั้ง คุณยังสามารถ Import สิ่งที่คุณต้องการเพื่อวัตถุประสงค์ในการแสดงภาพออกมา ด้วยคำสั่งต่อไปนี้: import matplotlib.pyplot as plt

6. Statsmodels

ก่อนหน้านี้ มันเป็นส่วนหนึ่งของ SciKits โดย Statsmodels มักจะถูกคิดว่า มันเป็นส่วนเสริมของ SciPy Statistical Functions ซึ่งมันมีคุณลักษณะของ Linear Models, Discrete Choice Models, Time Series Analysis และ Series ของ Descriptive Statistics ตลอดจน Parametric และ Nonparametric Tests

Website: http://statsmodels.sourceforge.net/

คำสั่งสำหรับการ Install: pip install statsmodels

7. Beautiful Soup

Beautiful Soup ซึ่งเป็นผลงานของ Leonard Richardson นับเป็น Tool ที่ยอดเยี่ยมในการดึง Data จากไฟล์ HTML และ XML ที่ได้มาจาก Internet มันใช้งานได้ดีอย่างเหลือเชื่อ แม้ในกรณีของ Tag Soups (ซึ่งเป็นที่มาของชื่อ) ซึ่งเป็น Collections ของ Malformed, Contradictory และ Incorrect Tags โดยหลังจากที่คุณเลือก Parser แล้ว (โดยทั่วไป HTML Parser ที่รวมอยู่ใน Standard Library ของ Python สามารถใช้การได้ดีอยู่แล้ว) ด้วย Beautiful Soup คุณจะสามารถ Navigate ผ่าน Objects ใน Page และ Extract Text, Tables และข้อมูลอื่น ๆ ที่คุณอาจจะคิดว่า มันมีประโยชน์

Website: http://www.crummy.com/software/BeautifulSoup/

คำสั่งสำหรับการ Install: pip install beautifulsoup4

8. NLTK

Natural Language Toolkit (NLTK) จะช่วยให้คุณสามารถเข้าถึง Corpora และ Lexical Resources และชุดฟังก์ชันที่สมบูรณ์สำหรับ Statistical Natural Language Processing (NLP), นับตั้งแต่ Tokenizers ไปจนถึง Part-of-Speech Taggers และตั้งแต่ Tree Models ไปจนถึง Named-Entity Recognition ในตอนแรกนั้น Package นี้ถูกสร้างขึ้นโดย Steven Bird และ Edward Loper เพื่อเป็นโครงสร้างพื้นฐานในการสอน NLP สำหรับวิชา CIS-530 ที่ University of Pennsylvania ปัจจุบัน NLTK ถือว่าเป็น Tool ที่ยอดเยี่ยมที่คุณสามารถใช้ในการสร้าง Prototype และสร้าง NLP Systems

Website: http://www.nltk.org/

คำสั่งสำหรับการ Install: pip install nltk

ที่มา: https://medium.com/

 

 

รับตำแหน่งงานไอทีใหม่ๆ ด้วยบริการ IT Job Alert

 

อัพเดทบทความจากคนวงในสายไอทีทาง LINE ก่อนใคร
อย่าลืมแอดไลน์ @techstarth เป็นเพื่อนนะคะ

เพิ่มเพื่อน

 

บทความล่าสุด