5 Python Packages ที่คนทำงาน Data Science ควรรู้จักไว้

15-ก.พ.-23

คัมภีร์เทพ IT

ปัจจุบัน ความนิยมเกี่ยวกับข้อมูล ยังคงมีอยู่อย่างต่อเนื่อง มี Data Python Packages จำนวนมาก ที่ได้รับการพัฒนาอย่างดีเป็นพิเศษในช่วงที่ผ่านมาและได้ให้ความช่วยเหลือผู้คนเป็นจำนวนมาก และนี่ก็เป็น 5 Python Packages ที่คนทำงาน Data Science ควรรู้จักไว้

1. Dask

Dask เป็น Python Package สำหรับ Parallelization Computing ที่สร้างขึ้นเพื่อเพิ่มความสามารถของ Packages ยอดนิยม อย่าง Pandas, Numpy และอื่น ๆ ซึ่ง Dask มี 2 Features หลัก ๆ ที่สำคัญคือ:

  • การจัด Schedule Tasks ต่าง ๆ สำหรับการทำ Automate Tasks และตั้ง Schedule สำหรับ Activities ต่าง ๆ
  • การรวบรวม Big Data สำหรับการประมวลผล Data แบบ Parallel

โดยสรุปแล้ว Dask จะช่วยทำให้ Pandas Python Package ได้ง่ายขึ้น เช่น Data Frame Object แต่ถึงกระนั้น คุณก็สามารถตั้ง Schedule สำหรับ Activity และมี Execution Time ที่รวดเร็วขึ้น โดยการทำให้ Process ดำเนินการแบบ Parallel

ตอนนี้เราลองมาใช้ Functions ง่าย ๆ ของ Dask กัน แต่ก่อนอื่นเราต้องติดตั้ง Package ก่อน (Anaconda ได้ถูกติดตั้ง Dask เป็นค่า Default ไว้อยู่แล้ว)

ในฐานะของมือใหม่ เราสามารถเริ่มต้น Dask Dashboard เพื่อคอยตรวจสอบ Activity ของเราด้วย Dask

Image by Author

และถ้าเราคลิกที่ Dashboard Link เราจะเห็นหน้าตาดังต่อไปนี้

Image by Author

คุณสามารถลองใช้งาน Dashboard เพื่อดู Functions ต่าง ๆ แต่ขอแนะนำให้คุณลองดูที่ Data Processing Function ของ Dask ซึ่งเราสามารถสร้าง Dask Data Frame ได้จาก Pandas Object

Image by Author

Data Frame ของ Dask ก็มีความคล้ายกับ Data Frame ของ Pandas แต่อาจมีความช้ากว่า ซึ่งหมายความว่า ผลลัพธ์จะไม่ถูกแสดงผลบน Jupyter Notebook แต่หากต้องการแสดง Data Frame Object เราจำเป็นต้อง Run มันด้วย compute Method

Image by Author

ส่วน Data Selection Method ใน Dask Data Frame ก็มีความคล้ายกับ Pandas

Image by Author

Dask เป็นสิ่งที่เกี่ยวกับการคำนวณที่รวดเร็วแบบ Parallel ขณะเดียวกัน Dask ก็เหมาะสมที่จะใช้งานเมื่อเรามี Big Data และต้องการการคำนวณที่มีประสิทธิภาพสูง อย่างไรก็ตาม หากคุณต้องการประมวลผล Data ที่มีขนาดเล็กกว่า ก็ขอแนะนำให้ใช้ Pandas จะเหมาะกว่า

2. Faker

Faker เป็น Python Package สำหรับสร้าง Synthetic Data ด้วยขั้นตอนง่าย ๆ มันเป็นหนึ่งใน Package พื้นฐานที่กลายเป็นพื้นฐานของ Data Synthetic Packages ขั้น Advance เป็นจำนวนมาก

เรามาลองดูกันว่า Faker ทำงานอย่างไร ก่อนอื่น เราต้องติดตั้ง Package ก่อน

ขั้นตอนแรก ในการใช้ Faker Package คือการเริ่มสร้าง Faker Class

หลังจากเริ่มสร้าง Class แล้ว เราจะลองใช้ Methods ต่าง ๆ เพื่อ Generate Synthetic Data

Image by Author

การใช้ Name, Address และ Text ของ Method ตามลำดับ เราจะได้ Synthetic Data ต่าง ๆ และทุกครั้งที่เรา Run Method นี้ เราจะได้สิ่งใหม่ ๆ

Faker ไม่ได้ถูกจำกัดอยู่แค่ตัวอย่างด้านบนเพียงเท่านั้น เนื่องจากยังมีตัวแปรอื่น ๆ อีกมากมายที่เราสามารถ Generate ได้ด้วย Faker ตัวอย่างเช่น Bank, Credit Score และอื่น ๆ อีกมากมาย หากคุณต้องการทราบรายละเอียดเพิ่มเติม โปรดดูที่ Documentation ของมัน

3. Dulwich

Dulwich เป็น Python Package สำหรับ Implement Git โดยไม่ต้องพึ่งพา Git File และ Protocol โดย Package นี้ เข้าถึงความสามารถของ Git ด้วย Python อย่างแท้จริงโดยไม่มีความยุ่งยากนัก

เรามาลองใช้ Package นี้กันเลยดีกว่า ก่อนอื่นเราต้องติดตั้ง Dulwich กันก่อน

สำหรับการใช้ Dulwich จะทำตามขั้นตอนที่คล้ายกันใน Git เรามาเริ่มต้นสร้าง Repository กันก่อน

Image by Author

จาก Code ด้านบน จะสร้าง Repository ที่เรียกว่า 'myrepo' ต่อไป มาทำการกำหนด Stage File ที่เราสร้างขึ้น

ในตัวอย่างข้างต้น เราสร้าง CSV File และ Stage File นั้นไปยัง Repository ของเรา จากนั้นเราจะ Commit File ด้วย Code ดังต่อไปนี้

Image by Author

ในการ Commit จะทำให้เราได้ ID กลับมา ซึ่งเราสามารถนำไปใช้งานในภายหลังสำหรับการกำหนด Version ได้ หากเราต้องการดู Commit Message เราสามารถใช้ Code ดังต่อไปนี้

Image by Author

สุดท้ายนี้ หากเราต้องการเข้าถึง Git Log เราสามารถทำได้โดยใช้ Code ด้านล่างนี้

Image by Author

และหากคุณต้องการศึกษาความสามารถของ Dulwich สามารถดูได้ที่ Documentation ของมัน

4. Pendulum

Pendulum เป็น Python Package ที่ทำให้การประมวลผลข้อมูลเกี่ยวกับ Datetime เป็นเรื่องที่ง่ายขึ้น มันถูกสร้างขึ้นด้วยจุดประสงค์ในการแทนที่ Datetime Class Function มาตรฐานด้วย Function ที่ใช้งานได้ง่ายกว่า

เรามาเริ่มต้นด้วยการติดตั้ง Package กันก่อน

Image by Author

ด้วย Pendulum คุณสามารถ Iterate วัน เพื่อรับข้อมูลที่คุณต้องการได้อย่างง่ายดาย

Image by Author

ยังมีอะไรอีกมากมายที่คุณสามารถทำได้ด้วย Pendulum สามารถดูได้ที่ Documentation เพื่อเรียนรู้เพิ่มเติม

5. Selenium

Selenium เป็น Python Package เพื่อทำการ Automate Activity ของ Browser มันจะทำการ Automate Web Browsing Activity เพื่อทำในสิ่งที่คุณชอบ ตั้งแต่เปิด Browser, คลิกปุ่ม, เข้าสู่ระบบ, รวบรวมข้อมูล และอื่น ๆ คุณสามารถ Automate Activity ที่คล้ายคลึงกับ Activity ที่คุณทำใน Web Browser

มาเริ่มต้นด้วยการติดตั้ง Package

ในการเปิด Browser ที่คุณต้องการ Selenium จะให้คุณ Download Driver มาก่อน คุณสามารถดูรายละเอียด Documentation สำหรับรายละเอียดของ Browsers ทั้งหมด แต่ในกรณีนี้ เราจะใช้ chromedrive_autoinstaller Package เพื่อทำการ Download Chrome driver ให้โดยอัตโนมัติ

เช่น เราต้องการเปิด Website ที่ชื่อว่า Teepublic จากนั้นคลิกปุ่ม “เข้าสู่ระบบ” ซึ่งในการทำเช่นนั้น เราสามารถใช้ Code ได้ดังต่อไปนี้

Image by Author

ยังมีอีกหลายสิ่งที่คุณสามารถทำได้ด้วย Selenium ซึ่งคุณสามารถเรียนรู้เพิ่มเติมได้จาก Documentation ของมัน และสามารถดู บทความนี้ สำหรับตัวอย่างการนำ Selenium ไปใช้งาน

ที่มา: https://pub.towardsai.net/

 

 

รับตำแหน่งงานไอทีใหม่ๆ ด้วยบริการ IT Job Alert

 

อัพเดทบทความจากคนวงในสายไอทีทาง LINE ก่อนใคร
อย่าลืมแอดไลน์ @techstarth เป็นเพื่อนนะคะ

เพิ่มเพื่อน

 

บทความล่าสุด