5 Python Packages ที่คนทำงาน Data Science ควรรู้จักไว้
15-ก.พ.-23
คัมภีร์เทพ IT
ปัจจุบัน ความนิยมเกี่ยวกับข้อมูล ยังคงมีอยู่อย่างต่อเนื่อง มี Data Python Packages จำนวนมาก ที่ได้รับการพัฒนาอย่างดีเป็นพิเศษในช่วงที่ผ่านมาและได้ให้ความช่วยเหลือผู้คนเป็นจำนวนมาก และนี่ก็เป็น 5 Python Packages ที่คนทำงาน Data Science ควรรู้จักไว้
1. Dask
Dask เป็น Python Package สำหรับ Parallelization Computing ที่สร้างขึ้นเพื่อเพิ่มความสามารถของ Packages ยอดนิยม อย่าง Pandas, Numpy และอื่น ๆ ซึ่ง Dask มี 2 Features หลัก ๆ ที่สำคัญคือ:
- การจัด Schedule Tasks ต่าง ๆ สำหรับการทำ Automate Tasks และตั้ง Schedule สำหรับ Activities ต่าง ๆ
- การรวบรวม Big Data สำหรับการประมวลผล Data แบบ Parallel
โดยสรุปแล้ว Dask จะช่วยทำให้ Pandas Python Package ได้ง่ายขึ้น เช่น Data Frame Object แต่ถึงกระนั้น คุณก็สามารถตั้ง Schedule สำหรับ Activity และมี Execution Time ที่รวดเร็วขึ้น โดยการทำให้ Process ดำเนินการแบบ Parallel
ตอนนี้เราลองมาใช้ Functions ง่าย ๆ ของ Dask กัน แต่ก่อนอื่นเราต้องติดตั้ง Package ก่อน (Anaconda ได้ถูกติดตั้ง Dask เป็นค่า Default ไว้อยู่แล้ว)
ในฐานะของมือใหม่ เราสามารถเริ่มต้น Dask Dashboard เพื่อคอยตรวจสอบ Activity ของเราด้วย Dask
Image by Author
และถ้าเราคลิกที่ Dashboard Link เราจะเห็นหน้าตาดังต่อไปนี้
Image by Author
คุณสามารถลองใช้งาน Dashboard เพื่อดู Functions ต่าง ๆ แต่ขอแนะนำให้คุณลองดูที่ Data Processing Function ของ Dask ซึ่งเราสามารถสร้าง Dask Data Frame ได้จาก Pandas Object
Image by Author
Data Frame ของ Dask ก็มีความคล้ายกับ Data Frame ของ Pandas แต่อาจมีความช้ากว่า ซึ่งหมายความว่า ผลลัพธ์จะไม่ถูกแสดงผลบน Jupyter Notebook แต่หากต้องการแสดง Data Frame Object เราจำเป็นต้อง Run มันด้วย compute Method
Image by Author
ส่วน Data Selection Method ใน Dask Data Frame ก็มีความคล้ายกับ Pandas
Image by Author
Dask เป็นสิ่งที่เกี่ยวกับการคำนวณที่รวดเร็วแบบ Parallel ขณะเดียวกัน Dask ก็เหมาะสมที่จะใช้งานเมื่อเรามี Big Data และต้องการการคำนวณที่มีประสิทธิภาพสูง อย่างไรก็ตาม หากคุณต้องการประมวลผล Data ที่มีขนาดเล็กกว่า ก็ขอแนะนำให้ใช้ Pandas จะเหมาะกว่า
2. Faker
Faker เป็น Python Package สำหรับสร้าง Synthetic Data ด้วยขั้นตอนง่าย ๆ มันเป็นหนึ่งใน Package พื้นฐานที่กลายเป็นพื้นฐานของ Data Synthetic Packages ขั้น Advance เป็นจำนวนมาก
เรามาลองดูกันว่า Faker ทำงานอย่างไร ก่อนอื่น เราต้องติดตั้ง Package ก่อน
ขั้นตอนแรก ในการใช้ Faker Package คือการเริ่มสร้าง Faker Class
หลังจากเริ่มสร้าง Class แล้ว เราจะลองใช้ Methods ต่าง ๆ เพื่อ Generate Synthetic Data
Image by Author
การใช้ Name, Address และ Text ของ Method ตามลำดับ เราจะได้ Synthetic Data ต่าง ๆ และทุกครั้งที่เรา Run Method นี้ เราจะได้สิ่งใหม่ ๆ
Faker ไม่ได้ถูกจำกัดอยู่แค่ตัวอย่างด้านบนเพียงเท่านั้น เนื่องจากยังมีตัวแปรอื่น ๆ อีกมากมายที่เราสามารถ Generate ได้ด้วย Faker ตัวอย่างเช่น Bank, Credit Score และอื่น ๆ อีกมากมาย หากคุณต้องการทราบรายละเอียดเพิ่มเติม โปรดดูที่ Documentation ของมัน
3. Dulwich
Dulwich เป็น Python Package สำหรับ Implement Git โดยไม่ต้องพึ่งพา Git File และ Protocol โดย Package นี้ เข้าถึงความสามารถของ Git ด้วย Python อย่างแท้จริงโดยไม่มีความยุ่งยากนัก
เรามาลองใช้ Package นี้กันเลยดีกว่า ก่อนอื่นเราต้องติดตั้ง Dulwich กันก่อน
สำหรับการใช้ Dulwich จะทำตามขั้นตอนที่คล้ายกันใน Git เรามาเริ่มต้นสร้าง Repository กันก่อน
Image by Author
จาก Code ด้านบน จะสร้าง Repository ที่เรียกว่า 'myrepo' ต่อไป มาทำการกำหนด Stage File ที่เราสร้างขึ้น
ในตัวอย่างข้างต้น เราสร้าง CSV File และ Stage File นั้นไปยัง Repository ของเรา จากนั้นเราจะ Commit File ด้วย Code ดังต่อไปนี้
Image by Author
ในการ Commit จะทำให้เราได้ ID กลับมา ซึ่งเราสามารถนำไปใช้งานในภายหลังสำหรับการกำหนด Version ได้ หากเราต้องการดู Commit Message เราสามารถใช้ Code ดังต่อไปนี้
Image by Author
สุดท้ายนี้ หากเราต้องการเข้าถึง Git Log เราสามารถทำได้โดยใช้ Code ด้านล่างนี้
Image by Author
และหากคุณต้องการศึกษาความสามารถของ Dulwich สามารถดูได้ที่ Documentation ของมัน
4. Pendulum
Pendulum เป็น Python Package ที่ทำให้การประมวลผลข้อมูลเกี่ยวกับ Datetime เป็นเรื่องที่ง่ายขึ้น มันถูกสร้างขึ้นด้วยจุดประสงค์ในการแทนที่ Datetime Class Function มาตรฐานด้วย Function ที่ใช้งานได้ง่ายกว่า
เรามาเริ่มต้นด้วยการติดตั้ง Package กันก่อน
Image by Author
ด้วย Pendulum คุณสามารถ Iterate วัน เพื่อรับข้อมูลที่คุณต้องการได้อย่างง่ายดาย
Image by Author
ยังมีอะไรอีกมากมายที่คุณสามารถทำได้ด้วย Pendulum สามารถดูได้ที่ Documentation เพื่อเรียนรู้เพิ่มเติม
5. Selenium
Selenium เป็น Python Package เพื่อทำการ Automate Activity ของ Browser มันจะทำการ Automate Web Browsing Activity เพื่อทำในสิ่งที่คุณชอบ ตั้งแต่เปิด Browser, คลิกปุ่ม, เข้าสู่ระบบ, รวบรวมข้อมูล และอื่น ๆ คุณสามารถ Automate Activity ที่คล้ายคลึงกับ Activity ที่คุณทำใน Web Browser
มาเริ่มต้นด้วยการติดตั้ง Package
ในการเปิด Browser ที่คุณต้องการ Selenium จะให้คุณ Download Driver มาก่อน คุณสามารถดูรายละเอียด Documentation สำหรับรายละเอียดของ Browsers ทั้งหมด แต่ในกรณีนี้ เราจะใช้ chromedrive_autoinstaller Package เพื่อทำการ Download Chrome driver ให้โดยอัตโนมัติ
เช่น เราต้องการเปิด Website ที่ชื่อว่า Teepublic จากนั้นคลิกปุ่ม “เข้าสู่ระบบ” ซึ่งในการทำเช่นนั้น เราสามารถใช้ Code ได้ดังต่อไปนี้
Image by Author
ยังมีอีกหลายสิ่งที่คุณสามารถทำได้ด้วย Selenium ซึ่งคุณสามารถเรียนรู้เพิ่มเติมได้จาก Documentation ของมัน และสามารถดู บทความนี้ สำหรับตัวอย่างการนำ Selenium ไปใช้งาน
ที่มา: https://pub.towardsai.net/
รับตำแหน่งงานไอทีใหม่ๆ ด้วยบริการ IT Job Alert
อัพเดทบทความจากคนวงในสายไอทีทาง LINE ก่อนใคร
อย่าลืมแอดไลน์ @techstarth เป็นเพื่อนนะคะ
บทความล่าสุด