21 Datasets ที่สามารถใช้ฝึกฝนทักษะ Data Science และสร้าง Portfolio ได้

23-ก.ย.-20

คัมภีร์เทพ IT

วิธีเดียวที่จะเรียนรู้เรื่อง Data Science, Data Analysis, Machine Learning หรือ Artificial Intelligence คือการฝึกฝนหรือทำ Projects หากคุณต้องการทำ Project สำหรับ Portfolio หรือฝึกฝน Concept ใหม่ ๆ คุณอาจต้องใช้เวลาในการค้นหา Dataset ที่เหมาะสม บทความนี้คุณ Rashida Nasrin Sucky จึงได้แนะนำ Datasets ที่คุณสามารถฝึกฝนทักษะ Data Science และใช้สร้าง Portfolio ได้

1. Census Dataset

หากคุณต้องการสัมผัสกับวิธีการสำรวจ Dataset ขนาดใหญ่ ขอแนะนำให้ลองใช้ Dataset นี้ เนื่องจากมันมีขนาดใหญ่มาก

Dataset นี้เหมาะสมอย่างยิ่งสำหรับ Exploratory Data Analysis, Statistical Analysis & Modeling และ Data Visualization practice

คุณสามารถ Download Dataset นี้ได้จากที่นี่

2. Airbnb Dataset

คุณ Rashida เคยถูกร้องขอให้ทำ Exploratory Data Analysis และสร้าง Machine Learning Model โดยใช้ Dataset ตัวนี้

Dataset นี้ มีทั้ง Text Data และ Numerical Data อยู่เป็นจำนวนมาก คุณสามารถใช้ Dataset นี้เพื่อฝึกฝนทักษะใน Projects ประเภทต่าง ๆ ได้มากมาย

คุณจะได้เห็น Datasets มากมายใน Link นี้

3. Cars Dataset

นี่คือ Dataset ที่มีขนาดเหมาะสมอย่างยิ่ง ที่คุณสามารถนำไปใช้ในการฝึกฝนเกี่ยวกับ Regression Models และ Exploratory Data Analysis

Dataset นี้ ประกอบไปด้วย Column เหล่านี้: YEAR, Make, Model, Size, (kW), Unnamed: 5, TYPE, CITY (kWh/100 km), HWY (kWh/100 km), COMB (kWh/100 km), CITY (Le/100 km), HWY (Le/100 km), COMB (Le/100 km), (g/km), RATING, (km), TIME (h)

นี่คือ Link สำหรับ Dataset นี้

4. Heart Disease Dataset

คุณ Rashida เจอ Dataset นี้ใน Kaggle ตั้งแต่นั้นมาเธอก็ใช้มันในบทความต่าง ๆ มากมายเพื่อใช้อธิบาย Concept

คุณจะได้พบกับตัวอย่างของ Exploratory Data Analysis ที่ทำเสร็จแล้ว และรายละเอียดเกี่ยวกับ Dataset ด้วย อยากให้คุณลองดู Dataset นี้ เพราะเชื่อว่าคุณน่าจะมีโอกาสได้ใช้งานพวกมันแน่นอน

คุณสามารถ Download Dataset นี้ได้จาก Link นี้

5. NHANES Dataset

นี่คือหนึ่งใน Dataset ที่น่าทึ่งและเหมาะสมอย่างิย่งสำหรับผู้ที่กำลังเรียนรู้ ชื่อ Column ของ Dataset นี้อาจดูไม่ค่อยเข้าใจในตอนแรก

แต่เมื่อคุณคุ้นเคยกับมันแล้ว คุณจะสามารถใช้ Dataset นี้เพื่อฝึกฝน Data Analysis, Visualization, Statistical Modeling, และ Machine Learning Models (ทั้ง Classification และ Regression)

คุณสามารถ Download Dataset ได้จากที่นี่

6. People Wiki Dataset

มันประกอบไปด้วย Wikipedia Profiles ของบุคคลที่มีชื่อเสียงส่วนหนึ่ง

Dataset 3 Columns คือ URI, Name () Text ( Wikipedia Profile)

มันเป็น Dataset ที่เรียบง่าย แต่มีประโยชน์อย่างมากสำหรับ Natural Language Processing

นี่คือ Link เพื่อไปยัง Dataset นี้

7. Amazon Product Review Dataset

Dataset นี้ประกอบด้วย บทวิจารณ์สินค้า (Product Reviews) นับหลายล้านรายการ เกี่ยวกับ Products ต่าง ๆ ของ Amazon

มันมี 3 Columns คือ Name of the product, Review และ Rating โดย Dataset นี้เกือบเรียกได้ว่าเป็น Dataset ของจริง ซึ่งเหมาะสมอย่างมากสำหรับ Natural Language Processing

คุณสามารถ Download Dataset ได้จากที่นี่

8. Movie Dataset

นี่เป็นอีก Dataset ที่เหมาะอย่างยิ่งสำหรับ Machine Learning และ Natural Language Processing

มันประกอบไปด้วย Column ดังต่อไปนี้: index, budget, genres, homepage, id, keywords, original_language, original_title, overview, popularity, production_companies, production_countries, release_date, revenue, runtime, spoken_languages, status, tagline, title, vote_average, vote_count, cast, crew, director

นี่คือ Link ของ Dataset นี้

9. Housing Price Dataset

นี่เป็นหนึ่งใน Dataset ที่มักถูกนำไปใช้บ่อยที่สุดในการพัฒนา Regression Models แน่นอนว่าคุณสามารถใช้มันสำหรับวัตถุประสงค์อื่น ๆ ได้เช่นกัน

โดยส่วนใหญ่ มักจะถูกใช้เพื่อทำนายราคาที่อยู่อาศัย โดยอาศัยข้อมูลใน Columns อื่น

Dataset นี้ประกอบไปด้วย Column เหล่านี้: id, date, price, bedrooms, bathrooms, sqft_living, sqft_lot, floors, waterfront, view, condition, grade, sqft_above, sqft_basement, yr_built, yr_renovated, zip code, lat, long, sqft_living15, sqft_lot15

นี่คือ Link ของ Dataset นี้

10. Mushrooms Dataset

คุณ Rashida พบ Dataset นี้จากหลักสูตร Applied Data Science With Python Specialization ใน Coursera

เธอใช้สำหรับปัญหาการจำแนกประเภท (Classification Problems) และมันก็สามารถใช้เพื่อวัตถุประสงค์อื่น ๆ ได้เช่นกัน

มันประกอบไปด้วย Columns เหล่านี้: class, cap-shape, cap-surface, cap-color, bruises, odor, gill-attachment, gill-spacing, gill-size, gill-color, stalk-shape, stalk-root, stalk-surface-above-ring, stalk-surface-below-ring, stalk-color-above-ring, stalk-color-below-ring, veil-type, veil-color, ring-number, ring-type, spore-print-color, population, habitat

นี่คือ Link เพื่อไปยัง Dataset นี้

11. Olympic Dataset

Dataset นี้ มีข้อมูลเกี่ยวกับผลการแข่งขันกีฬา Olympic แต่ละ Row ประกอบไปด้วยข้อมูลของประเทศ

Dataset นี้ จะช่วยให้คุณได้เรียนรู้ด้วยการเริ่มต้นจากการ Clean Data

อย่างคุณ Rashida เอง ก็เรียนรู้ Library ของ Python อย่าง Numpy และ Pandas โดยใช้ Dataset นี้

คุณสามารถ Download Dataset นี้ได้จากที่นี่

12. Titanic Dataset

นี่ก็เป็น Dataset ยอดนิยมอีกชุดหนึ่ง ซึ่งคุณ Rashida ใช้งานมันบ่อยมาก เธอพบว่าคนที่มีประสบการณ์ไม่ว่าจะมากหรือน้อย ต่างก็ใช้ Dataset นี้ในการนำเสนอ Concept

Dataset นี้ประกอบไปด้วย Columns เหล่านี้: PassengerId, Survived, P-class, Name, Sex, Age, SibSp, Parch, Ticket, Fare, Cabin, Embarked

Dataset นี้เหมาะอย่างมากสำหรับ Exploratory Data Analysis, Machine Learning Models โดยเฉพาะอย่างยิ่งใน Classification Models, Statistical Analysis และ  Data Visualization Practice

นี่คือ Link เพื่อไปยัง Dataset นี้

13. Iris Dataset

นี่ก็เป็นอีกหนึ่ง Dataset ที่ถูกใช้งานกันอย่างแพร่หลายใน Data Science Courses

เหมาะอย่างยิ่งสำหรับการเรียนรู้เกี่ยวกับ Classification Models

มันประกอบด้วย Columns เหล่านี้: SepalLength, SepalWidth, PetalLength, PetalWidth, Name

นี่คือ Link ของ Dataset นี้

14. Fraud Dataset

คุณ Rashida ได้พบ Dataset นี้จากหลักสูตร Applied Data Science With Python Specialization ใน Coursera

เราสามารถใช้มันสำหรับ Classification Models

การมี Credit Card Fraud Detection Project ใน Portfolio ถือเป็นสิ่งที่ดีมาก

คุณสามารถ Download Dataset ได้ที่นี่

15. Canada Immigration Dataset

Dataset นี้ มีข้อมูลเกี่ยวกับว่า จำนวนผู้อพยพเข้าเมืองที่มาจากประเทศต่าง ๆ ในแต่ละปี

ถือเป็น Dataset ที่ยอดเยี่ยมสำหรับฝึกฝนเกี่ยวกับ Exploratory Data Analysis และ Data Visualization

นี่คือ Link ของ Dataset นี้

16. Facebook Stock Data

มันมีข้อมูล Stock Performance ของ Facebook แบบรายวัน

Columns ใน Dataset นี้ ประกอบด้วย Date, Open, High, Low, Close, Adj Close, Volume

มันมีประโยชน์อย่างมากในเรื่อง Time Series Analysis และ Visualization หรือ ปัญหาที่เกี่ยวกับ Time Series

นี่คือ Link ของ Dataset นี้

17. Digits Dataset

Dataset นี้ ประกอบด้วย Pixel Values สำหรับ Digits

นี่คือ Dataset ที่ถูกใช้งานกันทั่วไปสำหรับ Multiclass Classification Problems

คุณ Rashida ได้ Dataset นี้มาจาก Machine Learning Course ของ Professor Andrew Ng ใน Coursera

คุณสามารถ Download Dataset ได้จาก Link นี้

18. BBC Text Dataset

นี่ก็เป็นอีกหนึ่ง Dataset ที่ยอดเยี่ยมสำหรับ Natural Language Processing

Dataset นี้มีข้อมูลเกี่ยวกับข่าวประเภทต่าง ๆ จากที่เก็บเอกสารของ BBC มันเป็น Text Dataset ขนาดใหญ่

โดยทั่วไป Dataset นี้นิยมใช้สำหรับ Multiclass Classification Problems

แม้ Dataset นี้ จะมีขนาดใหญ่ แต่มันกลับมีเพียงแค่ 2 Columns คือ Text และ Category

นี่คือ Link ของ Dataset นี้

19. Cats vs Dogs

มันถูกใช้กันมากในการฝึกฝนเกี่ยวกับ Image Classification

Dataset นี้ ประกอบไปด้วย รูปภาพของแมวและสุนัข

มันเหมาะสำหรับ Computer Vision Problems

นี่คือ Link ของ Dataset นี้

20. Malignant vs Benign

มันเป็น Dataset ที่มีประโยชน์สำหรับ Computer Vision Problems

Dataset นี้ยังมีภาพของมะเร็งผิวหนัง 2 ประเภท

มันเหมาะสำหรับ Image Classification Problems

คุณสามารถ Download Dataset ได้จากที่นี่

21. Natural Images Dataset

Dataset นี้ประกอบด้วย รูปภาพของ เครื่องบิน รถยนต์ แมว สุนัข ดอกไม้ ผลไม้ รถมอเตอร์ไซค์ และบุคคล

คุณสามารถใช้มัน เพื่อฝึกฝนเกี่ยวกับ Multiclass Classification ได้มากขึ้น

นี่คือ Link เพื่อไปยัง Dataset นี้

สรุป

นี่คือ Dataset ทั้งหมดที่อยากจะแนะนำให้คุณลองนำไปใช้ คุณสามารถเลือก Datasets ที่เหมาะสมกับ Projects ต่าง ๆ ของคุณเพื่อนำไปใช้สำหรับฝึกฝนทักษะที่จำเป็นแล้วเริ่มสร้าง Portfolio ของคุณ

ที่มา:  https://towardsdatascience.com/

 

 

รับตำแหน่งงานไอทีใหม่ๆ ด้วยบริการ IT Job Alert

 

อัพเดทบทความจากคนวงในสายไอทีทาง LINE ก่อนใคร
อย่าลืมแอดไลน์ @techstarth เป็นเพื่อนนะคะ

เพิ่มเพื่อน

 

บทความล่าสุด