21 Datasets ที่สามารถใช้ฝึกฝนทักษะ Data Science และสร้าง Portfolio ได้
23-ก.ย.-20
คัมภีร์เทพ IT
วิธีเดียวที่จะเรียนรู้เรื่อง Data Science, Data Analysis, Machine Learning หรือ Artificial Intelligence คือการฝึกฝนหรือทำ Projects หากคุณต้องการทำ Project สำหรับ Portfolio หรือฝึกฝน Concept ใหม่ ๆ คุณอาจต้องใช้เวลาในการค้นหา Dataset ที่เหมาะสม บทความนี้คุณ Rashida Nasrin Sucky จึงได้แนะนำ Datasets ที่คุณสามารถฝึกฝนทักษะ Data Science และใช้สร้าง Portfolio ได้
หากคุณต้องการสัมผัสกับวิธีการสำรวจ Dataset ขนาดใหญ่ ขอแนะนำให้ลองใช้ Dataset นี้ เนื่องจากมันมีขนาดใหญ่มาก
Dataset นี้เหมาะสมอย่างยิ่งสำหรับ Exploratory Data Analysis, Statistical Analysis & Modeling และ Data Visualization practice
คุณสามารถ Download Dataset นี้ได้จากที่นี่
คุณ Rashida เคยถูกร้องขอให้ทำ Exploratory Data Analysis และสร้าง Machine Learning Model โดยใช้ Dataset ตัวนี้
Dataset นี้ มีทั้ง Text Data และ Numerical Data อยู่เป็นจำนวนมาก คุณสามารถใช้ Dataset นี้เพื่อฝึกฝนทักษะใน Projects ประเภทต่าง ๆ ได้มากมาย
คุณจะได้เห็น Datasets มากมายใน Link นี้
3. Cars Dataset
นี่คือ Dataset ที่มีขนาดเหมาะสมอย่างยิ่ง ที่คุณสามารถนำไปใช้ในการฝึกฝนเกี่ยวกับ Regression Models และ Exploratory Data Analysis
Dataset นี้ ประกอบไปด้วย Column เหล่านี้: YEAR, Make, Model, Size, (kW), Unnamed: 5, TYPE, CITY (kWh/100 km), HWY (kWh/100 km), COMB (kWh/100 km), CITY (Le/100 km), HWY (Le/100 km), COMB (Le/100 km), (g/km), RATING, (km), TIME (h)
นี่คือ Link สำหรับ Dataset นี้
คุณ Rashida เจอ Dataset นี้ใน Kaggle ตั้งแต่นั้นมาเธอก็ใช้มันในบทความต่าง ๆ มากมายเพื่อใช้อธิบาย Concept
คุณจะได้พบกับตัวอย่างของ Exploratory Data Analysis ที่ทำเสร็จแล้ว และรายละเอียดเกี่ยวกับ Dataset ด้วย อยากให้คุณลองดู Dataset นี้ เพราะเชื่อว่าคุณน่าจะมีโอกาสได้ใช้งานพวกมันแน่นอน
คุณสามารถ Download Dataset นี้ได้จาก Link นี้
นี่คือหนึ่งใน Dataset ที่น่าทึ่งและเหมาะสมอย่างิย่งสำหรับผู้ที่กำลังเรียนรู้ ชื่อ Column ของ Dataset นี้อาจดูไม่ค่อยเข้าใจในตอนแรก
แต่เมื่อคุณคุ้นเคยกับมันแล้ว คุณจะสามารถใช้ Dataset นี้เพื่อฝึกฝน Data Analysis, Visualization, Statistical Modeling, และ Machine Learning Models (ทั้ง Classification และ Regression)
คุณสามารถ Download Dataset ได้จากที่นี่
มันประกอบไปด้วย Wikipedia Profiles ของบุคคลที่มีชื่อเสียงส่วนหนึ่ง
Dataset 3 Columns คือ URI, Name () Text ( Wikipedia Profile)
มันเป็น Dataset ที่เรียบง่าย แต่มีประโยชน์อย่างมากสำหรับ Natural Language Processing
นี่คือ Link เพื่อไปยัง Dataset นี้
7. Amazon Product Review Dataset
Dataset นี้ประกอบด้วย บทวิจารณ์สินค้า (Product Reviews) นับหลายล้านรายการ เกี่ยวกับ Products ต่าง ๆ ของ Amazon
มันมี 3 Columns คือ Name of the product, Review และ Rating โดย Dataset นี้เกือบเรียกได้ว่าเป็น Dataset ของจริง ซึ่งเหมาะสมอย่างมากสำหรับ Natural Language Processing
คุณสามารถ Download Dataset ได้จากที่นี่
นี่เป็นอีก Dataset ที่เหมาะอย่างยิ่งสำหรับ Machine Learning และ Natural Language Processing
มันประกอบไปด้วย Column ดังต่อไปนี้: index, budget, genres, homepage, id, keywords, original_language, original_title, overview, popularity, production_companies, production_countries, release_date, revenue, runtime, spoken_languages, status, tagline, title, vote_average, vote_count, cast, crew, director
นี่คือ Link ของ Dataset นี้
นี่เป็นหนึ่งใน Dataset ที่มักถูกนำไปใช้บ่อยที่สุดในการพัฒนา Regression Models แน่นอนว่าคุณสามารถใช้มันสำหรับวัตถุประสงค์อื่น ๆ ได้เช่นกัน
โดยส่วนใหญ่ มักจะถูกใช้เพื่อทำนายราคาที่อยู่อาศัย โดยอาศัยข้อมูลใน Columns อื่น
Dataset นี้ประกอบไปด้วย Column เหล่านี้: id, date, price, bedrooms, bathrooms, sqft_living, sqft_lot, floors, waterfront, view, condition, grade, sqft_above, sqft_basement, yr_built, yr_renovated, zip code, lat, long, sqft_living15, sqft_lot15
นี่คือ Link ของ Dataset นี้
คุณ Rashida พบ Dataset นี้จากหลักสูตร Applied Data Science With Python Specialization ใน Coursera
เธอใช้สำหรับปัญหาการจำแนกประเภท (Classification Problems) และมันก็สามารถใช้เพื่อวัตถุประสงค์อื่น ๆ ได้เช่นกัน
มันประกอบไปด้วย Columns เหล่านี้: class, cap-shape, cap-surface, cap-color, bruises, odor, gill-attachment, gill-spacing, gill-size, gill-color, stalk-shape, stalk-root, stalk-surface-above-ring, stalk-surface-below-ring, stalk-color-above-ring, stalk-color-below-ring, veil-type, veil-color, ring-number, ring-type, spore-print-color, population, habitat
นี่คือ Link เพื่อไปยัง Dataset นี้
11. Olympic Dataset
Dataset นี้ มีข้อมูลเกี่ยวกับผลการแข่งขันกีฬา Olympic แต่ละ Row ประกอบไปด้วยข้อมูลของประเทศ
Dataset นี้ จะช่วยให้คุณได้เรียนรู้ด้วยการเริ่มต้นจากการ Clean Data
อย่างคุณ Rashida เอง ก็เรียนรู้ Library ของ Python อย่าง Numpy และ Pandas โดยใช้ Dataset นี้
คุณสามารถ Download Dataset นี้ได้จากที่นี่
12. Titanic Dataset
นี่ก็เป็น Dataset ยอดนิยมอีกชุดหนึ่ง ซึ่งคุณ Rashida ใช้งานมันบ่อยมาก เธอพบว่าคนที่มีประสบการณ์ไม่ว่าจะมากหรือน้อย ต่างก็ใช้ Dataset นี้ในการนำเสนอ Concept
Dataset นี้ประกอบไปด้วย Columns เหล่านี้: PassengerId, Survived, P-class, Name, Sex, Age, SibSp, Parch, Ticket, Fare, Cabin, Embarked
Dataset นี้เหมาะอย่างมากสำหรับ Exploratory Data Analysis, Machine Learning Models โดยเฉพาะอย่างยิ่งใน Classification Models, Statistical Analysis และ Data Visualization Practice
นี่คือ Link เพื่อไปยัง Dataset นี้
13. Iris Dataset
นี่ก็เป็นอีกหนึ่ง Dataset ที่ถูกใช้งานกันอย่างแพร่หลายใน Data Science Courses
เหมาะอย่างยิ่งสำหรับการเรียนรู้เกี่ยวกับ Classification Models
มันประกอบด้วย Columns เหล่านี้: SepalLength, SepalWidth, PetalLength, PetalWidth, Name
14. Fraud Dataset
คุณ Rashida ได้พบ Dataset นี้จากหลักสูตร Applied Data Science With Python Specialization ใน Coursera
เราสามารถใช้มันสำหรับ Classification Models
การมี Credit Card Fraud Detection Project ใน Portfolio ถือเป็นสิ่งที่ดีมาก
คุณสามารถ Download Dataset ได้ที่นี่
15. Canada Immigration Dataset
Dataset นี้ มีข้อมูลเกี่ยวกับว่า จำนวนผู้อพยพเข้าเมืองที่มาจากประเทศต่าง ๆ ในแต่ละปี
ถือเป็น Dataset ที่ยอดเยี่ยมสำหรับฝึกฝนเกี่ยวกับ Exploratory Data Analysis และ Data Visualization
มันมีข้อมูล Stock Performance ของ Facebook แบบรายวัน
Columns ใน Dataset นี้ ประกอบด้วย Date, Open, High, Low, Close, Adj Close, Volume
มันมีประโยชน์อย่างมากในเรื่อง Time Series Analysis และ Visualization หรือ ปัญหาที่เกี่ยวกับ Time Series
17. Digits Dataset
Dataset นี้ ประกอบด้วย Pixel Values สำหรับ Digits
นี่คือ Dataset ที่ถูกใช้งานกันทั่วไปสำหรับ Multiclass Classification Problems
คุณ Rashida ได้ Dataset นี้มาจาก Machine Learning Course ของ Professor Andrew Ng ใน Coursera
คุณสามารถ Download Dataset ได้จาก Link นี้
18. BBC Text Dataset
นี่ก็เป็นอีกหนึ่ง Dataset ที่ยอดเยี่ยมสำหรับ Natural Language Processing
Dataset นี้มีข้อมูลเกี่ยวกับข่าวประเภทต่าง ๆ จากที่เก็บเอกสารของ BBC มันเป็น Text Dataset ขนาดใหญ่
โดยทั่วไป Dataset นี้นิยมใช้สำหรับ Multiclass Classification Problems
แม้ Dataset นี้ จะมีขนาดใหญ่ แต่มันกลับมีเพียงแค่ 2 Columns คือ Text และ Category
19. Cats vs Dogs
มันถูกใช้กันมากในการฝึกฝนเกี่ยวกับ Image Classification
Dataset นี้ ประกอบไปด้วย รูปภาพของแมวและสุนัข
มันเหมาะสำหรับ Computer Vision Problems
นี่คือ Link ของ Dataset นี้
มันเป็น Dataset ที่มีประโยชน์สำหรับ Computer Vision Problems
Dataset นี้ยังมีภาพของมะเร็งผิวหนัง 2 ประเภท
มันเหมาะสำหรับ Image Classification Problems
คุณสามารถ Download Dataset ได้จากที่นี่
Dataset นี้ประกอบด้วย รูปภาพของ เครื่องบิน รถยนต์ แมว สุนัข ดอกไม้ ผลไม้ รถมอเตอร์ไซค์ และบุคคล
คุณสามารถใช้มัน เพื่อฝึกฝนเกี่ยวกับ Multiclass Classification ได้มากขึ้น
นี่คือ Link เพื่อไปยัง Dataset นี้
สรุป
นี่คือ Dataset ทั้งหมดที่อยากจะแนะนำให้คุณลองนำไปใช้ คุณสามารถเลือก Datasets ที่เหมาะสมกับ Projects ต่าง ๆ ของคุณเพื่อนำไปใช้สำหรับฝึกฝนทักษะที่จำเป็นแล้วเริ่มสร้าง Portfolio ของคุณ
ที่มา: https://towardsdatascience.com/
รับตำแหน่งงานไอทีใหม่ๆ ด้วยบริการ IT Job Alert
อัพเดทบทความจากคนวงในสายไอทีทาง LINE ก่อนใคร
อย่าลืมแอดไลน์ @techstarth เป็นเพื่อนนะคะ
บทความล่าสุด