Top 10 Data Science Projects สำหรับมือใหม่

07-พ.ค.-21

คัมภีร์เทพ IT

หากคุณเป็น Data Scientist คงมีคนแนะนำให้ทำ “Data Science Projects” มาหลายครั้งแล้ว เพราะไม่เพียงช่วยเพิ่มประสบการณ์ในการเรียนรู้ แต่ยังช่วยให้โดดเด่นกว่า Data Scientist คนอื่น ๆ ในบทความนี้จะช่วยแนะนำ Top 10 Data Science Projects สำหรับมือใหม่ ซึ่งควรมีใน Resume ของคุณ อีกทั้งยังมี Datasets ให้คุณได้นำไปใช้สำหรับแต่ละ Project อีกด้วย โดยจะแบ่ง Projects ตามกลุ่มของ Skills ต่าง ๆ

Skill 1: Data Collection

Data Collection และ Pre-Processing เป็นทักษะที่สำคัญที่สุดอย่างหนึ่งของคนที่เป็น Data Scientist

เชื่อว่าโดยภาพรวมของงานที่ Data Scientist ต้องทำจะเกี่ยวข้องกับการ Collect Data และ Clean Data ใน Python หลังจากทำความเข้าใจ Business Requirement แล้ว เราจำเป็นต้องเข้าถึง Data ที่เกี่ยวข้องที่มีอยู่บน Internet  

ซึ่งสิ่งเหล่านี้สามารถทำได้ด้วยการใช้ API หรือ Web Scrapers เมื่อทำเสร็จแล้ว Data ก็จะต้องได้รับการ Clean และ Collect ลงใน Data Frames ใน Format ที่สามารถใช้ป้อนเป็น Input เข้าไปใน Machine Learning Model ซึ่งขั้นตอนนี้ถือเป็นงานของ Data Scientist ที่ใช้เวลามากที่สุด

ดังนั้น ขอแนะนำให้คุณแสดงทักษะในด้าน Data Collection และ Pre-Processing โดยทำตาม Projects ดังต่อไปนี้:

1. Web Scraping — Food Reviews Site

Tutorial: Zomato Web Scraping with BeautifulSoup

Language: Python

การ Scrape บท Reviews จาก Food Delivery Website ถือเป็น Project ที่น่าสนใจ ใช้ได้จริง และควรมีอยู่ใน Resume คุณ

เพียงสร้าง Web Scraper เพื่อรวบรวมบท Review Information ทั้งหมดจาก Web Pages ทั้งหมดของ Website เหล่านี้และจัดเก็บไว้ใน Data Frame

หากคุณต้องการให้ Project นี้ก้าวหน้าไปอีกขั้น คุณสามารถใช้ Data ที่ถูก Collect ไว้เพื่อสร้าง Sentiment Analysis Model และจำแนกว่าบท Review ใดเป็นเชิงบวกหรือเชิงลบ

ครั้งต่อไปที่คุณกำลังมองหาอะไรกิน ให้เลือกร้านอาหารที่มีบท Reviews ที่มีความรู้สึกโดยรวมของผู้เขียนดีที่สุด

2. Web Scraping — Online Course Site

Tutorial: Build a Web Scraper with Python in 8 Minutes

Language: Python

คุณกำลังต้องการค้นหา Online Course ที่ดีที่สุดในปี 2021 อยู่หรือไม่? มันเป็นเรื่องยากที่จะเลื่อนดู Data Science Courses นับร้อย Courses เพื่อค้นหา Course ที่ราคาไม่แพงเกินไปแต่ได้รับคะแนนความนิยมสูง

คุณสามารถทำได้ด้วยการ Scrape Online Course Website และจัดเก็บผลลัพธ์ทั้งหมดลงใน Data Frame

หากคุณต้องการให้ Project นี้ก้าวหน้าไปอีกขั้น คุณยังสามารถสร้าง Visualizations เกี่ยวกับตัวแปรต่าง ๆ เช่น ราคาและคะแนนเพื่อค้นหา Course ที่ทั้งราคาไม่แพงและมีคุณภาพดี

คุณยังสามารถสร้าง Sentiment Analysis Model และสร้างความเชื่อมั่นโดยรวมของ Online Course แต่ละ Course จากนั้น คุณสามารถเลือกทำ Course ที่มีความเชื่อมั่นโดยรวมสูงสุดได้อีกด้วย

3. Bonus:

สร้าง Projects ที่คุณ Collect Data โดยใช้ API หรือ External Tools อื่น ๆ ทักษะเหล่านี้มักจะมีประโยชน์ เมื่อคุณเริ่มทำงาน

บริษัทส่วนใหญ่ที่ใช้ 3rd Party Data มักจะซื้อการเข้าถึง API และคุณจะต้องทำ Data Collection ด้วยความช่วยเหลือของ External Tools เหล่านั้น

ตัวอย่าง Project ที่คุณสามารถลองทำได้ เช่น ใช้ Twitter API เพื่อ Collect Data ที่เกี่ยวข้องกับ Hashtag ที่ต้องการและจัดเก็บ Data ใน Data Frame

Skill 2: Exploratory Data Analysis

หลังจากรวบรวมและจัดเก็บ Data คุณจำเป็นต้องทำการวิเคราะห์ตัวแปรทั้งหมดใน Data Frame ของคุณ

คุณต้องสังเกตว่า ตัวแปรแต่ละตัวมีการกระจายอย่างไร และเข้าใจความสัมพันธ์ระหว่างกันของพวกมัน คุณต้องสามารถตอบคำถามได้ด้วยความช่วยเหลือของ Data ที่มีอยู่

นี่ถือเป็นงานที่คุณต้องทำบ่อยมากในฐานะของ Data Scientist ซึ่งอาจจะมากกว่าขั้นตอน Predictive Modelling ด้วยซ้ำ

นี่เป็น Ideas บางส่วนของ EDA Project:

1. Identifying the risk factors of heart disease

Dataset: The Framingham Heart Study

Tutorial: The Framingham Heart Study: Decision Trees

Language: Python R

Dataset นี้ประกอบด้วย ตัวทำนาย เช่น Cholesterol, Age, Diabetes และ Family History ที่ถูกใช้ในการทำนายการเริ่มมีอาการของโรคหัวใจในผู้ป่วย

คุณสามารถใช้ Python หรือ R เพื่อวิเคราะห์ความสัมพันธ์ที่มีอยู่ใน Dataset นี้และหาคำตอบสำหรับคำถามต่าง ๆ เช่น:

  • ผู้ป่วยเบาหวาน มีแนวโน้มที่จะเป็นโรคหัวใจตั้งแต่อายุยังน้อยหรือไม่?
  • มีกลุ่มประชากรบางกลุ่ม ที่เสี่ยงต่อการเป็นโรคหัวใจ มากกว่ากลุ่มอื่น ๆ หรือไม่?
  • การออกกำลังกายบ่อย ๆ สามารถช่วยลดความเสี่ยง ในการเกิดโรคหัวใจหรือไม่?
  • ผู้สูบบุหรี่ มีแนวโน้มที่จะเป็นโรคหัวใจ มากกว่าผู้ที่ไม่สูบบุหรี่หรือไม่?

ความสามารถในการตอบคำถามเหล่านี้ด้วยความช่วยเหลือของข้อมูลที่มีอยู่ ถือเป็นทักษะที่สำคัญสำหรับ Data Scientist ที่ต้องมี

Projects นี้ไม่เพียงจะช่วยเสริมสร้างทักษะของคุณในฐานะของ Analyst แต่คุณยังแสดงให้เห็นถึงความสามารถในการหา Insight จาก Datasets ขนาดใหญ่

2. World Happiness Report

Dataset: World Happiness Report

Tutorial: World Happiness Report EDA

Language: Python

World Happiness Report มีการติดตามปัจจัย 6 ประการ ในการวัด Global Happiness ได้แก่ Life Expectancy, Economics, Social Support, Absence of Corruption, Freedom และ Generosity

คุณสามารถตอบคำถามต่อไปนี้ เมื่อทำการวิเคราะห์ Dataset นี้:

  • ประเทศใด ที่มีความสุขที่สุดในโลก?
  • อะไรคือปัจจัยที่สำคัญที่สุด ที่ทำให้ประเทศมีความสุข
  • ความสุขโดยรวม มีการเพิ่มขึ้นหรือลดลง?

นี่เป็น Project ที่จะช่วยปรับปรุง Skillset ของคุณในฐานะ Analyst ซึ่งลักษณะที่โดดเด่นของ Data Analysts ที่ประสบความสำเร็จส่วนใหญ่ ก็คือ ความอยากรู้อยากเห็น

Data Scientist และ Analysts มักมองหาปัจจัยสาเหตุ (Contributing Factors) พวกเขามักจะมองหาความสัมพันธ์ระหว่างตัวแปร และถามคำถาม อยู่ตลอดเวลา

Skill 3: Data Visualization

เมื่อคุณเริ่มทำงานเป็น Data Scientist ลูกค้าและผู้มีส่วนได้ส่วนเสียของคุณ มักจะเป็นคนที่ไม่เชี่ยวชาญด้านเทคนิค

คุณจะต้องแจกแจง Insight ของคุณ และนำเสนอสิ่งที่ค้นพบให้กับ Audience ที่ไม่เชี่ยวชาญทางด้านเทคนิค

วิธีที่ดีที่สุดในการทำแบบนี้ ก็คือ ในรูปแบบของ Visualizations

การนำเสนอ Interactive Dashboard จะช่วยให้คุณถ่ายทอด Insights ได้ดีขึ้นมาก เนื่องจาก Graphs สามารถเข้าใจได้ง่ายในทันทีที่ได้เห็น

ด้วยเหตุนี้ บริษัทหลายแห่งจึงระบุว่า Data Visualization ถือเป็นทักษะที่ต้องมีสำหรับตำแหน่งงานที่เกี่ยวข้องกับแวดวง Data Science

นี่คือ Projects บางส่วน ที่คุณสามารถแสดงใน Portfolio ของคุณ เพื่อแสดง Data Visualization Skills ของคุณ:

1. สร้าง Covid-19 Dashboard

Dataset: Covid-19 Data Repository at Johns Hopkins University

Tutorial: Building Covid-19 Dashboard with Python and Tableau

Language: Python

ก่อนอื่นคุณต้องประมวลผล Dataset ข้างต้นโดยใช้ Python ก่อน จากนั้นคุณสามารถสร้าง Interactive Covid-19 Dashboard โดยใช้ Tableau

Tableau ถือเป็นหนึ่งใน Data Visualization Tools ที่เป็นที่ต้องการมากที่สุดตัวหนึ่ง และถือเป็น Requirement เบื้องต้นสำหรับตำแหน่ง Data Science ในระดับเริ่มต้น เป็นส่วนใหญ่

การสร้าง Dashboard โดยใช้ Tableau และแสดงไว้ใน Portfolio ของคุณ จะช่วยให้คุณโดดเด่น เนื่องจากมันแสดงให้เห็นถึงความเชี่ยวชาญในการใช้ Tool นี้

2. สร้าง IMDB-Movie Dataset Dashboard

Dataset: IMDb Top Rated Movies

Tutorial: Exploring IMDb Top 250 with Tableau

คุณสามารถทดลองกับ IMDb Dataset และสร้าง Interactive Movie Dashboard ด้วย Tableau

ดังที่ได้กล่าวไว้ข้างต้น การแสดง Tableau Dashboards ที่คุณสร้างขึ้น สามารถช่วยให้ Portfolio ของคุณโดดเด่นขึ้นได้

สิ่งที่ยอดเยี่ยมอีกอย่างเกี่ยวกับ Tableau ก็คือ คุณสามารถ Upload Visualizations ของคุณไปยัง Tableau Public และแชร์ Links กับใครตามที่ต้องการใช้ Dashboard ของคุณ

นั่นหมายความว่า ว่าที่นายจ้างของคุณสามารถ Interact กับ Dashboard ของคุณได้ ซึ่งทำให้เกิดความน่าสนใจ เมื่อพวกเขาสนใจ Projects ของคุณ และสามารถลองใช้ End Product ได้ มันก็เป็นการเพิ่มโอกาสในการได้งานทำ

หากคุณต้องการเริ่มต้นกับ Tableau คุณสามารถดูที่ Tutorials ได้ที่นี่

Skill 4: Machine Learning

สุดท้ายคุณจะต้องแสดง Projects ที่แสดงให้เห็นถึงความเชี่ยวชาญในเรื่อง Machine Learning ของคุณ

ขอแนะนำให้ทำทั้ง 2 อย่างนี้ - Supervised และ Unsupervised Machine Learning Projects

1. Sentiment Analysis on Food Reviews

Dataset: Amazon Fine Food Reviews Dataset

Tutorial: A beginner’s guide to sentiment analysis with Python

Language: Python

Sentiment Analysis มันเป็นสิ่งที่สำคัญมากใน Machine Learning แวดวงธุรกิจมักใช้มันเพื่อวัดการตอบสนองของลูกค้าโดยรวมต่อ Products ของพวกเขา

  • ลูกค้ามักจะพูดคุยเกี่ยวกับ Products ต่าง ๆ บน Social Media และ Customer Feedback Forums ซึ่ง Data เหล่านี้สามารถถูกรวบรวมและวิเคราะห์เพื่อทำความเข้าใจว่า ผู้คนมีการตอบสนองต่อกลยุทธ์ทางการตลาดที่แตกต่างกันอย่างไรบ้าง
  • จากการทำ Sentiment Analysis บริษัทต่าง ๆ สามารถวาง Position ของ Products พวกเขา ให้แตกต่างกันหรือเปลี่ยนกลุ่มเป้าหมายได้
  • ขอแนะนำให้คุณแสดง Sentiment Analysis Project ใน Portfolio ของคุณ เนื่องจากธุรกิจแทบจะทั้งหมดมี Social Media เป็นของตนเองและจำเป็นต้องทราบ Feedback จากลูกค้าของพวกเขา

2. Life Expectancy Prediction

Dataset: Life Expectancy Dataset

Tutorial: Life Expectancy Regression

Language: Python

ใน Projects นี้ คุณจะทำนายอายุขัยของบุคคล โดยพิจารณาจากตัวแปรต่าง ๆ เช่น การศึกษา, จำนวนการเสียชีวิตของทารก, การดื่ม Alcohol และการเสียชีวิตในผู้ใหญ่

Sentiment Analysis Project ที่ระบุไว้ข้างต้นเป็น Classification Problem ซึ่งเป็นสาเหตุที่ว่า ทำไมถึงได้เพิ่ม Regression Problem เข้าไปด้วย

มันเป็นสิ่งสำคัญที่ควรแสดง Projects ต่าง ๆ ใน Resume ของคุณเพื่อแสดงถึงความเชี่ยวชาญของคุณในด้านต่าง ๆ

3. Breast Cancer Analysis

Dataset: Breast Cancer Dataset

Tutorial: Cluster analysis of breast cancer dataset

Language: Python

ใน Projects นี้ คุณจะใช้ K-Means Clustering Algorithm เพื่อตรวจหามะเร็งเต้านมตามคุณลักษณะของกลุ่มเป้าหมาย

โดย K-Means Clustering ถือเป็น Unsupervised Learning Technique

มันเป็นเรื่องสำคัญที่คุณควรมี Clustering Projects ใน Portfolio ของคุณ เนื่องจาก Data ในโลกของความเป็นจริงส่วนใหญ่ มักจะไม่มีป้ายกำกับไว้ว่ามันคืออะไร หรือสำคัญอย่างไร

แม้แต่ Datasets ขนาดใหญ่ที่บริษัทเก็บรวบรวม ก็มักจะไม่มี Label กำกับไว้ ในฐานะของ Data Scientist คุณอาจต้องทำ Label ด้วยตัวคุณเอง โดยใช้ Unsupervised Learning Technique

ที่มา:  https://towardsdatascience.com/

 

 

รับตำแหน่งงานไอทีใหม่ๆ ด้วยบริการ IT Job Alert

 

อัพเดทบทความจากคนวงในสายไอทีทาง LINE ก่อนใคร
อย่าลืมแอดไลน์ @techstarth เป็นเพื่อนนะคะ

เพิ่มเพื่อน

 

บทความล่าสุด