15개의 데이터셋을 사용한 머신러닝 및 데이터 사이언스 프로젝트 아이디어

자료실
기타
작성자
인사이트캠퍼스
작성일
2020-08-13 10:43
조회
12712

15 Machine Learning and Data Science Project Ideas with Datasets

15개의 데이터셋을 사용한 머신러닝 및 데이터 사이언스 프로젝트 아이디어

 

 

 

* 이 글은 towards data science에 작성된 Amit Chauhan의 글을 번역하였습니다.

 

이 글에서는 초급자를 위한 15개의 머신러닝과 데이터 사이언스 프로젝트에 대해 이야기하고자 한다. 여러분은 배우는 것을 즐기고, 동기를 부여하며, 더 빠르게 발전할 것이다. 머신러닝이나 데이터 사이언스 프로젝트에서 데이터셋을 찾는 것은 상당히 어려운 작업이다. 그리고 정확한 모델을 만들기 위해서는 엄청난 양의 데이터가 필요하다. 그러나 걱정하지 말자. 많은 연구자, 조직 및 개인들이 자신의 작업을 공유했으며 우리는 프로젝트에서 데이터셋들을 사용할 수 있다.

이 글에서는 ML/DS 프로젝트를 구축하는 데 사용할 수 있는 12개 이상의 ML/DS 데이터셋에 대해 이야기하겠다. 이러한 프로젝트 아이디어는 여러분이 기계 학습 기술을 더 많이 성장시키고 향상시킬 수 있도록 해준다. 이러한 ML/DS 프로젝트는 Python, R 또는 다른 도구로 개발할 수 있다. 머신러닝과 인공지능에 입문하는 것은 쉬운 일이 아니지만 데이터 사이언스 프로그램의 중요한 부분이다. 많은 전문가들과 애호가들은 오늘날 이용할 수 있는 엄청난 양의 자원을 감안할 때 이 분야에 제대로 된 길을 개척하는 것이 어렵다고 생각한다. 데이터 사이언스의 목표는 데이터로부터 중요한 추론을 찾아 비즈니스를 성장시키는 것이다.

 

1. Fake News Detection Project and Dataset

본 프로젝트는 '가짜 뉴스' 즉, 신뢰할 수 없는 출처에서 나오는 잘못된 뉴스들을 탐지하기 위한 NLP(Natural Language Processing) 기술 어플리케이션에 매우 유용하다. 가짜뉴스의 표현은 표준 뉴스와 구별되며, 기계학습은 이런 차이를 감지할 수 있다는 생각에서 출발했다. Passive-Aggressive Classifier algorithm을 사용하여 가짜 뉴스 탐지 모델을 구축하십시오. 이 알고리즘은 방대한 데이터 스트림을 분류할 수 있고, 빠르게 구현될 수 있다.

https://www.kaggle.com/c/fake-news/data

 

2. Iris Project and Dataset

이것은 아마도 패턴 인식 분야에서 찾아볼 수 있는 가장 잘 알려진 데이터베이스일 것이다. 이 데이터셋은 각기 다른 종류의 아이리스(Setosa, Versicolour, Virginica) 꽃잎과 꽃받침 길이를 가진 50개 인스턴스의 3개 클래스로 구성된다. 한 클래스는 다른 2개의 클래스와 선형적으로 분리할 수 있고, 각각의 클래스는 서로 선형적으로 분리할 수 없다. 데이터셋에 머신러닝 분류 또는 회귀 모델을 구현하십시오. 분류는 항목을 해당 클래스로 구분하는 작업이다.

https://archive.ics.uci.edu/ml/datasets/Iris

 

3. MNIST Dataset

이미지에 머신러닝 분류 알고리즘을 구현하여 종이에서 손으로 쓴 숫자를 인식한다.

http://yann.lecun.com/exdb/mnist/

 

4. Housing Prices project and Dataset

이것은 패턴 인식에 사용되는 인기 있는 데이터셋이다. 범죄율, 세금, 방 수 등을 기준으로 보스턴의 여러 집들에 대한 정보를 담고 있다. 그것은 506개의 행과 14개의 다른 변수를 열에 가지고 있다. 이 데이터셋을 사용하여 집값을 예측할 수 있다. 선형 회귀 분석을 사용하여 새 주택의 가격을 예측한다. 선형 회귀 분석은 데이터가 속성과 타겟 변수 사이에 어떤 선형 관계를 가질 때 알 수 없는 입력 값을 예측하는 데 사용된다.

https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

 

5. Titanic Project and Dataset

1912년 4월 15일, 타이타닉호의 2224명의 승객중 중 1502명의 승객이 목숨을 잃었다. 데이터셋에는 훈련셋 약 891명의 승객과 테스트셋 약 418명의 승객의 이름, 나이, 성별, 탑승 형제자매 수 등의 정보가 담겨 있다. 타이타닉에서 사람이 살아남았을지 아닌지를 예측하는 모델을 구축하십시오. 선형 회귀 분석을 사용할 수 있다.

https://www.kaggle.com/c/titanic/data

 

6. Credit Card Fraud Detection Project and Dataset

이 데이터셋은 신용카드로 이루어진 거래를 포함하고 있으며, 그것들은 사기성 또는 실제 거래로 분류된다. 이는 거래시스템을 갖춘 기업이 부정행위 적발 모델을 구축하기 위한 것으로 중요하다. 어떤 것이 더 정확한지 알기 위해 앙상블 기법, 로지스틱 회귀, 인공신경망과 같은 다른 알고리즘을 구현한다. 각 알고리즘의 결과를 비교하고 모델의 동작을 이해한다.

https://www.kaggle.com/mlg-ulb/creditcardfraud

 

7. COVID19 Tweets Project and Dataset

이 트윗들은 트위터 API와 Python 스크립트를 사용하여 수집된다. 이 해시태그(#covid19)에 대한 쿼리는 일정 기간 동안 매일 실행되어 더 많은 수의 트윗 샘플을 수집한다. 이 데이터를 사용하여 이 해시태그를 사용하는 주제에 대해 자세히 살펴보고, 지리적 분포를 살펴보고, 정서를 평가하고, 트렌드를 볼 수 있다.

https://www.kaggle.com/gpreda/covid19-tweets

 

8. Indian School Education Statistics

이 데이터셋에는 2013-2014년에서 2015-2016년의 인도 학교 교육 통계에 대한 정보가 포함되어 있다. 인도 정부의 많은 공공 데이터셋이 산재되어 있으며, 여기서의 목표는 초보자가 데이터 사이언스를 시작하기 위해 이와 같은 중요한 데이터셋을 쉽게 찾을 수 있도록 모든 데이터셋을 하나의 umbrella 아래에 두는 것이다. 이 데이터셋은 특히 데이터 사이언스 학습의 시작에 유용하며, 또한 인도의 교육이 몇 년 동안 어떻게 진행되고 있는지 알고 싶은 사람이라면 누구에게나 유용하다.

 

아래의 질문에 답하여 탐색을 시작할 수 있다.

- 중퇴 비율이 가장 높은 주는?

- 남학생과 여학생들은 충분한 물과 화장실 시설을 이용할 수 있는가?

- 다양한 수준의 학교생활에서 남학생과 여학생의 총 취학률은 어떠한가?

- 입학정원이 적은 학교생활의 수준은 어느 정도인가?

- 다른 아이디어는?

https://www.kaggle.com/vidyapb/indian-school-education-statistics

 

9. Air Pollution in Seoul

이 데이터셋은 한국의 서울의 대기 오염 측정 정보를 다룬다. 이 데이터는 6개 오염물질(SO2, NO2, CO, O3, PM10, PM2.5)에 대한 평균값을 제공한다.

- 2017~2019년 사이 매시간 데이터가 측정됐다.

- 서울 25개 구를 대상으로 데이터가 측정됐다.

- 이 데이터셋은 네 개의 파일로 나뉜다.

 

데이터셋의으로 다음과 같은 작업을 수행할 수 있다.

- 측정 정보 : 대기오염 측정 정보.

- 측정 항목 정보 : 대기오염 측정 항목에 대한 정보.

- 측정소 정보 : 대기오염 계측소에 대한 정보.

- 측정 요약 : 위의 세 가지 데이터를 기반으로 한 축약된 데이터셋.

https://www.kaggle.com/bappekim/air-pollution-in-seoul

 

10. Hotel Booking Demand Datasets

일년 중 호텔 방을 예약하기에 가장 좋은 시기가 언제인지 궁금해 본 적이 있는가? 아니면 가장 합리적인 하루 숙박료를 이루는 최적의 숙박기간을? 호텔이 불균형적으로 많은 수의 특별 요청을 받을 가능성이 있는지 여부를 예측하고 싶다면? 이 호텔 예약 데이터셋은 이러한 질문을 탐색하는 데 도움이 될 수 있다. 이 데이터셋에는 시티 호텔과 리조트 호텔의 예약 정보가 수록되어 있으며, 예약 시기, 투숙 기간, 성인, 어린이 또는 유아 수, 이용 가능한 주차 공간 수 등의 정보가 포함되어 있다. 이 데이터셋은 탐색적 데이터 분석(EDA)을 연습하거나 예측 모델 구축에 시작하고자 하는 모든 사람들에게 이상적이다.

https://www.kaggle.com/jessemostipak/hotel-booking-demand

 

11. Data Science for COVID-19 (DS4C)

COVID-19는 한국에서 1만 명 이상의 사람들을 감염시켰다. 질병관리본부는 COVID-19의 정보를 신속하고 투명하게 발표한다. 이 구조화된 데이터셋은 KCDC와 지방자치단체의 보고서 자료를 기반으로 한다. 실무자들은 다양한 데이터 마이닝 또는 시각화 기법을 사용하여 데이터를 분석하고 시각화한다.

https://www.kaggle.com/kimjihoo/coronavirusdatasetor https://github.com/ThisIsIsaac/Data-Science-for-COVID-19

 

12. The Movies Dataset

이 데이터셋에는 Full MovieLens Dataset에 나열된 45,000개의 모든 영화에 대한 메타데이터가 포함되어 있다. 이 데이터셋은 2017년 7월 이전에 개봉한 영화들로 구성되어 있다. 데이터 포인트에는 캐스트, 크루, 플롯 키워드, 예산, 수익, 포스터, 개봉일, 언어, 제작사, 국가, TMDB 투표 수 및 투표 평균이 포함된다.

 

이 데이터 집합으로 수행할 수 있는 몇 가지 작업이 다음과 같이 있다.

- 특정 지표를 기준으로 영화 수익 및 또는 영화 성공 예측.

- 어떤 영화가 TMDB에서 더 높은 투표수와 평균 투표율을 얻는 경향이 있는가?

- 내용 기반 및 협업 필터링 기반 추천 엔진을 구축.

https://www.kaggle.com/rounakbanik/the-movies-dataset

 

13. Mobile App Store ( 7200 apps)

끊임없이 변화하는 모바일 시장은 항해하기 어려운 공간이다. 데스크톱에서 모바일이 차지하는 비율은 점점 더 높아지고 있을 뿐이다. 스마트폰 시장의 약 53.2%를 안드로이드가 차지하고 있는 반면 iOS는 43%에 달한다. 이 데이터는 Apple의 웹사이트의 iTunes Search API에서 추출되었다.

- 앱 세부 사항은 사용자 등급에 어떻게 기여하는가?

- 다른 그룹에 대한 앱 통계를 비교해보시겠습니까?

https://www.kaggle.com/ramamet4/app-store-apple-data-set-10k-apps

 

14. Telco Customer Churn

"고객을 유지하기 위한 행동을 예측하십시오. 모든 관련 고객 데이터를 분석하고 집중적인 고객 유지 프로그램을 개발할 수 있다." [IBM 샘플 데이터셋]

 

데이터셋에는 다음에 대한 정보가 포함되어 있다.

- 지난 달 내에 떠난 고객들 : 이 컬럼을 "Churn"이라고 한다.

- 각 고객이 가입한 서비스 : 전화, 다중 회선, 인터넷, 온라인 보안, 온라인 백업, 장치 보호, 기술 지원, 스트리밍 TV 및 영화

- 고객 계정 정보 : 고객, 계약, 결제 방법, 디지털 청구서, 월별 요금 및 총 요금.

- 고객에 대한 인구 통계 정보 : 성별, 연령 범위, 파트너 및 부양가족이 있는지 여부.

이러한 유형의 모델을 살펴보고 주제에 대해 자세히 알아보십시오.

https://www.kaggle.com/blastchar/telco-customer-churn

 

15. NBA Players stats since 1950

이 데이터셋에는 67개의 NBA 시즌에 대한 집계된 개별 통계가 포함되어 있다. 포인트, 어시스트, 리바운드 등과 같은 기본 박스 스코어 속성부터 Value Over Replacement와 같은 보다 발전된 머니볼에 이르기까지. 선수의 신체 속성뿐만 아니라 과거의 실적 데이터를 바탕으로 선수의 성적을 예측하는 모델을 만들고자 한다.

https://www.kaggle.com/drgilermo/nba-players-stats

 

 

우리는 ML/DS 프로젝트가 당신의 응용 ML 스킬을 빠르게 향상시키는 동시에 흥미로운 주제를 탐구할 수 있는 기회를 줄 것이라는 결론을 내릴 수 있다. 다양한 알고리즘의 장점과 한계에 대해 배울 수 있다. 지금까지 배운 개념은 데이터 중심 전략을 결정할 때 데이터에 능숙한 관리자가 반드시 고려해야 하는 일련의 도전과 위험을 도입한다.

우리의 ML/DS 프로젝트 아이디어가 당신에게 유용했기를 바란다.

 

 

번역 - 핀인사이트 인턴연구원 김영현

 

 

원문 보러가기 >

https://towardsdatascience.com/15-machine-learning-and-data-science-project-ideas-with-datasets-32f0a777d491

 

 

전체 0

전체 642
번호 제목 작성자 작성일 추천 조회
공지사항
비밀글 파이썬으로 배우는 블록체인 구조와 이론 (위키북스)
finweb | 2019.07.05 | 추천 0 | 조회 23
finweb 2019.07.05 0 23
580
이상거래(Fraud) 탐지, 위험성 평가 등을 지원하는 핀테크 AI
인사이트캠퍼스 | 2020.09.07 | 추천 0 | 조회 504
인사이트캠퍼스 2020.09.07 0 504
579
인공지능은 당신의 돈을 더 스마트하게 해준다
인사이트캠퍼스 | 2020.09.07 | 추천 0 | 조회 345
인사이트캠퍼스 2020.09.07 0 345
578
게임 산업에서의 AI의 미래에 대한 예측 5가지
인사이트캠퍼스 | 2020.08.27 | 추천 0 | 조회 1416
인사이트캠퍼스 2020.08.27 0 1416
577
"강의에서 배운 attention network를 감성 분석이나 주제 분석에 활용해 보고 싶어요" (현준욱님 인터뷰)
인사이트캠퍼스 | 2020.08.14 | 추천 0 | 조회 627
인사이트캠퍼스 2020.08.14 0 627
576
15개의 데이터셋을 사용한 머신러닝 및 데이터 사이언스 프로젝트 아이디어
인사이트캠퍼스 | 2020.08.13 | 추천 0 | 조회 12712
인사이트캠퍼스 2020.08.13 0 12712
575
핀테크 혁신을 위한 5가지 AI 기반 기술
인사이트캠퍼스 | 2020.08.06 | 추천 0 | 조회 978
인사이트캠퍼스 2020.08.06 0 978
574
파이썬으로 단계별 첫 머신러닝 프로젝트 시작하기
인사이트캠퍼스 | 2020.07.28 | 추천 0 | 조회 2181
인사이트캠퍼스 2020.07.28 0 2181
573
25분 내에 알고리즘 트레이딩 코딩하기
인사이트캠퍼스 | 2020.07.22 | 추천 0 | 조회 1464
인사이트캠퍼스 2020.07.22 0 1464
572
시장의 미시구조와 마이크로 트레이딩 - 2
인사이트캠퍼스 | 2020.06.18 | 추천 0 | 조회 1100
인사이트캠퍼스 2020.06.18 0 1100
571
시장의 미시구조와 마이크로 트레이딩 - 1
인사이트캠퍼스 | 2020.06.15 | 추천 0 | 조회 1169
인사이트캠퍼스 2020.06.15 0 1169
570
딥러닝을 활용한 금융 시계열 분석 - 2
인사이트캠퍼스 | 2020.05.25 | 추천 0 | 조회 2706
인사이트캠퍼스 2020.05.25 0 2706
569
퀀텀 컴퓨팅의 실용화 방안
인사이트캠퍼스 | 2020.05.18 | 추천 0 | 조회 791
인사이트캠퍼스 2020.05.18 0 791
568
딥러닝을 활용한 금융 시계열 분석 - 1
인사이트캠퍼스 | 2020.05.18 | 추천 0 | 조회 2102
인사이트캠퍼스 2020.05.18 0 2102
567
동적 자산 배분과 유니버셜 포트폴리오
인사이트캠퍼스 | 2020.05.14 | 추천 0 | 조회 1267
인사이트캠퍼스 2020.05.14 0 1267
566
2020년 최고의 인공지능 및 머신러닝 소프트웨어 및 프레임워크 Top 20
인사이트캠퍼스 | 2020.05.13 | 추천 0 | 조회 5604
인사이트캠퍼스 2020.05.13 0 5604
565
자주 묻는 머신러닝 인터뷰 질문 및 답변 50선
인사이트캠퍼스 | 2020.05.11 | 추천 0 | 조회 11732
인사이트캠퍼스 2020.05.11 0 11732
564
좋은 vs 나쁜 액티브 펀드 관리 : 3 가지 지표
인사이트캠퍼스 | 2020.05.06 | 추천 0 | 조회 631
인사이트캠퍼스 2020.05.06 0 631
563
그녀는 돈의 보스: 여성 온라인 투자의 4대 트렌드
인사이트캠퍼스 | 2020.05.06 | 추천 0 | 조회 665
인사이트캠퍼스 2020.05.06 0 665
562
변동성 측정의 이해
인사이트캠퍼스 | 2020.05.06 | 추천 0 | 조회 1084
인사이트캠퍼스 2020.05.06 0 1084
561
새로운 재료를 찾는 데 있어 최적화를 촉진하는 신경망
인사이트캠퍼스 | 2020.04.29 | 추천 0 | 조회 708
인사이트캠퍼스 2020.04.29 0 708