News & Events
데이터 사이언스의 세계에 한발짝 가까워지고 싶은가?
축하한다! 팬데믹 기간 동안 데이터 사이언스 및 인공지능(AI) 분야에서 수행해야 하는 작업이 궁극적으로 증가하고 있으므로 이는 올바른 선택이다. 위기로 인해 과거처럼 많은 인력으로 시장을 다시 세우기 어려워지고 있다. 독자들은 장기간의 취업 여정과 수많은 거절에 대해 스스로 마음의 준비를 해야 할 수도 있다. 여러분은 데이터 사이언스 포트폴리오가 중요하다는 것과 구축 방법을 이미 알고 있으리라 생각한다. 데이터 사이언스 매니아들이 끊임없이 물어보는 질문 중 하나는 매우 우수하고 고유한 포트폴리오를 구축하기 위해 포트폴리오에 어떤 프로젝트를 포함시켜야 하는지에 대한 것이다. 아래에서는 데이터 사이언스 포트폴리오에 대한 8가지 아이디어를 제시했으며, 또한 특정 아이디어를 시작하는 방법에 대한 통찰력을 얻을 수 있는 참조 기사도 함께 첨부했다.
1. 소셜미디어 게시물 기반 우울증 감정 분석
이 주제는 요즘 고려되기에는 매우 민감하고 시급한 조치가 필요해 보인다. 전 세계적으로 2억 6천 4백만 명 이상의 사람들이 우울증을 앓고 있다. 우울증은 전 세계적으로 장애의 주요 원인이고 질병의 전반적인 부담을 크게 차지하고 있으며 매년 거의 80만 명의 사람들이 자살로 목숨을 잃고 있다. 자살은 15세에서 29세 사이의 두 번째 사망 원인이다. 우울증 치료는 종종 지연되거나 부정확하거나 완전히 놓쳐진다.
인터넷을 기반으로 하는 생활은 특히 젊은 성인들에게 초기 우울 중재 서비스를 변화시킬 수 있는 가장 큰 기회를 준다. 꾸준히 트위터에는 약 6,000개의 트윗이 올라오는데, 이는 매 순간 35만개 이상의 트윗, 매일 5억개, 매년 약 2,000억개의 트윗과 관련이 있다.
Pew 리서치 센터에서 알 수 있듯이, 일반인의 72%는 일종의 인터넷 기반 삶을 사용한다. 소셜 네트워크에서 공개되는 데이터셋은 인체 과학 및 뇌 연구와 같은 다양한 분야에서 중요하다. 그러나 전문적 관점에서 보면 지원도 충분치 않으며, 명시적 방법론 역시 절망적이게도 운이 좋지 않다.
소셜미디어 게시물의 언어를 분석함으로써 개인의 정신 건강에 대한 통찰력을 기존 접근 방식보다 훨씬 일찍 제공할 수 있는 딥러닝 모델을 만들 수 있다.
https://towardsdatascience.com/you-are-what-you-tweet-7e23fb84f4ed
https://www.jmir.org/2019/6/e12554/
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6111060/
2. 신경망을 사용한 스포츠 영상 텍스트 요약
이 프로젝트 아이디어는 기본적으로 스포츠 경기 동영상을 통해 정확한 요약을 얻는 것에 기초한다. 경기의 하이라이트를 알려주는 스포츠 웹사이트가 있다. 텍스트 추출, 요약 작업을 위해 다양한 모델이 제안되었지만 신경망이 가장 잘 작동한다. 일반적으로 요약은 중요한 부분을 보호함과 동시에 사실과 정보를 전달하는 부분에 집중하면서 간략한 구조로 정보를 도입하는 것을 의미한다.
게임 영상의 개요를 자동으로 작성하는 것은 게임의 흥미로운 부분 또는 하이라이트를 구별하는 문제를 야기한다.
따라서 3D-CNN(3차원 컨볼루션 네트워크), RNN(Recurrent Neural Network), LSTM(Long Terminal Memory Network) 등의 딥러닝 기법과 영상을 다른 섹션으로 나누고 SVM(Support Vector Machines), NN(Neural Networks), k-means algorithm을 적용하여 머신러닝 알고리즘을 통해 이를 달성할 수 있다.
자세한 이해를 위해 아래 포스팅을 참조해보자.
https://www.mdpi.com/1424-8220/20/6/1702/htm
3. Handwritten equation solver using CNN
이러한 이슈 중에서 손으로 쓴 수학적 표현의 인식은 컴퓨터 비전 연구 분야에서 혼란스러운 이슈 중 하나이다. Handwrited Equation Soflator를 수기 숫자와 수학적 기호로 훈련시킬 수 있으며, 일부 영상 처리 기법으로 Convolutional Neural Network(CNN)를 사용할 수 있다. 이러한 시스템을 개발하려면 데이터를 사용하여 훈련해야 하므로 필요한 정보를 학습하고 예측하는 데 능숙해야 한다.
더 나은 이해를 위해 아래 첨부된 포스팅을 참조해보자.
https://github.com/vipul79321/Handwritten-Equation-Solver
https://opensourc.es/blog/he2latex/
4. NLP를 이용한 비즈니스 미팅 요약
Photo by Sebastian Herrmann on Unsplash
보고서 전체가 아닌 요약본을 보고 싶어했던 적이 있을 것이다. 학교 다닐 때나 대학에 다닐 때 우리들은 보고서 준비에 많은 시간을 할애하지만 선생님은 요약본을 읽을 시간밖에 없다.
요약은 데이터 과부하 문제를 해결하는 데 있어 매우 유용한 방법으로 부상했다. 대화에서 정보를 추출하는 것은 매우 좋은 상업적, 교육적 가치가 있을 수 있다. 이것은 대화의 대화 구조와 함께 통계적, 언어적, 감상적 측면을 특징적으로 포착함으로써 이루어질 수 있다.
보고서를 요약 양식으로 수동으로 변경하는 것은 시간이 매우 오래 걸린다. 그러나 이를 달성하기 위해 자연어 처리(NLP) 기술에 의존할 수 있다.
딥러닝을 이용한 텍스트 요약은 전체 텍스트의 맥락을 이해할 수 있다. 빠른 문서 요약을 해야 하는 우리 모두에게 꿈이 이루어지는 것이 아닌가!!
더 나은 이해를 위해 아래 첨부된 포스팅을 참고해보자.
5. 기분을 감지하고 그에 맞는 노래를 제안하기 위한 얼굴 인식
사람의 얼굴은 개인의 신체의 중요한 부분이며 특히 사람의 심리 상태를 아는 데 중요한 역할을 한다. 이렇게 하면 노래를 수동으로 분리하거나 다양한 레코드로 그룹화하는 지루하고 지루한 작업이 필요 없어지고 개인의 감정적 특징을 바탕으로 적절한 재생 목록을 만들 수 있다.
사람들은 자신의 기분과 관심사에 따라 음악을 듣는 경향이 있다. 표정을 캡처해 사용자의 기분에 맞게 노래를 제안하는 앱을 만들 수 있다.
컴퓨터 비전은 디지털 이미지나 동영상에 대한 높은 수준의 이해를 컴퓨터로 전달하는 학문 간 분야로, 컴퓨터 비전 구성 요소를 사용해 표정을 통해 사용자의 감정을 판단할 수 있다.
필자가 흥미롭고 유용하다고 생각한 API도 있지만, 필자가 직접 작업한 것은 아니지만 도움이 되길 바라면서 첨부한다.
6. Kepler와 같은 우주선에 의해 포착된 이미지로부터 거주 가능한 외계 행성을 알아내기
최근 10년 동안 백만 개 이상의 별들이 지나가는 행성을 식별하기 위해 관찰되었다. 잠재적 외계 행성 후보들에 대한 해석은 노동 집약적이고 인간의 실수에 영향을 받기 때문에 그 결과는 평가하기 어렵다. 컨볼루션 신경망은 최소 제곱법보다 더 뛰어난 정밀도로 노이즈가 많은 시계열 데이터에서 지구와 유사한 외계 행성을 식별하는 데 적합하다.
7. 손상된 릴 이미지의 재생
그렇다, 훼손된 사진을 원래 모습으로 되돌리는 것은 정말 힘들고 고통스럽다. 따라서 모든 이미지 결점(골절, 흠집, 구멍)을 찾아 딥러닝을 할 수 있고, 인페인팅 알고리즘을 이용하면 주변의 픽셀 값에 따라 결점을 쉽게 찾아 이전 사진을 복원하고 색칠할 수 있다.
https://blog.floydhub.com/colorizing-and-restoring-old-images-with-deep-learning/
https://towardsdatascience.com/how-to-perform-image-restoration-absolutely-dataset-free-d08da1a1e96d
8. 딥러닝을 이용한 음악 생성
음악은 다양한 주파수의 음색 집합이다. 자동음악생성기(Automatic Music Generation)는 인간의 최소한의 중재로 짧은 곡을 작곡하는 과정인데 최근에는 딥러닝 공학이 프로그램 음악 시대의 최첨단이 되고 있다.
https://medium.com/analytics-vidhya/music-generation-using-deep-learning-a2b2848ab177
맺음말
멋진 데이터 사이언스 포트폴리오를 구축하는 것이 정말 힘들다는 것을 알고 있다. 하지만 필자가 위에서 제공한 컬렉션으로 당신은 그 분야에서 평균 이상의 발전을 이룰 수 있다. 이 컬렉션은 연구 목적에도 기회를 주는 새로운 컬렉션이다. 따라서 데이터 사이언스의 연구원들은 이러한 아이디어를 선택하여 연구할 수 있으므로 데이터 과학자가 프로젝트를 시작하는 데 큰 도움이 될 것이다. 그리고 아무도 해보지 못한 곳을 탐험하는 것은 정말 즐겁다.
비록 이 컬렉션은 처음부터 발전된 수준까지 아이디어로 구성되어 있지만 말이다.
그래서 필자는 데이터 사이언스 분야의 초보자뿐만 아니라 상위 데이터 과학자들에게도 이것을 추천할 것이다. 프로젝트뿐만 아니라 새로 얻은 네트워크를 통해서도 경력 동안 많은 새로운 길이 열릴 것이다.
이러한 아이디어들은 당신에게 다양한 가능성을 보여주고 틀에서 벗어나 생각할 수 있는 아이디어를 준다.
나와 내 친구들은 사회와 미개척 지식에 가치를 더하는 학습 요소가 중요하고 어떤 면에서는 즐거움이 필수적이라고 생각한다. 그래서 필자는 이런 프로젝트를 즐겨한다. 어떻게 보면 엄청난 지식을 얻을 수 있고, 미개척된 차원을 탐험할 수 있는 방법이기도 하다. 이것이 프로젝트에 시간을 할애할 때 우리의 주된 초점이다.
번역 – 핀인사이트 인턴연구원 강지윤(shety0427@gmail.com)
원문 보러가기>
https://towardsdatascience.com/8-ml-ai-projects-to-make-your-portfolio-stand-out-bfc5be94e063