Fast campus School

Python 데이터 사이언스 EVENT

[HIRING DAY 현장 스케치] 데이터 사이언티스트의 꿈을 키우다!

데이터 사이언티스트의 꿈을 키우다!

2017.02.24 | 2393 명 읽음



SCHOOL은 패스트캠퍼스의 3개월 전일제 과정입니다. 데이터 사이언스부터 웹 프로그래밍, 디지털 마케팅, iOS 개발, 프론트엔드 개발, 안드로이드 개발, UX/UI 디자인까지 다양한 분야의 학습을 제공하고 있죠. 사람들이 '하고 싶은 일'을 하며 살 수 있도록 돕자는 비전을 가지고 꾸준히 달려오고 있습니다. 이미 SCHOOL을 통해 원하는 회사로 취업/이직에 성공한 수료생의 비율이 80%를 돌파하며 세간의 이목을 끌고 있죠.


얼마 전에는 디지털 마케팅 SCHOOL의 HIRING DAY를 그린 포스팅을 소개해 드렸는데요, 수료생들의 3개월 간 노력이 고스란히 녹아든 프로젝트가 인상적이었습니다. 채용 담당자들을 놀라게 하고도 남을, 탁월한 인사이트가 돋보였죠. 오늘은 데이터 사이언스 SCHOOL의 이야기를 준비했습니다. 데이터를 수집, 가공, 분석하여 숨어있던 통찰을 찾아내는 데이터 사이언티스트를 꿈꾸며 SCHOOL에 입학한 수강생들은 어떤 3개월을 보냈을까요?


디지털 마케팅 SCHOOL HIRING DAY 스케치 보기 >>>






8월 5일 진행된 HIRING DAY에서는 먼저 디지털 마케팅 SCHOOL 수료생 프로젝트 발표와 데이터 사이언스 SCHOOL 수료생들의 발표가 진행됐고 그 후 참석한 각 기업의 인사 담당자들이 수료생들과 채용 인터뷰를 하는 순서로 진행되었습니다.


수십 명의 인사 담당자들 앞에 선 데이터 사이언스 SCHOOL의 수강생들은 처음에는 긴장이 역력한 모습을 보였지만, 이내 여유를 되찾았습니다. 준비한 프로젝트를 미련 없이 선보였기에 인사 담당자들도 고개를 끄덕였죠. 데이터 사이언스 SCHOOL의 수료생들은 어떤 발표를 진행했는지, HIRING DAY 이후 어떤 길을 걷고 있는지 궁금한 분들을 위해 프레젠테이션 스케치를 준비했습니다. 






영화 관객 수 예측 시스템, 조용환


"꾸준히 패스트캠퍼스 매니저님들과 같이 공부하고,

리허설을 진행했기 때문에 발표를 무사히 마칠 수 있었습니다."


데이터 사이언스 SCHOOL 2기 수료생 조용환 님께서는 평소 본인이 좋아하던 '영화'를 주제로 프로젝트를 진행하셨습니다. 기존 흥행 데이터를 활용해 개봉 중인 영화의 '관객 수'를 예측하는 시스템인데요, 데이터 사이언스를 전혀 모르는 사람도 이 분야에 대한 관심이 생길 만큼 흥미로운 주제였습니다. 과연 이 프로젝트의 결과는 어땠을까요?



흥행에 성공했던 영화 '명량'의 일일 관객 수와 일주일 관객 수가 비슷했던 '부산행'을 분석해 과연 '부산행'이 '명량'보다 좋은 흥행 성적을 낼 수 있을지를 찾아내는 것이었죠. 



2000년 이후 개봉한 영화 중 최종 관객 수가 10,000명 이상인 영화 2600여 개를 대상으로 영화 정보(개봉 월, 상영 등급, 상영 시간, 제작 국가, 장르, 감독, 배우, 배급사), 관객 정보(일주일간 관객 수, 스크린 점유율, 상영 점유율, 좌석 점유율), 네이버 정보(개봉 전 네이버 평점, 평가 참여 인원)를 토대로 OLS 예측 회귀 모델을 통해 회귀 분석을 진행하여 관객을 예측했습니다.



최근 상영 종료 영화를 분석한 결과 또한 정확도가 약 87%로, 나쁘지 않은 수치를 보였습니다. 따라서 이 분석에 사용했던 영화 정보, 관객 정보, 네이버 정보를 활용해서 애초 계획했던 '부산행'을 분석해 보았습니다.



그 결과, 예측 관객 수 1070만 명으로 명량의 관객 수 1761만 명은 이기지 못할 것이라는 결과가 나왔네요. 실제로 9월 22일 기준 부산행의 누적 관객 수는 1150만 명으로, 용환님의 예측과 실제 결과가 유사했습니다. 이 분석 과정에서, 영화 흥행을 예측하는 데 있어 개봉일 당일의 관객 수와 네이버 영화 평점, 그리고 시사회가 중요한 지표라는 인사이트를 얻을 수 있었습니다.



조용환님은 HIRING DAY에서 아프리카TV, 바로고, 에이스 프로젝트, 리디북스의 인사 담당자와 인터뷰를 진행하셨는데요, 본인이 지니고 있는 인사이트를 아낌없이 어필하셨다고 합니다. 이후에 용환님은 머신러닝 기반 빅데이터 분석 기업 '솔리드웨어'에 취업하셨습니다. 패스트캠퍼스 매니저들에게도 정말 반가운 소식이었죠!






네이버 웹 소설 추천 시스템, 김민수


"인사 담당자분들은 성과보다는 '해결하는 과정' 더 궁금해하는 것 같았어요."



데이터 사이언스 SCHOOL 2기 수료생 김민수 님께서는 우리나라의 '웹 소설' 시장에 주목했습니다. 네이버 웹 소설 조회 수가 2013년 13억 4000만에서 2015년 45억 2000만으로 성장한 만큼, 이 시장과 관련된 프로젝트는 그 의미가 클 것이라고 생각하신 거죠.



거대한 규모에도 불구하고 웹 소설 사이트는 '선호 장르 추천'과 '베스트 추천'만 제공하고 있었습니다. 민수 님은 '개인에 맞춤 추천 시스템'이 필요하다는 걸 인지하고 개인화된 웹 소설 추천 시스템 개발을 시작했습니다.



추천 시스템의 종류에는 두 가지가 있는데요, A라는 아이템을 선택한 사용자가 B 아이템을 선택했을 때, A 아이템을 선택한 다른 사용자에게도 B 아이템을 추천해주는 '유저 기반 추천' 방식과 아이템끼리의 유사도를 측정하여 특정 아이템을 선택하면 그와 비슷한 아이템을 추천하는 '아이템 기반 추천'방식이 있습니다. 민수 님은 두 가지 방식을 모두 사용하기로 했습니다. 



유사도 측정 방식에서는 읽은 책을 기준으로 유사한 사용자 간 거리에 기반을 둔 추천 방식보다는 경향과 특성에 기반해 보다 안정적인 각도 기반 추천 방식을 선택했습니다. 



데이터에 대해 다각적 분석을 실행하셨습니다. 회귀 분석을 통해서는 '작가'와 '장르'가 책 선호도에 영향이 있다는 것과 유저들은 미완결보다는 완결 작을 선호한다는 것, 또한 장르별 Classification을 통해서는 네이버에서 SF & 판타지와 퓨전은 분류가 잘 이뤄지지 않아 같은 장르로 봐도 무방하다는 것, 그리고 유저 기반 추천 방식은 읽은 책이 적다면 분석이 어렵다는 인사이트를 얻었습니다. 



얻은 인사이트에 기반해 위와 같은 추천 시스템의 알고리즘을 설정했죠. 이에 그치지 않고 MAE 평가 방식을 활용해 본인이 진행한 프로젝트의 성과를 측정했습니다, MAE 평가 이외의 실질적인 평가 방식이 필요하다는 것, 속도와 메모리의 최적화 문제를 개선해야 한다는 것, 좀 더 정밀한 선호도 측정이 필요하다는 것은 개선해야 할 부분이었습니다.


 

김민수 님은 HIRING DAY를 마친 후 데이터를 수집, 분석해 주식 가격 예측 모델을 만드는 '하포 리서치 코리아'에 입사하셨습니다. 데이터의 중요성을 알고, 이를 활용하기 위한 방법을 끊임없이 강구하는 기업이기에 민수님의 능력이 만개할 수 있을 거라 기대합니다.






Github User 추천 시스템, 변성윤


"SK테크엑스, 아프리카 TV, 에이스 프로젝트의 인사 담당자와 대화를 나눴습니다."


데이터 사이언스 SCHOOL 2기 수료생 변성윤님께서는 경영학과를 나와 광고 기획을 공부하고, 크라우드 펀딩에 참여하는 등 데이터 사이언스와는 거리가 먼 길을 걸어오셨습니다. 그래서 이 분야에 처음 발을 들이셨을 때 많은 어려움을 느끼셨다고 합니다. 그 기억을 되짚으며 진행하신 프로젝트가 바로 'Github 추천 시스템'인데요, 개발자들의 SNS인 Github에서, 특정 유저에게 도움이 될 만한 유저를 추천해주는 시스템입니다. 자신에게 딱 맞는 유저의 포트폴리오를 확인하고, 공부할 수 있다면 보다 효과적으로 공부를 할 수 있겠죠?



먼저, Selenium 라이브러리를 통해 데이터를 크롤링했습니다. 그 결과, 2,110명의 유저와 Repository 데이터 19,344 건, 다른 사용자가 Fork(팔로우)한 데이터 21,220건을 수집할 수 있었죠. 



그 후 유저 간 거리 측정을 위해 사용하는 프로그래밍 언어를 토대로 유사도 매트릭스를 생성했죠. 이어 유저들이 Fork한 유저 리스트를 활용해 word2vec 모델링에 적용했습니다. word2vec는 단어를 벡터화시켜 단어 간의 연산을 가능하게 해주는 알고리즘으로, 구글이 2013년에 개발했습니다.



수집된 데이터를 활용해 사용하는 언어를 기준으로 1차적으로 유저 간 거리를 측정하고, 이후 Fork 데이터를 모델링 해 word2vec에 적용함으로써 특정 유저와 가장 연관도가 높은 유저를 추천할 수 있었습니다.



결과적으로 나와 같은 언어를 사용하는 유저, 나와 같은 언어와 추가로 다른 언어를 같이 사용하는 유저, 같은 언어를 사용하더라도 그 용도가 다른 유저를 추천받을 수 있는 시스템을 구축할 수 있었습니다. 이 추천 시스템을 통해 내게 도움이 될 사람의 Github을 확인할 수 있고, 막막하던 데이터 사이언스 분야 학습의 방향성을 찾을 수 있는 것이죠.



변성윤님은 HIRING DAY에서 SK 테크엑스, 아프리카 TV, 에이스 프로젝트와 인터뷰를 진행하며 이 프로젝트를 진행한 동기와 과정에 대해 이야기를 나누셨다고 합니다. HIRING DAY 이후 패스트캠퍼스의 Apache Spark을 이용한 빅데이터 분석 CAMP를 추가적으로 수강하시며 스킬셋과 역량을 꾸준히 높이고 계십니다.



데이터 사이언스 SCHOOL의 프로젝트, 잘 보셨나요? 한 명도 빠짐없이 3개월 간의 여정을 소화하며 수준 높은 발표까지 선보인 데이터 사이언티스트들! 앞으로의 행보가 더욱 기대됩니다.


데이터 사이언스 SCHOOL을 더 알고 싶다면? ▼

[클릭] 데이터 사이언스 SCHOOL 자세히 보기 >>>