Fast campus School

R 데이터 분석 집중완성

내가 궁금한 주제로 실제 데이터 분석 프로젝트 실습을 할 수 있다니!

데이터 분석 인텐시브 스쿨 in R 장학생 한상훈님 인터뷰

2017.09.20 | 2572 명 읽음



안녕하세요. 상훈님! 어떠한 계기로 데이터 분석 인텐시브 스쿨 in R을 수강하게 되셨나요?


안녕하세요. 중국에서 8년 정도 거주했고 상해교통대학교를 졸업했습니다. 대학교에서도 데이터 사이언스에 필요한 고등수학, 통계, 선형대수와 MIS와 같은 것들을 공부했지만, 데이터 사이언스를 위한 공부도 아니었고 왜 해야 하는지 등의 필요를 느껴본 적도 없었습니다. 그러다가 패스트 캠퍼스에서 데이터 사이언스 스쿨을 수강하면서 과목 자체에 대한 흥미를 느끼게 되고 더 많은 것을 배우게 되었습니다.


KOTRA 프로젝트 총괄 팀에서 인턴 경험이 계기가 되었습니다. 인턴으로 일할 때, 데이터의 정확한 정보를 누구보다 다양하고 빠르게 얻어내고, 그 안에서 인사이트를 찾아낸다는 것이 엄청난 규모의 성과가 좌우된다는 사실을 알게 되었습니다. 정보가 생명이라는 사실을 뼈저리게 느끼게 되었죠. 그 이후로 데이터 사이언스에 큰 관심을 가지게 되어 패스트 캠퍼스 데이터 분석 인텐시브 스쿨 in R을 수강하게 되었습니다. 




상훈님이 수강했던 본 과정에 대해서 전체적으로 소개해주실 수 있으신가요? 그리고 상훈님은 수강 때 전반적으로 어떤 것을 느꼈는지 말씀해주세요.


빅데이터 관련한 공부를 해본다고 다른 교육업체도 다녀봤지만, 실제적인 분석을 가르쳐주는 곳이 없었거든요. 패스트 캠퍼스 데이터 사이언스 스쿨 과정을 들으며 분석을 실제로 할 수 있는 기회를 얻었습니다. 간단히 과정을 말씀드리면


∨ 데이터 사이언스가 기본적으로 무슨 일을 하는가에서부터 시작해서, 실무에 직접 사용하는 기술들이 무엇이 있는지를 다양한 강사님들을 통해서 배우게 됩니다.

∨ 데이터의 유형, 데이터 핸들링, 기본적인 분석 모델링을 이론과 함께 R 프로그래밍을 이용해 학습하고, 실제 기술을 도입하기 위한 지식인 통계를 배우게 됩니다.

∨ 기본적인 정규분포나 검정 통계량, 회귀분석을 실제 데이터를 사용하여 학습합니다.

∨ 머신 러닝의 기초 개념과 방법론을 주요한 패키지와 접근법에 따라 배우고 R 프로그래밍으로 실습해보는 시간을 가집니다. 머신 러닝 부분에서는 추천이나 예측을 하기 위한 함수들을 배웁니다.

∨ CV 모델링, Knn, K-means, clustering 등의 공식들을 배우고 실습에 적용해 봅니다. 또한, 데이터 수집을 R의 패키지를 이용하여 crawling 실습을 통해 실제 진행되는 프로젝트에 적용합니다. 

∨ 기술적인 부분 이외에도 과제의 접근법을 위한 도메인 지식도 조금 공부하게 됩니다.





저는 이곳에서 데이터를 이해하는 법을 익히고 기술뿐만 아니라 데이터를 더욱 정밀하게 관찰하는 능력을 길렀다고 생각합니다. "데이터 마이닝 이외에도 수많은 과정들을 배제하고 기계가 다 해줄 텐데 뭐 하러 깊게 공부할 필요가 있어?"라는 생각에 "그것은 오산이다."라는 것을 알게 된 계기가 되었습니다.




데이터 사이언스 스쿨 과정 중에 상훈 님은 어떠한 프로젝트를 진행하셨나요? 


2달 과정 동안 총 2가지의 프로젝트를 진행했습니다.





첫째는 Kaggle(http://www.kaggle.com/) 경진대회에서 사용되었던 데이터인 kingcountry의 특정지역 주택관련 데이터였습니다. 유의미한 데이터 변수를 갖고 선형회귀 모형을 만들어 집값 등을 예측하는 프로젝트를 진행했습니다. 첫 프로젝트를 하면서 깊게 알게 된 사실은 실제로 분석 혹은 모델링을 만드는 것보다 데이터를 이해하기 위한 시간이나 가공하는 시간이 더 많이 걸리고 중요하다는 것입니다.처음에는 R에서 가시화적인 방법으로 다양한 그래프(boxplot, 상관관계, 선형 관계)를 그려보고, 최대 최솟값, 중위수, 평균, 편차 등을 계산도 해보고 대체도 해보는 등, 데이터를 유연하게 다루거나 이해하는 시간을 가지게 되었습니다. 그리고 기본적인 검정과 데이터의 이해과정이 잘 이루어져야 회귀 모형을 더욱 잘 만들게 될 수 있다는 것을 알게 되었습니다. 또한, 데이터를 정확하게 이해할 때, 그 나머지 과정을 더 확신을 갖고 임할 수 있다는 것을 배우게 되었습니다.



 



두 번째 프로젝트는 "여행사에서 만약 데이터를 긁어모을 수 있다면, 고객들의 로그 데이터 등이나 입력 데이터를 가지고 소비행위나 성향을 알 수 있을까?"라는 개인적 질문에서 시작하였습니다. 그러기 위해서는 고객을 분류(타깃팅) 하여 좋은 모델(회귀 모형)을 구축하는 것이 중요했습니다. 두 번째 프로젝트는 그전까지 배웠던 통계나 검정을 포함해 머신 러닝을 적용할 수 있다는 것이 의미 있게 느껴졌습니다. 데이터 수집은 고객 데이터와 같은 민감한 데이터에 관한 수집에 한계를 느끼고 UCL Dataset에서의 데이터 셋을 참고하여 직접 가공하였습니다. 실제로 데이터를 가공하고 이해하는 시간이 분석을 하는 시간보다 더 오래 걸리더라고요. 머신 러닝을 적용한 방식은 두 가지인데, 첫 번째는 데이터의 기준을 정하는 분류 방식과 그 방식이 타당한지의 예측을 해보고, 데이터들끼리의 근접 길이나 유사도를 적용해 추천하는 모형을 만드는 데 적용해보았습니다. 마지막 프로젝트를 발표하고 나서 강사님의 많은 피드백으로 개인 프로젝트가 수정이 되고 더욱 안정적인 방향으로 나아갈 수 있음을 느꼈습니다. 


두 개의 프로젝트를 진행하면서 배우게 된 점은 "정확한 분석이나 해답은 없다."라는 것과 "머신러닝은 똑똑하다"입니다. 머신러닝은 정확한 공식만 대입한다면 100번이고 1000번이고 단 몇 분만에 계산해주고, 그에 대한 인사이트나 방향도 제공한다는 것이 놀라웠습니다. 하지만 주의해야 할 점은 머신러닝은 답을 해결해주는 것이 아닌 데이터 간의 관계를 이해하기 위한 좋은 도구일 뿐, 답은 이미 현상에 있고 내가 정해진 답을 찾아내기 위해 얼마나 따라갈 수 있느냐가 중요하다는 것입니다.




2개월간 과정을 끝마치고 나서 상훈님이 가장 크게 느꼈던 부분은 무엇인가요?


패스트캠퍼스의 강점은 네트워킹 능력이 강하다는 것입니다. 또한, 학생들이 어렵고 반복적인 수업만 듣는 것이 아니라 다양한 분야의 현직 자분들 이 특강을 진행하여 다양한 정보와 호기심을 자극하고 동기부여를 주는 커리큘럼이라는 점입니다. 능력도 풍부하시면서 질 높은 강의를 제공해주는 현업자 특강 강사님들을 섭외하는 것이 패스트캠퍼스의 가장 강점이라고 생각하며, 개인적인 만족도는 매우 높았습니다.




향후 개인적인 목표나 계획은 무엇인가요? 앞으로의 방향에 대해 설명해주세요.


제가 공부했던 도메인 지식은 건축분야와 컨설팅 분야인데 이에 데이터 사이언스 스킬을 접목해서 하나의 모델을 만들어 새로운 가치를 만들어 내고 싶습니다. 그러기 위해서는 무엇보다 현실 데이터를 잘 이해해야 한다는 것이 중요할 것이고, R 프로그래밍뿐만 아니라 파이썬도 개별적으로 공부하여 이미지, 텍스트 마이닝과 Tensorlow, CNN 등을 프로젝트에 적용해보는 노력도 필요할 것입니다. 가시화를 잘 하여 데이터 설득력을 늘리고 싶고, 자연과학 분야도 열심히 공부하고, 웹 프로그래밍도 놓치지 않고 공부할 것입니다. 욕심이 큰 가요?ㅎㅎ


내가 공부할 것이 많다는 사실을 알려준 것이 패스트캠퍼스에서 얻은 가장 큰 것이 아닐까 싶습니다. 최근에는 데이터 사이언스 스쿨 R 과정 매니저님, 팀장님, 강사님들께서 진로 상담을 적극적으로 해주셨는데, 조언을 고려하여 대학원과 취업을 동시에 고민하고 있습니다. 모든 업무에 능통한 all-round형 인재가 되기 위해 더욱 노력할 예정이에요!




2017년 여름을 함께 했던 동기 분들에게 한 마디 부탁드리며, 앞으로 수강할 예비 수강생들에게도 한 마디 부탁드려요.



여름을 같이 보냈다는 점이 놀랍습니다. 커리큘럼이 너무 잘 짜여서(빡세서 ㅎㅎ) 여름이 갔다는 것을 느낄 새가 없다고 해야 할까요? 칭찬입니다 ㅎㅎ 2달이라는 시간이 결코 짧은 시간이 아닌데, 시간은 정말 빨리 지나간 것 같으면서도 그 와중에 많은 것을 이야기하고 함께 고민한 것들이 기억에 많이 남네요. 각자가 처한 상황이나 이야기를 해주면서 많이 친해질 수 있었습니다. 이렇게 빨리 마음을 열고 친해지고 협력하게 해주신 매니저님들과 강사님들에게도 정말 감사합니다. 수료를 함과 동시에 벌써 아련하고 보고 싶군요. ^ㅡㅜ 그래도 모두가 잘 되리라 생각하며, 스터디도 같이 하고 자주 보면 좋겠습니다. 건투를 빕니다~!!  



데이터 분석 인텐시브 스쿨 in R

http://www.fastcampus.co.kr/data_school_dir/