#자유로운의견교환 #익명게시판 #구성원간소통 #에티켓필수

제목매우 주관적인 데이터 사이언스 분야 가이드라인과 현실적인 공부법 정리글2021-06-23 15:00
작성자

안녕하세요 저는 소프트웨어융합학과 데이터사이언스트랙 17학번 이상민입니다.


현재 데이터 분석가, 데이터 사이언티스트를 꿈꾸고 있으며 후배 분들이 이 분야에 대해 좀 더 명확해지고 지름길로 갈 수 있도록 도움을 주고 싶어서 글을 적었습니다. 제 경험에 따른 글이기 때문에 매우 주관적이며 , 저보다 더 능력 있고 좋으신 분들이 많기 때문에 그 분들한테 물어보셔도 좋습니다. 이미 이 쪽에 많이 관심을 가지신 분들한테는 뻔한 글일 수도 있습니다.


1) 데이터 사이언스 분야란 어떤 것이 있는가?

많이 아실 수도 있지만 데이터 사이언스 분야는 굉장히 넓습니다. 솔직히 거품이라고 봐도 될만큼, 아무 분야에 데이터만 붙이면 다 데이터 직무가 된다고 볼 수 있는데요. 그래도 조금이나마 윤곽을 설정하고자 하시는 분들은 참고하시면 좋을 것 같습니다. 하지만 아래 기준도 회사마다 다 다르기 때문에, 2번에 적혀 있는 내 목표 회사를 설정하고 그에 따른 기술들을 익히는 것이 좋습니다.


1.1) 데이터 분석 분야

흔히 생각하는 데이터 분석 직무는 비즈니스 데이터 분석 직무에 가깝습니다. 회사에서 의사결정을 위해 해당 지표를 뽑아내고 A/B 테스트를 통해 가설을 검증하는 것이 데이터 분석 직무라고 보통 칭하고 있는데요. KPI 지표를 뽑아내거나 엑셀, 태블로, Power BI같은 툴들을 활용해 기본적인 시각화로 인사이트를 도출해내는 것이라고 볼 수 있습니다. Python은 데이터 전처리나 모델링 쓸 때, 업무의 10퍼센트 정도 쓴다고 보면 됩니다. 그리고 데이터를 분석하기 전에 당연히 회사마다 회사 DB가 있을텐데, 이 DB에서 데이터를 뽑아내려면 SQL을 많이 쓰게 됩니다. 그래서 요즘 자격요건마다 SQL을 다 다는 이유도 이 때문이라고 생각합니다.


1.2) 데이터 엔지니어링 분야

데이터 엔지니어링은 데이터 분석가들한테 데이터를 보기 좋게 추출해서 전해주는 분야라고 보시면 됩니다. 이 쪽은 하둡, 스파크, 분산처리 플랫폼을 통해 데이터를 수집해서 가공한 다음 데이터를 넘겨주는 업무를 하고 있습니다. 당연히 엔지니어링이다보니 백엔드 지식과, 리눅스, AWS 기술 역량을 많이 필요로 합니다.


1.3) 데이터 사이언스 분야 

음 이 부분은 분석과 엔지니어링을 다 다루며, 리서치를 한다고 보시면 됩니다. 머신러닝이나 딥러닝 같은 최신 기술을 빠르게 공부해서 실무에 적용하는 업무를 보통 하고 있고요. 이 안에서도 머신러닝 엔지니어, AI 엔지니어, AI 리서치 등등 세부 분야로 갈라지고 있습니다. 당연히 모델링 및 최신 기술을 적용시키려면 파이토치나 텐서플로우 같은 툴은 기본이고, 한 분야(예를 들면 이상치 탐지, 기계 번역, 객체 탐지 등)에 전문적인 지식을 가지고 있으면 좋겠죠? 석박 우대 조건이 붙은 이유도 이것 때문이라고 봅니다.


하지만 이 데이터 사이언스 분야는 위 3개의 분야로 국한되어 있지 않기 때문에, 해당 회사의 모집 공고를 보는 것이 가장 정확합니다.


2) 데이터 사이언스 안에서 내 꿈, 희망 분야 및 직무 찾기

'그럼 분야도 알겠는데, 나는 꿈이 없고 어떤 직무에 맞는지도 모르겠어.' 하시는 분들을 위해 적어보자면, 가장 현실적인 방법은 해당 기업의 모집 공고를 보는 것입니다. 예를 들기 위해 아래 카카오의 데이터사이언티스트 직무를 참고해보겠습니다.

https://careers.kakao.com/jobs/P-10913 


해당 모집 공고의 업무내용을 보면, 추천적용 대상 서비스 분석과 사용자 행태 분석을 통해 추천모델링 피쳐 개발 및 고도화 지원이라고 나와 있습니다. 당연히 추천 시스템 분야로 포트폴리오를 구성한 사람들을 뽑겠다는 것이죠?? 이처럼 뚜렷한 꿈이 있지 않는 이상, 현실적인 준비 방법은 원하는 기업을 설정한 후 그 기업의 모집 공고를 살펴보며 찾아 보는 것이 가장 빠른 지름길이라고 생각합니다.


그리고 지원자격과 우대사항을 보면 Python/R, 하둡, 스파크, 빅데이터 분석 플랫폼 사용 경험자를 원하고 있습니다. 이 모집 공고를 보고 이 분야롤 가고 싶으면 위에 해당하는 스킬들을 익히는 것이 효율적이겠죠?


주관적인 입장이지만 사람들과 차트를 보고 인사이트를 뽑아내는 능력이 강하고, 사람들에게 발표를 하며 커뮤니케이션을 하고 싶은 분들은 비즈니스 데이터 분석 쪽(요즘 데이터 마케팅 쪽도 있습니다.), 나는 개발적인 능력이 강하고 백엔드가 맞다는 분들은 엔지니어링, 논문 읽고 최신 기술을 빠르게 적용하며 통계적인 백그라운드가 많이 깔려 있다면 사이언티스트가 되는 것이 좋습니다.



3) 데이터 사이언스 분야 공부법

당연히 학교 공부는 매우 중요하겠죠? 학교 커리큘럼에도 기계학습, 딥러닝 이런 과목들이 많이 신설되었기 때문에 이런 과목들을 열심히 듣는 것이 가장 중요합니다. 근데 보통 데이터 분야는 데이터를 많이 다뤄보라고 하잖아요. 그래서 저는 외부 동아리도 좋고, 공모전도 좋고, kaggle, dacon도 좋고 목표를 설정해서 데이터 분석 해 보는 경험을 최대한 많이 해봤으면 좋겠습니다. 


저의 경우에는 빅데이터 관련 동아리도 해 보고, 여러 공모전도 해 보면서 느낀 점이 학교 공부를 직접 분석하는 과정이 매우 중요하다는 것을 느꼈는데요. 데이터의 유형도 태스크마다 다르고, 분석은 보통 혼자하는 것보다는 커뮤니케이션이 중요한데 다양한 사람들과 경험해보는 것이 매우 중요한 것 같습니다.


그래서 기회가 된다면 토이 프로젝트도 괜찮고 인강도 좋으니까 분석 경험을 많이 해봤으면 좋겠어요. 개인적으로 kaggle의 타이타닉 데이터 분석은 꼭 해보셨으면 좋겠습니다. 이미지에 관심 있다면 mnist, 텍스트에 관심 있다면 imdb가 있고요.


만약 단계적으로 차근차근 공부하고 싶다면 개인적으로는 python 문법 -> numpy, pandas 문법 -> 크롤링 -> 사이킷 런과 머신러닝 예제들 -> 딥러닝 이론과 파이토치 -> vision, nlp 최신 논문 이런 식으로 밟아 나가도 좋습니다. 그리고 이 단계에서 가장 중요한 건 배운 내용을 바탕으로 본인만의 프로젝트를 설정하는 것이 가장 좋다고 생각해요.


4) 기타

마지막으로 이 글을 쓰게 된 계기는 저도 데이터 분야에 대해 공부하고 싶은 데, 어떤 식으로 공부할 지 몰라서 매우 헤맸던 경험이 있습니다. 그래서 지나가다 보이는 학원에 들어가서 상담을 해 보기도 했고, 패캠 인프런 코세라 같은 인강을 들어보기도, 연합 동아리 및 공모전을 나가보기도 했는데요. 저처럼 비효율적인 고민을 하지 않도록 하기 위해 이 글을 작성했고, 후배 분들이 데이터 사이언스 쪽으로 좀 더 지름길로 나가고 방향을 설정하는 데 있어서 도움이 되었으면 좋겠습니다.


감사합니다 :)

댓글
자동등록방지
(자동등록방지 숫자를 입력해 주세요)