본문 바로가기

* 집사의 사생활/- 독서

데이터 과학자 되는 법 #데이터 사이언티스트를 꿈꾸는 통계학과 취준생을 위해

데이터 과학자 되는 법 / 에밀리 로빈슨, 재클린 놀리스 , 한빛미디어

  • 읽으면 좋을 사람 : 데이터 사이언티스트가 되고픈 취준생 / 선임 없는 데이터 사이언티스트 / 데이터 사이언티스트 직무에 현실과 괴리감을 느끼는 사람들
  • 데이터 사이언티스트로서의 성장 로드맵을 그리는 데 도움되며, 언론에서 너무 띄운 데이터 사이언티스트의 현실과 한계를 알 수 있음
  • 수록 내용 : 데이터 과학 업무, 데이터 과학을 사용하는 기업의 업무 구조 / 이력서와 면접 팁 / 입사 후 커리어 다지기 등


2013년도인가.. 빅데이터가 이슈화되면서 데이터 사이언티스트를 꿈꾸기 시작했던 것 같다.
무언가 전문적이라서 공부량이 경쟁력이 될 것 같기도 했고, 통계를 좋아했던 학도로서 전공을 살릴 수 있는 좋은 기회라 생각했기 때문이다.

내가 생각했던 데이터 사이언티스트는
비즈니스 의사결정을 위해 최신 알고리즘을 멋드러지게 사용하면서, 하이퍼파라미터 조정하고 시스템에 구축하는 역할이라 생각했다.
데이터를 분석하는 여러가지 직업을 거친 뒤, 지금은 제조업에서 데이터 사이언티스트라는 직무를 달고 있는데
잘 알게된 사실은 생각보다 보편적으로 통계학 출신은 경쟁력이 없다는 점과 경쟁력을 갖기 위해서는 기술보다 더 중요한 것이 있다는 것이다.


( 아래는 책의 내용과 개인적인 경험을 토대로 작성한 것임을 유의하기 바란다.)

ㅁ 언론에서 떠들어 대는 만큼 데이터 사이언티스트는 대단하지 않다.
- 데이터 사이언티스트가 하는 일이 무엇인지, 심지어 빅데이터가 무엇인지 제대로 정의되지도 않았다.

- 회사마다 잡코리아 직무기술서가 다른 이유
잡코리아를 뒤져볼 때 보면, 회사마다 데이터 사이언티스트의 직무기술서가 다르다는 점을 발견하게 된다.
어떤 곳은 Spark, 아파치 하둡, JAVA 등 여러가지 컴퓨터 관련 역량을 요구하는 반면, 어떤 곳은 R/Python만 다루어도 된다.

이러한 이유는 회사가 어떤 비즈니스를 영위하느냐에 따라서 다르기도 하고, 데이터 사이언티스트에도 종류가 있기 때문이다.

이 책에서는 회사의 비즈니스 종류에 따라 ‘데이터 과학자에게 요구하는 사항’이 어떻게 다른지를 보여주고,
데이터 사이언티스트를 3 가지 ‘데이터 분석가/머신러닝 엔지니어/의사결정 분석가’로 구분하여 어떻게 다른 일을 하는지알려준다.

- 통계학과 출신은 어떤 데이터 사이언티스트가 되는 게 유리할까?
개인적으로 생각했을 때, 순수하게 통계학만 배웠다면 의사결정 분석가로 접근하는 게 좋다고 생각한다.
그들이 요구하는 기술을 익히다가는 시간만 오래 걸리고, 배워봤자 컴공 사람들을 따라가기 버겁다.
차라리 지원하는 회사 제품을 공부해서 “어떤 비즈니스 문제가 있을까? 이 것들을 어떻게통계/머신러닝 등의 문제로 전환할까?”를 고민해서 면접에 대비하는 게 효율적이라 생각한다. 그래서 아래의 글들도 의사결정 분석가의 기준으로 작성하려고 한다.

단, SQL을 배우지 않았다면 배워두는 게 좋다.
내가 쓸 데이터만 추출하면 되기 때문에 기본적인 기능만 배워도 충분하다.
그리고 SQL은 R/Python/SAS를 한가지라도 배워봤다면 접근하기 쉽다.
솔직히 3일만 공부해도 된다.


통계 / 머신러닝 등의 알고리즘은 도구일 뿐이라는 사실을 잊어선 안된다.
내가 처음에 제일 겁을 먹었던 것은 최신 알고리즘이었다.
GRU?? LSTM? 구글 BERT? Ensemble?
‘이게 뭐지? 나는 안 배웠는데 어떻게 하지?!?, 나는 경쟁력이 떨어지는 게 아닐까?’라고 겁을 먹을 필요도 없다.
최신 기술보다 중요한 것은 비즈니스 문제를 파악하는 능력과 내 분석 결과를 전달하는 커뮤니케이션 능력이다.


- 의사결정자들은 알고리즘에 관심이 없다.
머신러닝 모델을 만들어 제품에 탑재하고 판매하는 기업(이런 기업은 대단한 기술을 요한다)이 아니라면, 대부분 알고리즘을 사용해 비즈니스 문제를 풀려고 사용한다.
그리고 그 결과물들을 사용할지 안할지 결정하는 것은 머신러닝의 머자도 모르는 문과 출신의 임원들이라고 생각하면 된다.
그들은 어떤 알고리즘을 썼던, 내가 어떤 고생을 했던 관심이 1도 없다.

- 보고서 작성 능력은 생각보다 너무너무너무 중요하다.
임원들이 알고 싶은 건, “내가 어떤 의사결정을 해야해?” (그래서 좋아졌어? 아니야? or 그래서 그걸 써야해? 말아야해?)
그리고, “그렇게 생각하는 논리적 근거가 뭐야?” (내가 알아듣기 쉽게 & 합리적으로 설득해 봐)가 더 중요하다.
그리고 그 형태는 ‘보고서’로 전달 된다.

신입이 주의할 점은 과제처럼 ppt에다가 자기가 무엇을 배웠는지, 얼마나 힘들었는지 등.. 자신에 대한 건 쓰면 안된다.
예를 들면, 임원님이 모르시는 데이터 베이스는 무엇이고요, 머신러닝에 이런 알고리즘을 썼는데 이 알고리즘은 어떻게 작동하고요, 등.. 이런거 말이다..

임원들은 많은 보고를 받기 때문에 그런거 공부할 시간도 없고 관심도 없다.
임원들에겐 비즈니스 언어로 설명해야 한다. 결과 전달에 어려운 용어를 꼭 알려야 한다면, 알아듣기 쉽게 변환하는 게 꼭 필요하다.

ㅁ 구글갈 거 아니라면 취준생/신입이 기술에 집착하지 않았으면 좋겠다.

신입은 배워야할 게 많다.
최신 기술을 배우기 급급하기 보다는 왜 보고서를 써야하고, 어떻게 써야하는지,
회사가 어떤 구조로 돌아가는지, 비즈니스 문제가 무엇인지 부터 공부하려고 했으면 좋겠다.

이 책에서 누군가의 인터뷰에서도 나온다.
특히 신입이라면 최신 기술을 적용하기 보다는 비즈니스 문제를 회귀분석으로도 충분히 풀 수 있다면, 회귀분석을 사용해서 비즈니스 문제를 풀려고 하는게 좋다고.





이런 저런 회사를 거치면서, 그리고 오랫동안 데이터 사이언티스트를 준비하면서 내가 배우고 느꼈던 내용들이 ‘데이터 과학자 되는 법’에 수록되어 있었다.
내가 취준생 때 이 책을 던져줬다면, ‘해외 사례잖아?’ 하고 거만하게 집어던졌을 것 같기도 하지만..
느낀 바가비슷하다.
이 외에도 어떤 회사에서 어떻게 커리어를 쌓아야할지, 어떤 식으로 일하면 될지 등이 써있어 여러모로 도움이 될 것 같으니
취준을 하는 사람이라면 이 책을 권하고 싶다.