빅 데이터 분석하기 #5 - 필요한 기술? 데이터 엔지니어 / 데이터 분석가

안녕하세요 @jingdol 입니다^^

kr-science 태그가 활발해 졌으면 하는 마음에 부족하지만 제분야 관련해서 글을 적어 볼까합니다.

예전에 시작했던 "빅 데이터" 관련글을 시간나는 대로 올려볼까 합니다.

스팀잇 유저분들이 다양한 background를 가지고 게시다는걸 고려해서 최대한 쉽게 풀어보도록 하겠습니다.

4장 빅 데이터 분석하기 #4 - 세상을 바꾸는 빅 데이터 기술 (https://steemit.com/kr/@jingdol/4)

-Summary - 지난글에서 빅 데이터 기술이 어떻게 세상을 바꾸었는지 간단하게(?) 설명해 드렸습니다. 간략하게 말씀드리자면
"하드웨어 기술에 의존하지 않고 소프트웨어 적으로 한정적인 컴퓨터 자원 문제를 풀었다" 가 제 머리속에 떠오르는 문장인거 같습니다 ^^;;

그렇다면 빅 데이터, terabytes 아니 perabytes 단위의 데이터를 계산하기 위해서 필요한 기술들이 무엇이 있을까요?

빅 데이터 분석에 보편적으로 사용되는 툴을 소개하기 앞서 먼저 Role에 대해서 짚고 넘어가야 할 거 같습니다.^^

이전글에서 빅 데이터라는 용어가 나오면서 복잡도가 상당히 높아졌다고 언급 했었습니다. 컴퓨터 한대가 아닌 수십, 수백, 수천대를 가지고 데이터를 수집, 가공, 저장, 관리 하는것부터 시작해서 수집된 데이터를 전처리/분석/결과 리포팅까지, 그래서 빅 데이터를 수집/저장하는거 하나만으로도 전문가라고 칭할 수 있습니다. 왜냐하면 빅 데이터 환경속의 각요소의 복잡도가 정말 상상을 초월하기 때문입니다.

데이터 엔지니어 VS 데이터 분석가

스크린샷 2017-08-27 오후 12.59.39.png

위 그림을 보시면 데이터 엔지니어의 포커스는 data handling 쪽에 가깝습니다. 즉 어떻게 하면 데이터를 잘 가공/저장 해서 분석가들이 잘 사용 할 수 있게 하느냐 입니다. 그리고 분석가는 business demand를 해결하는데에 포커스마 맟워집니다. 빅 데이터내에서 비지니스에 도움이 될만한 결과를 찾아 리포팅을 하는데, 단순하게 보시면 이익을 올리고 손실을 줄일 수 있는 정보들을 찾아내는 것입니다.

데이터 엔지니어 - 어떻게 하면 무수히 많은 데이터를 빠른 시간내에 수집/가공해서 저장을 하고, business demand, 즉 데이터를 분석하여 결과를 리포팅하는 데이터 분석가들의 요구사항에 맟우어 빠르게 그리고 편리하게 데이터를 전달해 줄수 있게 할 수 있을까?

데이터 분석가 - 어떻게 하면 좋은 정보(돈이되는 정보)들을 찾을 수 있을까?

위 그림을 보시면 데이터 엔지니어나/분석가나 이해수준만 다를뿐이지 모든 분야에 대해서 공통으로 들어가 있습니다. 이 이유는 엔지니어와 분석가는 하나의 공동체로 어떤 문제를 1이라고 가정 했을때 빅 데이터 환경에서는 엔지니어가 0.5 를 그리고 분석가가 나머지 절반인 0.5를 해결 할 수 있기 때문입니다. 분석가가 아무리 잘해도 최대 0.5이며 나머지 절반인 엔지니어가 0.3밖에 해결하지 못했다면 그 문제는 해결될 수 없기 때문입니다.

이해가 잘 안가시나요?

정말 단순하게 예를 들자면, 분석가가 빅 데이터를 가지고 주식 예측 모델을 만들었는데 (그럴리는 없겠지만) 그 모델은 2초 이후의 주식가격을 99% 정확성을 가지고 맟우는 모델이라고 가정 합시다. 모델은 feature 수백개 그리고 수만건의 데이터를 가지고 예측을 하는데, 이를 실시간으로 데이터를 수집/가공/저장/분석/리포팅 까지 하는데 주여진 시간이 2초내입니다. 이 일을 엔지니어가 2초내에 해결하지 못하면 저 모델은 쓸모가 없는거죠. 이미 2초가 지난후 결과가 리포팅 되기 때문입니다. ^^

오늘은 여기까지 다음 글에선 빅 데이터 환경에서 사용되는 보편적인 툴 몇가지에 대해서 작성 하겠습니다.

@jingdol

H2
H3
H4
3 columns
2 columns
1 column
Join the conversation now
Logo
Center