프로그래밍 기술/IT 이야기

통계와 IT 만남, 빅데이터를 빛내다.

언제나휴일 2018. 5. 4. 17:42
반응형

통계와 IT 만남, 빅데이터를 빛내다.



통계와 IT 만남

안녕하세요. 언제나 휴일, 언휴예요.


최근 들어 4차산업에 관한 얘기는 굉장히 많이 나오네요. 그리고 2010년 이후부터 4차산업의 기반인 빅데이터와 인공지능이 여러 분야에 접목하고 있죠.


하지만 빅데이터와 인공지능을 비롯한 4차산업은 통계가 없다면 아무 쓸모가 없는 것일 수도 있어요. 물론 이런 가정은 할 필요는 없어요. 이미 통계학은 1960년대부터 확고하기 때문이죠. 정 반대로 IT가 없었다면 통계가 다양한 분야에 활용하지 못했을 거예요.


예전에는 리터러시(literacy, 읽고 쓰는 능력)가 없다면 중요한 계약이나 교육, 법률 등을 알 수가 없어 중요한 사회 생활을 할 수 없었을 거예요. 그런데 어떤 이들은 가까운 미래에는 통계학적 리터러시가 없다면 중요한 비지니스를 못하거나 사기를 당하더라도 이를 입증하지 못할 수도 있을거라고 말하네요.("빅데이터를 지배하는 통계의 힘"의 저자 니시우치 히로무)


"빅데이터를 지배하는 통계의 힘"이라는 책을 보면 우리가 자주하는 사다리타기도 통계를 알면 유리하다고 하네요. 수학적 논리력을 갖고 있으신 분들은 잠시 생각해보면 알 수도 있겠지만 여러 명 중에 한 명을 고르는 사다리타기에서는 가운데를 선택하였을 때 당첨확률이 높다고 합니다. 8개의 선택이 있다고 했을 때 가운데가 양쪽 끝보다 2배 이상 당첨 확률이 높다고 하네요.

사다리타기 실험 통계

[그림] "빅데이터를 지배하는 통계의 힘" 중에서 


이처럼 통계를 알면 직관에 의해 결정하는 것보다 명확합니다.


통계해석 기법은 이미 1960년대에 거의 확립하였는데 그 때는 다양한 분야에 접목하지 못했어요. 실제 통계의 힘은 자료의 양에 있어요. 그리고 수집한 자료의 양이 많으면 이를 분석하기 위한 비용은 기하급수적으로 늘어납니다.


프레이밍험이라는 대규모 역학 연구는 제2차 세계대전이 끝나고 심장병의 원인을 명확히 밝히기 위해 시작했어요. 그런데 당시의 연구 목적으로 조사한 다양한 데이터를 분석하여 연관성을 찾기 위해서 사용하는 로지스틱 회귀분석(Logistic Regression Analysis)을 사용해야 합니다. 하지만 5000명 정도 인원에 관해 수집한 자료를 이 분석 방법을 사용하려면 인간의 수리 능력으로는 많은 인원과 시간이 필요해요. 실제 1960년대에 IBM이 만든 대형 범용계산기에 의해 분석이 가능해졌어요.

 

 

그리고 IT의 발전과 함께 최근에 들어 빅데이터, 데이터마이닝, 비지니스 인텔리전스 등 통계분석을 IT에 접목하는 기술들이 쏟아지고 있어요. 2010823일자, 마이크로소프트 잡스블로그(Microsoft JobsBlog)에 채용 동향에 가장 주목받을 전문기술로 다음 세 가지를 들었죠.

* 데이터마이닝, 기계학습, 인공지능, 자연언어처리

* 비지니스 인텔리전스, 경쟁분석

* 분석, 통계 - 특히 웹 분석, A/B테스트, 통계해석


그리고 구글의 수석 경제학자 할 배리언(Hal varian, 1947~)20091월 매킨지 사가 발행한 논문에 이렇게 밝혔어요.


"거듭 말하지만, 10년 이내에 통계 전문가는 가장 섹시한 직업이 될 것이다."

"I keep saying the sexy job int the next ten years will be statisticians."


보다 자세하고 정확한 정보를 원하신다면 "빅데이터를 지배하는 통계의 힘"이라는 책을 참고하세요. 


반응형