반응형

2018/05 29

[4차 산업, 빅데이터] 임의화 비교실험을 못할 때 비교대조 분석(case control)

[4차 산업, 빅데이터] 임의화 비교실험을 못할 때 비교대조 분석(case control) 안녕하세요. 언제나 휴일, 언휴예요. 이전 글에서 얘기했듯이 임의화 비교실험은 현실, 윤리, 감정의 벽에 부딪혀 실험할 수 없거나 혹은 하지 말아야 할 때가 있습니다. 이처럼 임의화 비교실험을 할 수 없는 상황일 때 비슷한 방법으로 '비교대조 분석(case control)'이 있습니다. 비교대조 분석은 임의화 비교실험처럼 랜덤한 조사를 하는 것은 아니지만 특정 인자가 영향을 미치는 정도를 분석하기 위해 같은 부류에 속하는 어떤 사물들 사이의 유사점이나 차이점을 밝혀내는 방법을 말합니다. 이러한 비교대조 분석이 보다 실험적 가치를 지니기 위해서는 층별 해석을 가미하세요. 층별 해석은 조건을 같게 만든 후에 조사하는 ..

[4차 산업, 빅데이터] 임의화 비교실험의 한계

[4차 산업, 빅데이터] 임의화 비교실험의 한계 안녕하세요. 언제나 휴일, 언휴예요. 이번에는 임의화 비교실험의 한계를 알아볼게요. 이전 게시글에서 주어진 문제를 해결할 방법이 없을 때 임의화 비교실험은 적은 비용의 최소 위험부담을 통해 실수를 줄일 수 있다고 하였습니다. 하지만 임의화 비교실험은 언제나 가능한 것도 아니며 가능하더라도 해서는 알 될 때도 있습니다. 먼저 실험 자체를 하는 것이 현실적으로 가능하지 않을 때가 있습니다. 예를 들어 "누구와 결혼을 할 것인가?"와 같은 문제에서 임의화 비교실험을 위해 실험적으로 결혼을 하는 것은 현실적으로 가능하지 않습니다. 이처럼 실험 자체를 여러 번 하기 힘든 상황에서는 임의화 비교실험은 무기력합니다. 그리고 데이터가 몇 개 없을 때에도 임의화 비교실험은..

[4차 산업, 빅데이터] 문제 해결 방법을 모르면 임의로 정해 놓고 실험하라.

[4차 산업, 빅데이터] 문제 해결 방법을 모르면 임의로 정해 놓고 실험하라. 안녕하세요. 언제나 휴일, 언휴예요. 이번에는 임의화 비교 실험에 관한 얘기를 해 볼게요. 통계실험에 많이 사용하는 방법에는 임의화 비교실험이 있습니다. 이는 무작위의 여러 개의 실험을 하여 비교하는 것을 말합니다. 이러한 임의화 비교실험은 일부러 바보같은 실수를 실험하거나 쓸 데 없는 것처럼 보일 수도 있지만 실제로는 적은 비용과 의도적인 위험부담을 갖는 실험으로 실수를 줄일 수 있습니다. 여기에서는 이게 관한 두 개의 에피소드를 소개할게요. ("빅데이터를 지배하는 통계의 힘" 참고) 조앤패브릭 사는 "재봉틀 두 대를 사면 10%를 할인"하는 이벤트를 진행합니다. 재봉틀은 한 집에 여러 개가 있을 이유가 거의 없다고 볼 수 ..

[4차 산업, 빅데이터] 어떠한 기준으로 데이터를 수집해야 하는가?

[4차 산업, 빅데이터] 어떠한 기준으로 데이터를 수집해야 하는가? 안녕하세요. 언제나 휴일, 언휴예요. 이번에는 어떠한 기준으로 데이터를 수집해야 하는지에 관하여 알아볼게요. 통계 데이터를 바탕으로 실질적인 이득을 얻을 수 있는 해결방법을 구하고자 한다면 단순한 집계에 머물지 말고 오차를 고려하고 p-value을 확인해야 한다고 앞에서 다루었어요. 그런데 단순한 집계도 "어떤 데이터를 수집하고 해석해야 하는가?"라는 근원적인 문제가 더 중요할 수 있습니다. "어떤 데이터를 수집하고 해석해야 하는가?" 수집할 데이터를 선정하는 가장 기본적인 원칙은 지향하는 목적을 달성한 것과 그렇지 않은 것의 차이에서 출발하는 것입니다. 예를 들어 교육 서비스를 하는 곳이라면 성적이 좋은 학생들과 그렇지 않은 학생들, ..

[4차 산업, 빅데이터] A/B 테스트에 카이제곱검정과 p value를 더하다.

[4차 산업, 빅데이터] A/B 테스트에 카이제곱검정과 p value를 더하다. 안녕하세요. 언제나 휴일, 언휴예요. 마켓팅과 웹 분석에서 A/B 테스트는 두 가지 형태의 테스트 중에 어느 것이 나은지 검토하는 것입니다. (세 가지 이상의 형태 중에 나은 것을 찾는 것 또한 A/B 테스트라고 부릅니다.) 예를 들어 한 회사의 배너 광고를 왼쪽에 다는 것과 오른쪽에 다는 것 중에 어느 쪽이 방문자의 머무는 시간이 길게 유도하는지를 파악하는 것을 들 수 있다. 그런데 이와 같은 형태의 A/B 테스트의 결과를 보다 신뢰성있게 사용하고자 한다면 오차를 고려하여야 할 것입니다. 그리고 이를 통해 테스트 결과가 유의미한 것인지 무의미한 것인지를 판별하는 것이죠. 이처럼 A/B 테스트의 결과(교차 분할표)를 보고 의..

[제주 올렛길 16코스] "고내 - 광령"구간 중 하귀~애월 해안도로

[제주 올렛길 16코스] "고내 - 광령"구간 중 하귀~애월 해안도로 [제주 가 볼 만한 곳] 하귀~애월 해안도로 안녕하세요. 언제나 휴일, 언휴예요. 올해(2018년)는 어버이 날이 토요일이여서 월요일이 대체 휴일이네요. 부모님도 볼 겸 2박 3일로 고향을 방문했어요. 제 고향은 제주 올렛길 중에 숲과 바다를 거닐 수 있는 아름다운 올렛길 16코스 중에 하귀~애월 해안도로에 있는 고내입니다. 5월 6일 아침 비가 많이 내려서 부모님과 같이 집에서 계속 보내야 겠다고 생각했어요. 그리고 저는 아침 먹기 전에 하귀~애월 해안도로를 보러 갔어요. 어릴 적부터 계속 보면서 자랐지만 아직도 제가 본 바다 풍경 중에 최고라고 생각합니다. 하귀~애월 해안도로의 시작 지점(하귀쪽)입니다. 자동차로 드라이브 뿐만 아니..

여행/국내여행 2018.05.08

[4차 산업, 빅데이터] 쓸모 없는 통계, 쓸모 있는 통계 - 2

[4차 산업, 빅데이터] 쓸모 없는 통계, 쓸모 있는 통계 - 2 안녕하세요. 언제나 휴일, 언휴예요. 이전 글에서 언급했듯이 의미가 있는 통계해석이라면 다음 질문에 "Yes"를 대답할 수 있어야 합니다. * 어떤 요인을 변화시켜야 이익이 향상될까?* 그런 변화를 일으키는 행동이 실제로 가능한가?* 그에 따르는 비용이 이익을 상회할까? [그림] 의미 없는 통계 위 그래프는 특정 광고를 보았는지 여부를 조사한 통계 그래프이다. 통계 그래프를 보면 "보았다."와 "본 것 같다."의 합이 75%정도이다. 이러한 값을 보고 많은 이들이 광고를 보거나 본 것으로 기억하고 있다고 볼 수 있다. 하지만 광고를 본 것이 실제 구매로 얼마나 이어졌는지 알 수 없다. [그림] 광고를 본 것과 실제 구매와의 관계를 알 수 ..

[4차 산업, 빅데이터] 쓸모있는 통계, 쓸모없는 통계

[4차 산업, 빅데이터] 쓸모있는 통계, 쓸모없는 통계 안녕하세요. 언제나 휴일, 언휴예요. 이번에는 단순한 통계는 들어가는 비용보다 가치있는 정보를 얻을 수 없다는 주제를 가지로 얘기할게요. "빅데이터를 지배하는 통계의 힘"에서는 단순한 집계만 하는 통계는 들어가는 비용에 따른 가치 있는 정보를 주지 못한다는 얘기를 합니다. 그리고 다음의 세 가지 질문에 "Yes"를 대답할 수 있을 때 실질적인 가치가 있는 통계이며 빅데이터라고 말하고 있습니다. 어떤 요인을 변화시켜야 이익이 향상될까? 그런 변화를 일으키는 행동이 실제로 가능한가? 그에 따르는 비용이 이익을 상회할까? [그림] 단순 집계 정보만 보여주는 통계 그래프 위 통계 그래프는 단순히 데이터를 집계한 후에 이를 그래프로 나타낸 것일 뿐입니다. 이..

[4차 산업, 빅데이터] 표본 조사 결과와 표준오차

[4차 산업, 빅데이터] 표본 조사 결과와 표준오차 안녕하세요. 언제나 휴일, 언휴예요. 이번에는 표준 조사의 결과와 표준오차에 관한 얘기입니다. 현실 세계에서 표본을 조사하여 실제 값이 얼마일지 예측하는 것은 비일비재합니다. 선거 예측이나 지지율 조사 등을 들 수가 있습니다. 하지만 표본 조사가 얼마나 가치 있는 정보인지를 판별하려면 오차가 생길 수 있는 범위를 인지할 수 있어야 합니다. 이를 위해 통계학에서 사용하는 것이 표준오차입니다. 다음은 표준오차 산출식입니다. ▶표준오차 산출식 그리고 95% 신뢰성에서 참 값과 표본 값의 차이는 표준오차의 두 배를 벗어나지 않습니다. 표본 값-(표준오차 X 2)

[4차 산업] 빅데이터 관련 전문용어 7가지

[4차 산업] 빅데이터 관련 전문용어 7가지 데이터마이닝 Data mining 대량의 데이터 안에서 통계적 규칙이나 패턴을 체계적이고 자동적으로 찾아내는 것을 말한다. 다른 말로는 데이터베이스 속에서 지식 발견(KDD, Knowledge discovery in database)라고도 부릅니다. 분류, 군집화, 연관성, 연속성, 예측을 적용하여 결과를 도출해 낼 수 있습니다. 텍스트마이닝 Text mining 텍스트를 분석하여 가치 있는 정보를 추출하는 과정을 말합니다. 텍스트 내의 단어의 빈도를 파악하고 이를 통해 예측 분석 및 연관 분석 등을 할 수 있습니다. 분산처리 Distributed processing 네트워크로 이루어진 여러 컴퓨터들의 처리 능력을 이용하여 거대한 계산 문제를 해결하는 방법입니..

반응형