목차
1. 모집단과 표본, 전수조사와 표본조사
2. 표본추출에서 나타나는 편향의 종류
3. 인지적 편향의 종류(확증 편향, 기준점 편향, 선택 지원 편향, 분모 편향, 생존자 편향)
4. 머신러닝 모델 측면의 편향과 분산
5. 표본 편향을 최소화하기 위한 표본 추출 방법
1. 모집단과 표본, 전수조사와 표본조사
통계 분석에서 분석하고자 하는 대상의 전체 집합을 모집단이라고 한다. 그리고 모집단의 부분집합, 즉 모집단의 일부를 추출한 것을 표본이라고 한다. 모집단의 자료 전체를 조사 및 분석하여 정보를 추출하는 것을 전수조사라고 하며, 모집단에서 추출한 표본을 통해 모집단의 정보(평균, 표준편차 등)를 추정하고 검정하는 것을 표본조사라고 한다. 1장에서 다룬 기술 통계, 추론 통계와 연관이 깊은 개념이다.
가장 대표적인 전수조사는 선거 투표이다. 전체 국민의 투표 데이터를 통해 결과를 도출하기 때문이다. 그런데 우리는 선거 투표를 하기 전에 여론조사를 한다. 표본조사를 해서 모집단의 결과를 유추하는 것이다. 모집단 전체를 조사하는 것에 막대한 비용과 시간이 들기 때문에 일부 인원의 의견만 수집하고, 그렇기 때문에 적은 표본만으로도 높은 정확도를 이끌어 내는 것이 중요하다.
효과적인 표본조사를 하기 위해서는 표본 추출을 잘해야 한다. 표본 추출은 다양한 방법이 존재하며 데이터의 형태나 분포에 따라 올바른 방법을 선택해야 한다. 표본 추출 방법 하나까지도 데이터과학의 성과에 큰 영향을 미친다. 그렇기 때문에 기초 통계에 해당되는 모수와 표본의 개념과 추출 원리를 확실하게 이해할 필요가 있다. 데이터 안에는 다양한 편향과 이상치들이 존재하기 때문에 이를 효과적으로 제거한 표본을 추출해야 한다.
2. 표본추출에서 나타나는 편향의 종류
같은 크기의 두 개의 표본을 주의해서 추출한다고 해도 완전히 동일한 표본을 얻는 것은 거의 불가능할 것이다. 이렇게 생기는 모집단과 표본 사이의 자연 발생적인 변동을 표본 오차라고 한다. 이를 제외한 변동을 비표본 오차라고 한다. 비표본 오차의 한 원인이 바로 편향이다. 편향은 표본에서 나타나는 모집단과의 체계적인 차이다. 표본 추출 과정에서 발생할 수 있는 대표적인 편향에는 표본추출편향, 가구편향, 무응답편향, 응답편향 등이 있다.
표본 편향은 확률화 등의 방법을 통해 최소화하거나 없앨 수 있다. 확률화란 모집단으로부터 편향이 발생하지 않는 표본을 추출하는 방법을 의미한다. 이렇게 추출한 표본을 확률표본이라고 한다. 모집단에서 표본이 추출될 확률이 동등한지 여부에 따라 확률추출과 비확률추출로 구분한다. 그리고 모집단에서 이미 추출한 표본을 다시 모집단에 되돌려 놓고 추출하는지, 빼고 추출하는지에 따라 복원추출과 비복원 추출로 구분한다.
3-1. [인지적 편향의 종류 1] 확증 편향(Confirmation Bias)
자신이 원래 믿고 있는 대로 정보를 선택적으로 받아들이고 임의로 판단하는 편향이다. 데이터의 통계량은 조건에 따라 다양하게 나올 수 있으므로 자신의 판단에 대한 확신을 더해주는 방향으로만 데이터를 조정하는 경우가 있다. 이를 데이터 분석가들 말로는 소위 '데이터를 마사지한다.'라고 표현한다. 확증편향에 의해 처음부터 생각해 두었던 가설에 유리한 방향으로 정보를 수집하고 해석하는 것은 명백한 오류이며 분석의 신뢰성을 떨어뜨린다.
3-2. [인지적 편향의 종류 2] 기준점 편향(Anchoring Bias)
분석가가 가장 처음에 접하는 정보에 지나치게 매몰되는 편향이다. 처음 표본을 통해서 나왔던 통계가 머릿속에 각인되어, 다른 분석 결과를 무시하거나 과소평가하는 것이다. 이는 생각의 틀을 만들어내어, 합리적인 결정을 방해한다.
3-3. [인지적 편향의 종류 3] 선택 지원 편향(Choice-Supportive Bias)
확증편향과 유사한 개념으로 본인이 의사결정을 내리는 순간 그 선택의 긍정적인 부분에 대해 더 많이 생각하고 그 결정에 반대되는 증거를 무시하게 되는 편향이다. 확증편향은 기존의 상식과 고정관념으로 정보와 근거들을 선택적으로 수용한다. 하지만 선택 지원 편향은 주어진 정보들을 통해 의사결정이 이루어진 순간부터 편향성을 가진다는 점에서 차이가 있다.
3-4. [인지적 편향의 종류 4] 분모 편향(Denomiator Bias)
분수 전체가 아닌 분자에만 집중하여 현황을 왜곡하여 판단하게 되는 편향이다. 분모를 무시하면 잘못된 판단을 내릴 수 있고 비율도 분모 편향의 영향을 받을 수 있다는 것을 주의해야 한다.
3-5. [인지적 편향의 종류 5] 생존자 편향(Survivorship Bias)
소수의 성공한 사례를 일반화된 것으로 인식함으로써 나타나는 편향이다. 제2차 세계대전 당시, 엔지니어들이 당시 전투기에서 외상이 많은 부분을 집중적으로 보강하고자 했던 것이 생존자편향의 예시이다.
4. 머신러닝 모델 측면의 편향과 분산
하지만 편향이 머신러닝 모델에서 어떻게 나타나는지를 아는 것도 중요하다. 편향을 제대로 이해하기 위해서는 분산도 함께 이해해야 한다. 편향은 예측값들이 정답과 일정하게 차이가 나는 정도를 의미하며, 분산은 주어진 데이터 포인트(예를 들어 평균)에 대한 모델 예측의 가변성을 뜻한다.
편향과 분산은 트레이드오프 관계다. 예측이나 분류 모델을 만들 때 주어진 학습 데이터에 잘 맞도록 복잡한 모델을 만들수록 편향은 줄어들고 분산은 증가할 수밖에 없다. 이러한 둘 간의 균형을 잘 맞춰 상황에 맞는 최적의 모델을 만드는 것이 데이터 과학자의 역할이다.
일반적인 머신러닝 모델은 편향이 작지만 분산이 큰 형태를 갖는다. 이렇게 분산이 큰 이유는 모델의 복잡성이 너무 커서 과적합이 일어났기 때문이다. 편향과 분산이 모두 큰 상태는 모델로서 효과가 없는 상태이다. 분산이 적지만 편향이 큰 경우는 정답 값을 제대로 설명할 수 있는 변수가 부족한 상태라고 할 수 있다. 그렇기 때문에 표본 추출 방식을 바꾸거나 새로운 변수를 탐색하거나 고도화된 데이터 가공 방식을 적용해야 한다.
5. 표본 편향을 최소화하기 위한 표본 추출 방법
표본오류와 비표본 오류를 최대한 줄이면서 표본추출을 할 수 있는 방법에 대해서 알아보자. 우선 표본추출을 두 가지 관점에서 바라볼 필요가 있다. 첫째는 데이터 수집 단계의 표본 추출이고 둘째는 빅데이터에서 분석 모델링을 위한 적절한 크기의 표본데이터를 추출하는 것이다.
데이터 수집 단계의 표본 추출은 일반적으로 다음과 같은 단계로 구성된다.
이미 보유하고 있는 대용량의 데이터에서 표본을 추출하는 순서도 이와 크게 다르지 않다. 모집단과 표본 프레임이 이미 결정되어 있으므로, 표본을 추출할 방법과 크기를 결정하면 된다. 하지만 이전에 모집단이 분석 목적에 맞게 세팅괴어 있는지 확인을 해야 한다. 데이터에 이상이 없는 모집단과 표본 프레임이 확정되면 확률 표본추출과 비확률 표본추출방법 그리고 복원추출과 비복원 추출 중 적절한 방법을 선택해야 한다.
대부분의 경우에는 확률 표본추출방법을 사용하며, 모든 분석 대상이 무작위로 추출될 확률을 미리 알 수 있을 때 사용된다. 그렇기 때문에 표본의 통계량을 통한 모집단의 모수에 대한 추론이 가능하다. 그리고 편향을 최대한 제거할 수 있어 표본의 신뢰도가 높다. 확률 표본추출방법에는 단순 임의 추출방법, 계층적 표본추출방법, 층화 표본추출방법, 군집 표본추출방법 등이 있다.
단순 임의 추출방법은 우리가 흔히 경험하는 제비 뽑기나 로또 당첨 번호를 선정하듯이 표본을 추출한다. 때문에 모집단의 모든 구성단위가 표본으로 선정될 확률이 동일하다. 모집단에 대한 사전지식이 없는 경우에 유용한 방법이다. 다른 방법에 비해 쉽고 빠르기 때문에 가장 일반적으로 쓰인다.
계층적 표본추출방법은 모든 구성단위에 일련번호를 부여한 뒤 일정한 간격으로 표본을 선택하는 방법이다. 이 방법은 모집단 전체에 걸쳐 등간격으로 공평하게 표본이 추출되는 장점이 있지만 모집단의 배열에 일정한 주기성이 있는 경우에는 표본의 대표성이 결여될 수 있다.
층화 표본추출방법은 모집단이 특정한 기준으로 분류가 가능할 때 쓸 수 있는 방법이다. 모집단을 특정 기준에 따라 소집단으로 나누려면 모집단에 대한 사전지식과 분류 기준에 대한 충분한 근거가 필요하다. 모집단을 나눈 후 각 소집단에서 일정수의 표본을 무작위로 추출하는 것이다. 이 방법은 표본을 단순 임의 추출방법으로 선정했을 때 표본이 편중될 수 있는 위험을 보완한다.
군집 표본추출방법은 모집단을 특정한 기준으로 분류한 뒤, 그중 하나의 소집단을 선택하여 분석하는 방법이다. 하나의 소집단이 선택되면 상황에 따라 소집단 전체나 일부를 표본추출한다. 이 방법은 모집단이 방대한 상황에서 표본추출이 쉽지 않을 때 유용하다. 하지만 특정 기준으로 분류된 하나의 소집단만을 표본으로 두기 때문에 전체 모집단의 모수를 반영하지 못할 수도 있다는 단점이 있다.
그리고 복원추출과 비복원 추출은 말 그대로 추출했던 표본을 원래 모수에 복원시켜서 다시 추출하는 것을 가능하도록 하는가 그렇지 않은가에 따라 구분되는 방식이다. 복원추출법은 처음 모집단에서 추출된 표본을 되돌려 넣고 다음 표본을 추출하는 방법이기 때문에 동일한 표본이 중복해서 선택될 수 있다. 이 방식에서 표본공간은 독립적으로 변화가 없다. 비복원추출법은 처음 모집단에서 추출된 표본을 되돌려 넣지 않고 다음 표본을 추출하는 방법이다. 표본 하나하나를 추출하는 행위는 표본공간을 바꾸는 종속사건이 되고 다음 표본들의 추출 확률에 영향을 미치게 된다.
일반적으로 모집단에 비해서 추출하려는 표본의 양이 작으면 복원추출이나 비복원 추출이나 차이가 거의 없다. 하지만 모집단의 크기가 별로 크지 않거나 추출하려는 표본이 20% 이상으로 많은 경우에는 복원 추출 방식이 편향을 더 줄일 수 있다.
출처
데이터 분석가가 반드시 알아야 할 모든 것(황세웅) - 위키북스
'STATISTICS' 카테고리의 다른 글
[STATISTICS] 1장 통계학 이해하기 (0) | 2023.02.17 |
---|