목차
1. 머신러닝과 전통 통계학의 차이
2. 기술 통계와 추론 통계
1. 머신러닝과 전통 통계학의 차이
머신러닝의 기본은 통계학으로 이루어졌지만 머신러닝과 전통 통계학은 분명한 차이가 있다. 머신러닝은 예측력이 얼마나 높은가에 집중한다. 그렇기 때문에 분석 모형의 복잡성이 높으며, 고질적인 문제인 과적합 해결에 집중한다.
데이터 과학의 분야는 통계학, 머신러닝, AI 등의 영역이 미묘하게 뒤섞여 있다. 전통적 통계학과 머신러닝 교집합의 관계를 가지고 있다. 머신러닝은 통계학의 일부 특성을 활용한 응용과학 분야이다. 그림 1.1 은 SAS institute에서 정의한 데이터 과학 분야의 영역 다이어그램이다.
통계학은 각 변수의 영향력에 대한 해석과 모집단에서 추출한 샘플의 가정과 통계적 적합성에 집중한다. 즉 전통적 통계학은 확률을 통해 가설을 검증하고 추정 모델을 통해 데이터를 해석하는 것에 목적을 둔다. 이러한 통계학의 확률적 이론과 에러를 최소화하는 원리를 기반으로 머신러닝, 데이터 과학이 완성된다. 통계학은 모델의 기초 체력 같은 것이다.
통계학과 머신러닝의 차이를 표로 요약하면 표 1.1과 같다.
2-1. 기술 통계(Descriptive Statistics)
기술 통계는 문자 그대로 주어진 데이터의 특성을 사실에 근거하여 설명하고 묘사하는 것이다. 데이터를 설명하는 가장 기본적인 방법은 그 데이터의 대푯값을 설명하는 것이다. 대푯값에는 평균, 중앙값, 최빈값 등 다양한 값이 존재한다.
그리고 데이터를 설명하는 방법 중에는 각각의 값이 퍼진 정도, 최댓값과 최솟값의 범위 등 다양한 방법이 있다. 이렇게 기술 통계를 내는 것을 데이터 과학에서는 EDA(Exploratory Data Analysis)라고 한다. 한국어로는 탐색적 데이터 분석이라고 하며 이런 과정을 통해 날것의 데이터를 의사결정을 위한 정보로 탈바꿈하는 것이다.
단순히 수치만 적어 놓는 것보다는 그림이나 그래프를 통해 표현하는 것이 훨씬 효과적이기 때문에 기술 통계는 보통 시각화를 많이 사용한다. 시각화 기법에는 산점도, 박스 플롯, 히스토그램 등이 있다.
2-2. 추론 통계(Inferential Statistics)
기본적으로 추론 통계는 표본 집단으로부터 모집단의 특성을 추론하는 것이 목적이다. 모집단은 연구자가 관심 있어하는 대상 전체 집합을 의미하고 표본은 연구자가 모집단에서 일부를 추출한 부분집합을 의미한다.
추론 통계는 한 학급의 통계치를 통해 학교 전체 학생의 통계치를 추정하는 것이다. 예를 들어 A 학급의 평균 키가 170cm라고 했을 때, '학교 전체 학생의 평균 키가 167 ~173cm 구간 내에 존재할 확률이 어느 정도다.'라는 식으로 추론하는 것이다.
비슷한 예로는, 노트북 생산 공장에서 100대의 노트북 표본의 배터리 수명이 5시간 30분이라고 했을 때 공장에서 생산되는 모든 노트북의 평균 배터리 수명도 정확히 5시간 30분이라고 할 수 있을까? 그렇지 않을 것이다. 추론 통계는 표본으로 구한 5시간 30분이라는 통곗값을 통해 모집단의 배터리 수명을 나타내는 모수 값이 얼마인지, 모수 값이 특정 구간 내에 존재할 확률이 얼마인지를 추정하는데 쓰인다.
우리가 선거 시즌에 자주 듣는 '이번 투표는 000 후보의 지지율이 00%로 신뢰구간 00%입니다.'와 같은 멘트에서 나오는 신뢰 구간을 구하는 것이 추론 통계라고 할 수 있다. 그리고 데이터 과학을 통해 본격적으로 머신러닝 모델을 만들고 예측이나 분류를 하는 것 등이 추론 통계에 해당된다.
기술 통계와 추론 통계의 통합적인 프로세스는 "표본의 특성 분석 -> 특성의 일반화 여부 판단 -> 모집단의 특성으로 추정"으로 정리할 수 있다. 기술 통계는 추론 통계의 기반과 같은 요소이며, 기술 통계를 확실히 했을 때 추론 통계에서 정확한 인사이트를 얻을 수 있다.
출처
데이터 분석가가 반드시 알아야 할 모든 것(황세웅) - 위키북스
'STATISTICS' 카테고리의 다른 글
[STATISTICS] 2장 모집단과 표본추출 (0) | 2023.02.17 |
---|