[Descriptive Statistics] 기술통계학
기술통계학(Descriptive statistics)이란
통계학은 크게 기술(Descriptive) 통계와 추리(inferential) 통계 두 부분으로 나누어집니다.
기술 통계
- 관측을 통해 얻은 데이터에서 그 데이터의 특징을 규명하기 위한 통계적 기법입니다.
- 데이터 분석 전에 전체적인 데이터의 분포를 이해하고 통계적 수치를 제공하는 것을 목적으로 자료를 요약하기 위한 기초적인 통계량을 의미합니다. 이를 EDA (Exploratory Data Analysis) 탐색적 데이터 분석 이라고 부릅니다.
추리 통계
- 수집된 데이터를 기반으로 모집단의 특성을 추론하고 예측하는 데 사용하는 통계적 기법입니다. 다시 말해, 기술 통계학은 측정이나 실험에서 수집한 데이터의 정리, 표현, 요약, 해석 등을 통해 데이터의 특성을 규명하는 통계적 분야인데 주로 수집된 데이터의 평균이나 분산 등의 통계량이나 도표를 통해 데이터의 특징을 파악합니다. 예시로는 1인당 국민소득, 전국수학능력평가시험 성적과 백분위 등이 있습니다.
기술통계의 종류
1) 중심경향성(central tendency)
-
수집한 데이터를 대표하는 값이 무엇인지 혹은 어떤 값에 집중되어 있는지를 나타냅니다.
-
ex) 평균(mean), 중앙값(median), 최빈값(mode) 등이 있습니다.
2) 분산도(variation)
- 우리가 수집한 데이터가 어떻게 퍼져 있는지를 나타내는 것으로 변산성(variability)라고도 합니다.
- 중심경향성이 자료가 무엇을 중심으로 모여있는가를 나타내는 것이라면, 변산성 측정치는, 그 모여있는 정도를 의미합니다.
- ex) 범위(range), 표준편차(standard deviation), 사분위수(quantile)
3) 분포(distribution)
- 변인의 전체 모양을 살펴 데이터가 정상분포 곡선에서 얼마나 벗어나는지를 나타낸다. ex) 왜도(데이터의 분포가 좌우로 치우친 정도), 첨도(데이터의 분포가 위아래로 치우친 정도)
4) 빈도(frequency)와 백분율(percent)
- 각 값에 속한 사례의 수와 전체 사례 중 해당 값이 차지하는 비율을 나타낸다. ex) 빈도, 빈도분포, 백분위
5) 표준오차(standard error)
- 여러 표본의 평균값의 표준 편차.
1.중심경향성
- 자료의 중심을 나타내는 숫자로, 자료를 전체를 나타냅니다.
- 평균, 중위수, 최빈값 등이 있습니다.
- 비율 척도라고도 부릅니다.
- 비율 척도를 대상으로 직접 빈도 분석을 수행한 결과는 큰 의미가 없습니다.
1) 평균(mean)
- 데이터들의 합을 표본의 크기로 나눈 것으로 산술평균이라고도 합니다.
- $평균=\frac{데이터의 합}{데이터의 개수} = \frac{\sum x_{i}}{n}$
- 이상치(일반적인 데이터를 뛰어넘는 outlier)에 약하다는 특징이 있습니다.
x = [100, 100, 200, 400, 500]
2) 중위수(median)
- 데이터를 작은 값에서 큰 값으로 정렬하여 중간에 위치한 값을 의미합니다. 중앙값, 중간값이라고도 합니다.
- 데이터의 개수가 홀수라면 중앙값은 정렬된 결과의 가운데 수입니다
- 데이터의 개수가 짝수라면 중앙값은 가운데 두 수의 평균입니다.
- 자료를 크기 순으로 정렬할 수만 있으면 되므로 서열척도/등간척도/비율척도에서 쓸 수 있으며 명명척도에서는 쓸 수 없다고 합니다.
3) 최빈값(mode)
- 최빈값은 데이터 집합에서 가장 많이 등장한 데이터입니다.
- 모든 척도에 가능하나 주로 범주변수(명명척도, 서열척도)에서 사용한다고 합니다.
2. 분산도
- 우리가 수집한 데이터가 어떻게 퍼져 있는지를 나타내는 것으로 변산성(variability)라고도 합니다.
- 중심경향성이 자료가 무엇을 중심으로 모여있는가를 나타내는 것이라면, 변산성 측정치는, 그 모여있는 정도를 의미합니다.
- ex) 범위(range), 표준편차(standard deviation), 사분위수(quantile) 등이 있습니다.
- 평균으로부터 각 변량이 떨어진 거리들에 대한 평균.편차(deviation)를 제곱한 후, 이를 합산해 데이터의 총 개수(n) 또는 (n-1)로 나눈 통계량
1) 범위(range)
- 최댓값과 최솟값 간의 차이로, 자료가 최대 최소 어느정도까지 퍼져있는가를 나타냅니다.
- $범위=최댓값-최솟값$
2) 분산(variance)
- 평균에서 데이터가 벗어난 정도를 수치화한 값입니다. $s^{2}=\frac{\sum (x_{i}-\bar{x})^{2}}{n-1}$
- 분산이 클수록 데이터가 평균에서 많이 벗어나 있다는 뜻이며, 분산이 작을 수록 데이터가 평균 주변에 모여 있습니다.
- 분산은 제곱값이기 때문에 항상 0이상의 양수입니다.
- n이 아닌 n-1로 나누는 이유
3) 표준편차
- 평균에서 데이터가 벗어난 정도를 수치화한 값입니다.
- 분산의 양의 제곱근으로 표준편차가 작으면 데이터가 평균에 몰려있다는 것을 의미합니다.
4) 사분위수
- 75번째 백분위수와 25번째 백분위수 사이의 차이로 IQR이라고도 합니다.
- 백분위소 : 어떤 값들의 퍼센트가 이 값 혹은 더 작은 값을 갖고 (100-p) 퍼센트가 이 값 혹은 더 큰 값을 갖도록 하는 값으로 분위수 라고도 합니다.
4) 최댓값(maximum)
- 변량 중 가장 큰 값
5) 최솟값(minimum)
- 변량들 중 가장 작은 값
3.분포
- 어떤 사건에 어느 정도의 확률이 할당되었는지 묘사한 정보
- 확률 변수가 취할 수 있는 모든 값과 그 값들이 나타날 확률을 나열한 표/그림/함수식
1) 왜도(skewness)
- 데이터 분포의 기울어짐 즉 비대칭성을 나타내는 통계량
-
절대값이 클수록 기울기가 커지고, 분포 꼬리가 길어지며, 통계량 기호가 +이면 데이터 분포가 오른쪽으로, -이면 왼쪽으로 꼬리가 길어집니다.
- 분포가 정규분포에 비해서 얼마나 비대칭인지 나타내는 척도
- 평균과의 거리의 세제곱을 이용하여 구한 특징 값
- 표본비대칭도가 0이면 분포가 대칭
- 표본비대칭도가 음수면 표본평균값을 기준으로 왼쪽에 있는 값을 가진 표본이 나올 가능성이 더 많다는 뜻
2) 첨도(kurtosis)
- 데이터 분포의 뾰족한 정도를 설명하는 통계량
- 첨도 통계량이 0보다 크면 정규분포보다 뽀족하고 0보다 작으면 정규분포보다 평평한 분포입니다.
-
샘플의 점수가 평균을 중심으로 가까이 몰려 있을수록 분포의 정점은 더욱 첨도가 커집니다.
-
평균과의 거리의 네제곱을 이용하여 구한 특징값이 표본첨도(sample kurtosis)
-
데이터가 중앙에 몰려있는 정도를 정밀하게 비교하는데 사용합니다.
- 정규분포보다 첨도가 높으면 양수, 정규분포보다 첨도가 낮으면 음수로 정의합니다.
3) 정규분포 또는 가우시안 분포(Gaussian distribution)
-
변량의 퍼져 있는 정도를 설명하는 기술통계량으로 분포가 일정하고 대칭형이고 첨도와 왜도 통계량이 모두 0인 것을 정규분포의 형태라고 말합니다.
- 데이터들이 평균값을 기준으로 좌 우 대칭형으로 분포되어 있는 형태입니다.
- 평균에 가까울수록 발생할 확률이 높고 평균에서 멀어질수록 발생할 확률이 적은 현상을 나타낼 수 있습니다.
- 평균과 표준편차에 의해서 변합니다.
- scipy의 stats 서브 패키지에 있는 norm 클래스 사용합니다.
4) 로그정규분포(log-normal distribution) 또는 갈톤(Galton) 분포
- 확률변수에 자연로그를 한 값 또는 변화율(수익률)이 정규분포를 따를 경우 로그정규분포라고 합니다.
- 변수가 양수인 경우에만 적용할 수 있습니다.
- 대칭이 아닌 좌측이 볼록한 형태입니다.
5) 중심극한정리
- 모집단이 정규 분포가 아니더라도 표본 크기가 충분하고 데이터가 정규성을 크게 이탈하지 않는 경우 여러 표본에서 추출한 평균은 종 모양의 정규 곡선을 따른다 라는 이론
- 데이터가 많아지면 언젠가는 정규 곡선을 따라간다
6) 균일 분포(Uniform dist) 또는 균등 분포
모든 확률변수에 대해 균일한 확률을 가지는 연속 확률분포
4.빈도와 백분율
1) 빈도
- 데이터의 출현 횟수를 뜻합니다.
2) 백분위수(percentile)
- 크기가 있는 값들로 이뤄진 자료를 순서대로 나열했을 때 백분율로 나타낸 특정 위치의 값입니다. 일반적으로 크기가 작은 것부터 나열하여 가장 작은 것을 0, 가장 큰 것을 100으로 합니다.
3) 사분위수(interquartile range)
- 75번째 백분위수와 25번째 백분위수 사이의 차이(유의어-IQR)
5.표준오차
1) 오차
-
모집단으로부터 추출한 표본평균은 모평균에 대한 추정값이며, 모평균을 참값이라고 합니다.
이때 추정값에서 참값을 뺀 값을 오차라고 합니다.
2) 표준 오차
- 통계에 대한 표본 분포의 변동성을 한마디로 말해주는 단일 측정 지표로 모집단으로부터 추출한 표본들의 평균인 표본평균들과 모집단의 평균과의 표준적인 차이입니다.
- 오차에 루트를 씌운 것입니다.
- 표본평균과 모평균 간의 표준 간격을 측정 한것으로 표본 평균을 이용하여 모평균을 구할 때 얼마나 큰 오차가 생길지 알 수 있습니다. 모집단으로부터 수많은 표본들을 추출한 후, 각 표본들에 대해 평균을 구합니다. 그리고 각 평균들에 대한 전체 평균을 다시 구하고, 각 평균들이 전체 평균으로부터 평균적으로 얼마나 떨어져 있는지를 나타냅니다.