sehee lee

배우는 중입니다.

[Descriptive Statistics] 통계기초용어 정리

July 22 2021

통계기초용어

실험

결과가 미리 정해져 있지 않고 무작위로(random) 결정되는 현상을 관찰하는 과정

시행

실험을 수행하는 일

경우

실험으로 얻는 결과

사상

시행에서 얻을 수 있는 결과 중에 조건에 맞는 결과

표본 공간

어떤 특정 실험 또는 무작위 실험을 했을 때, 측정가능한 모든 결과들의 집합

전사상

시행에서 얻을 수 있는 결과의 모든 집합

데이터 생성기(data generator)

데이터를 생성하게하는 존재
주사위, 자동차 엔진, 사람

데이터 모형(data model) 또는 데이터 모델

데이터의 관계, 접근과 그 흐름에 필요한 처리 과정에 관한 추상화된 모형.
해당 데이터를 만들어내는 가상의 데이터 생성기

모집단 (Population)

연구자가 알고 싶어하는 대상 혹은 집단 전체
“대한민국 남자와 여자의 평균 키를 알고싶다.”라고 한다면 모집단은 대한민국 모든 남자 여자의 키

표본 (Sample)

연구자가 측정 또는 관찰한 결과들의 집합
표본 (Sample)을 측정 또는 관찰해서 연구자가 알고 싶어하는 모집단(효과/대상)을 추정

표본공간(sample space)

어떤 특정 실험 또는 무작위 실험을 했을 때, 측정가능한 모든 결과들의 집합
표본은 표본 공간의 부분집합

사건(Event)

표본공간의 부분집합으로 어떤 조건을 만족하는 특정한 표본점들의 집합
주사위를 두 번 던져서 나온 각각의 수를 더했을 때 그 값이 “2”가 나올 때를 기다린다고(조건) 한다면, 여기서 “사건”이란 바로 첫번째도 “1”이 그리고 두번째도 “1”이 나왔을 때가 바로 사건이 발생한 때

확률

동일한 조건 하에서 동일한 실험을 무수히 많이 반복하여 실시할 때, 나올 수 있는 모든 경우의 수(표본 공간) 중 어떤 특정한 조건을 만족하는 사건이 발생하는 비율

결합 확률

사건A와 사건B가 동시에 발생할 확률(교집합)

주변 확률(marginal probability)

결합되지 않는 개별 사건의 확률

조건부 확률(conditional probability)

사건B가 사실일 경우의 사건A에 대한 확률
사건A에 대한 확률은 사건B에 의해 변한다

확률적 데이터

어떤 실험(experiment) 행위에 의해 같은 조건에서 여러번 반복하여 얻어지는 데이터
어떤 실험? 주사위를 던지는 실험, 자동차 엔진의 출력을 측정하는 실혐, 혈압측정 실험

확률변수

무작위 실험을 했을 때, 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수
임의(Random)로 진행되는 실험(예: 동전을 무작위로 두번 던져서 그림 또는 숫자가 나오는 실험)에서 일정한 확률(예: 그림이 나올 확률 1/2, 그리고 뒤가 나올 확률 1/2)을 가지고 발생하는 결과에 실수 값(예: 앞=1, 뒤=0)을 부여하는 변수(variable)

상태공간(State space)

확률 변수가 취하는 모든 실수들의 집합

이산확률 변수(Discrete random varible)

상태공간이 유한 집합인 또는 셈할 수 있는 무한집합인 확률변수

연속확률 변수(Continuous random variable

확률변수가 취하는 값이 연속된 구간으로 나타나는 확률 변수

확률 분포(Probability distribution)

확률변수의 모든 값과 그에 대응하는 확률들의 분포 형태

확률 함수(Probability function)

확률변수에 의해 정의된 실수를 확률(0~1사이)에 대응시키는 함수

평균 (mean)

관측치의 총합을 관측치의 개수로 나누어 구한값
극단적인 값의 영향을 받는다

중앙값(median)

절반 이상의 숫자들이 이 값보다 크거나 같고 동시에 절반 이상의 숫자들이 이 값보다 작거나 같은 수
극단적인 값의 영향을 받지 않는다

최빈치(mode)

가장 많이 관찰되는 값

편차(Deviation)

관측치들이 평균으로부터 떨어져 있는 정도
모든 관측치의 편차의 합은 0이다
편차의 평균은 항상 0이다

이상치(outlier) 또는 극단치

통계적 자료분석의 결과를 왜곡시키거나, 자료 분석의 적절성을 위협하는 변수값 또는 사례
다른 자료와는 극단적으로 다른 값, 즉 유달리 높거나 낮은 값을 보이는 것

측정오차(measurement error)

관측치와 실제값의 차이

편향(bias)

예측값이 정답과 떨어져 있는 정도
평향이 크면 정답값들과의 거리가 멀다고 하며, 이를 과소 적합이라한다.

표준분산(Variance)

예측값과 예측값들의 관계.
높은 분산을 가지는 것을 과대 적합이라고 한다
관측값들의 퍼진 정도의 측도로 편차가 양수인지 음수인지는 중요하지 않으므로 편차의 부호를 없애고 그 값들을 더하여 n-1로 나누것이 표준분산이다

표준편차 (Standard Deviation)

- 표본분산의 제곱근
- 표본분산의 단위는 관측값에 제곱을 해서 단위가 일치하지 않으므로 분산에 제곱근을 하여 관측값과 근접시키는 것이다.
- 관측값들이 평균에서 얼마나 떨어져있는지를 나타내주는 값
- 유의어 : l2 norm, 유클리드 노름

평균절대편차(mean absolute deviation)

평균과의 편차의 절대값의 평균
유의어 l1 norm, 맨하탄 노름

자유도 (degrees of freedom)

주어진 조건하에서 통계적 제한을 받지 않고 자유롭게 변화를 줄수 있는 원소의 수
표본 n개를 선택할 때, 마지막 1개는 모집단의 평균과 같아져야 해서 무조건 종속되어야 하므로 자유도는 표본의 개수 -1 이다

추정

표본을 조사하여 원래 모집단의 특성을 추측하는 것

독립(Independent)

사건B의 발생여부가 사건A에 영향을 주지 않는다는 것

표본추출

전수조사

조사대상인 모집단전체를 조사하는 경우

표본조사

모집단이 커서 전수조사가 어려운 경우, 집단의 특서을 추정하기 위해서 일부 표본만을 추출하여 하는 조사

랜덤표본추출(임의 표집, random sampling)

표본을 무작위로 추출하는 것

층화표본추출(층화 표집, stratified sampling)

모집단을 층으로 나눈 뒤 각 층에서 무작위로 표본을 추출하는 것
train_test_split() 함수
k-folds cross-validation 할 때는 n_splits 를 가지고 층화 무작위 추출할 때는 train_test_split 를 사용. 비복원추출이다

단순랜덤표본(단순임의표본, simple random sample)

모집단의 층화없이 랜덤표본추출로 얻은 표본

표본 편향(sample bias)

모집단을 대표되도록 샘플을 추출해야 하는데 유의미한 비임의 방식으로 표본이 추출되어서 발생하는 현상
대표적 예시로는 1936년 미국 대통령 선거의 설문조사 예측이 있다.

오차

모집단으로부터 추출한 표본평균은 모평균에 대한 추정값이며, 모평균을 참값이라고 한다. 이때 추정값에서 참값을 뺀 값을 오차라고 한다

표준오차

통계에 대한 표본 분포의 변동성을 한마디로 말해주는 단일 측정 지표
오차에 루트를 씌운 것이다
모집단으로부터 추출한 표본들의 평균인 표본평균들과 모집단의 평균과의 표준적인 차이.

n은 표본의 크기, s는 표준편차

단순임의 추출

전체 데이터에서 각 데이터를 추출할 확률을 동일하게 하여 표본을 추출하는 방법
복원추출과 비복원추출이 있다

복원추출

한번 추출된 표본을 다시 선택한 것이 가능한 경우

비복원추출

한번 추출된 표본은 다시 선택할 수 없는 경우
random.sample 함수 첫번째 매개변수 : 데이터 두번째 매개변수 : 추출할 개수

순차적 분할

시계열 데이터와 같이 순서를 유지하는 것이 필요한 경우에 사용하는 방법

Share on

Twitter Facebook LinkedIn

Leave a comment

You may also enjoy

[Unix] Unix의 구조와 특징

October 30 2021

Unix의 구조와 특징

[python] Tensorflow의 GPU사용이 안되는 문제

October 30 2021

Tensorflow의 GPU사용이 안되는 문제 10월 26일 GPU서버에서 Pytorch와 Tensorflow 모듈로 GPU사용이 가능한지 확인해보려는데 Tensorflow만 GPU정보를 가져올 수 없었습니다. 해결 과정에 대해 기록하고자 합니다

[OpenCV] Template Matching

October 29 2021

Template Matching

[Deep Learning] 문자인식의 성능지표

October 19 2021

네이버 파파고 2019 레퍼런스