[Descriptive Statistics] 통계기초용어 정리

July 22 2021

통계기초용어

실험

  • 결과가 미리 정해져 있지 않고 무작위로(random) 결정되는 현상을 관찰하는 과정

시행

  • 실험을 수행하는 일

경우

  • 실험으로 얻는 결과

사상

  • 시행에서 얻을 수 있는 결과 중에 조건에 맞는 결과

표본 공간

  • 어떤 특정 실험 또는 무작위 실험을 했을 때, 측정가능한 모든 결과들의 집합

전사상

  • 시행에서 얻을 수 있는 결과의 모든 집합

데이터 생성기(data generator)

  • 데이터를 생성하게하는 존재
  • 주사위, 자동차 엔진, 사람

데이터 모형(data model) 또는 데이터 모델

  • 데이터의 관계, 접근과 그 흐름에 필요한 처리 과정에 관한 추상화된 모형.
  • 해당 데이터를 만들어내는 가상의 데이터 생성기

모집단 (Population)

  • 연구자가 알고 싶어하는 대상 혹은 집단 전체
  • “대한민국 남자와 여자의 평균 키를 알고싶다.”라고 한다면 모집단은 대한민국 모든 남자 여자의 키

표본 (Sample)

  • 연구자가 측정 또는 관찰한 결과들의 집합
  • 표본 (Sample)을 측정 또는 관찰해서 연구자가 알고 싶어하는 모집단(효과/대상)을 추정

표본공간(sample space)

  • 어떤 특정 실험 또는 무작위 실험을 했을 때, 측정가능한 모든 결과들의 집합
  • 표본은 표본 공간의 부분집합

사건(Event)

  • 표본공간의 부분집합으로 어떤 조건을 만족하는 특정한 표본점들의 집합
  • 주사위를 두 번 던져서 나온 각각의 수를 더했을 때 그 값이 “2”가 나올 때를 기다린다고(조건) 한다면, 여기서 “사건”이란 바로 첫번째도 “1”이 그리고 두번째도 “1”이 나왔을 때가 바로 사건이 발생한 때

확률

  • 동일한 조건 하에서 동일한 실험을 무수히 많이 반복하여 실시할 때, 나올 수 있는 모든 경우의 수(표본 공간) 중 어떤 특정한 조건을 만족하는 사건이 발생하는 비율

결합 확률

  • 사건A와 사건B가 동시에 발생할 확률(교집합)

주변 확률(marginal probability)

  • 결합되지 않는 개별 사건의 확률

조건부 확률(conditional probability)

  • 사건B가 사실일 경우의 사건A에 대한 확률
  • 사건A에 대한 확률은 사건B에 의해 변한다

확률적 데이터

  • 어떤 실험(experiment) 행위에 의해 같은 조건에서 여러번 반복하여 얻어지는 데이터
  • 어떤 실험? 주사위를 던지는 실험, 자동차 엔진의 출력을 측정하는 실혐, 혈압측정 실험

확률변수

  • 무작위 실험을 했을 때, 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수
  • 임의(Random)로 진행되는 실험(예: 동전을 무작위로 두번 던져서 그림 또는 숫자가 나오는 실험)에서 일정한 확률(예: 그림이 나올 확률 1/2, 그리고 뒤가 나올 확률 1/2)을 가지고 발생하는 결과에 실수 값(예: 앞=1, 뒤=0)을 부여하는 변수(variable)

상태공간(State space)

  • 확률 변수가 취하는 모든 실수들의 집합

이산확률 변수(Discrete random varible)

  • 상태공간이 유한 집합인 또는 셈할 수 있는 무한집합인 확률변수

연속확률 변수(Continuous random variable

  • 확률변수가 취하는 값이 연속된 구간으로 나타나는 확률 변수

확률 분포(Probability distribution)

  • 확률변수의 모든 값과 그에 대응하는 확률들의 분포 형태

확률 함수(Probability function)

  • 확률변수에 의해 정의된 실수를 확률(0~1사이)에 대응시키는 함수

평균 (mean)

  • 관측치의 총합을 관측치의 개수로 나누어 구한값
  • 극단적인 값의 영향을 받는다

중앙값(median)

  • 절반 이상의 숫자들이 이 값보다 크거나 같고 동시에 절반 이상의 숫자들이 이 값보다 작거나 같은 수
  • 극단적인 값의 영향을 받지 않는다

최빈치(mode)

  • 가장 많이 관찰되는 값

편차(Deviation)

  • 관측치들이 평균으로부터 떨어져 있는 정도
  • 모든 관측치의 편차의 합은 0이다
  • 편차의 평균은 항상 0이다

이상치(outlier) 또는 극단치

  • 통계적 자료분석의 결과를 왜곡시키거나, 자료 분석의 적절성을 위협하는 변수값 또는 사례
  • 다른 자료와는 극단적으로 다른 값, 즉 유달리 높거나 낮은 값을 보이는 것

측정오차(measurement error)

  • 관측치와 실제값의 차이

편향(bias)

  • 예측값이 정답과 떨어져 있는 정도
  • 평향이 크면 정답값들과의 거리가 멀다고 하며, 이를 과소 적합이라한다.

표준분산(Variance)

  • 예측값과 예측값들의 관계.
  • 높은 분산을 가지는 것을 과대 적합이라고 한다
  • 관측값들의 퍼진 정도의 측도로 편차가 양수인지 음수인지는 중요하지 않으므로 편차의 부호를 없애고 그 값들을 더하여 n-1로 나누것이 표준분산이다

표준편차 (Standard Deviation)

    • 표본분산의 제곱근
    • 표본분산의 단위는 관측값에 제곱을 해서 단위가 일치하지 않으므로 분산에 제곱근을 하여 관측값과 근접시키는 것이다.
    • 관측값들이 평균에서 얼마나 떨어져있는지를 나타내주는 값
    • 유의어 : l2 norm, 유클리드 노름

평균절대편차(mean absolute deviation)

  • 평균과의 편차의 절대값의 평균
  • 유의어 l1 norm, 맨하탄 노름

자유도 (degrees of freedom)

  • 주어진 조건하에서 통계적 제한을 받지 않고 자유롭게 변화를 줄수 있는 원소의 수
  • 표본 n개를 선택할 때, 마지막 1개는 모집단의 평균과 같아져야 해서 무조건 종속되어야 하므로 자유도는 표본의 개수 -1 이다

추정

  • 표본을 조사하여 원래 모집단의 특성을 추측하는 것

독립(Independent)

  • 사건B의 발생여부가 사건A에 영향을 주지 않는다는 것

표본추출

전수조사

  • 조사대상인 모집단전체를 조사하는 경우

표본조사

  • 모집단이 커서 전수조사가 어려운 경우, 집단의 특서을 추정하기 위해서 일부 표본만을 추출하여 하는 조사

랜덤표본추출(임의 표집, random sampling)

  • 표본을 무작위로 추출하는 것

층화표본추출(층화 표집, stratified sampling)

  • 모집단을 층으로 나눈 뒤 각 층에서 무작위로 표본을 추출하는 것
  • train_test_split() 함수
  • k-folds cross-validation 할 때는 n_splits 를 가지고 층화 무작위 추출할 때는 train_test_split 를 사용. 비복원추출이다

단순랜덤표본(단순임의표본, simple random sample)

  • 모집단의 층화없이 랜덤표본추출로 얻은 표본

표본 편향(sample bias)

  • 모집단을 대표되도록 샘플을 추출해야 하는데 유의미한 비임의 방식으로 표본이 추출되어서 발생하는 현상
  • 대표적 예시로는 1936년 미국 대통령 선거의 설문조사 예측이 있다.

오차

  • 모집단으로부터 추출한 표본평균은 모평균에 대한 추정값이며, 모평균을 참값이라고 한다. 이때 추정값에서 참값을 뺀 값을 오차라고 한다

표준오차

  • 통계에 대한 표본 분포의 변동성을 한마디로 말해주는 단일 측정 지표

  • 오차에 루트를 씌운 것이다

  • 모집단으로부터 추출한 표본들의 평균인 표본평균들과 모집단의 평균과의 표준적인 차이.

    img

    n은 표본의 크기, s는 표준편차

단순임의 추출

  • 전체 데이터에서 각 데이터를 추출할 확률을 동일하게 하여 표본을 추출하는 방법
  • 복원추출과 비복원추출이 있다

복원추출

  • 한번 추출된 표본을 다시 선택한 것이 가능한 경우

비복원추출

  • 한번 추출된 표본은 다시 선택할 수 없는 경우
  • random.sample 함수 첫번째 매개변수 : 데이터 두번째 매개변수 : 추출할 개수

순차적 분할

  • 시계열 데이터와 같이 순서를 유지하는 것이 필요한 경우에 사용하는 방법

Leave a comment