본문 바로가기

딥러닝 & 머신러닝/머신러닝 지식

통계학 짧막 지식 for 면접

# 확률이란?

 

여러 가지 가능한 결과 중 하나가 일어나는 실험에서, 그 중 일부가 일어날 가능성을 0과 1사이의 값으로 나타낸 것.

 

# 조건부 확률이란? (conditional probability)

 

어떤 사건이 일어났다는 정보가 주어졌을 때, 또 다른 사건이 발생할 확률. 즉, 두 가지 사건에 대한 관계를 나타낼 때 쓰임.

ex) 사건 B가 일어났을 때 사건 A가 일어날 확률 = P(A|B) = P(A,B)/P(B) = P(A∩B)/P(B)

 

# 확률 변수란? (random variable)

 

특정 사건(=표본)들을 실수로 대응한 것.

ex) 카드에서 A가 뽑힐 확률을 1, ... , king이 뽑힐 확률을 13으로 확률 변수로 대응하면 A가 뽑힐 확률은 P(X=1)로 표현 가능하다.

 

이때 카드 예시처럼 '셀 수 있는 수'로 이루어진 변수는 이산(discrete) 변수. 키, 몸무게처럼 '셀 수 없는 수'로 이루어진 변수는 연속(continuous) 변수다.

 

# 확률 모형이란?

 

확률 변수를 이용하여 데이터의 분포를 수학적으로 정의하는 방법. 확률 함수들의 조합으로 구성될 수 있음. 

 

# 확률 분포란? (probability distribution)

 

확률 변수가 가질 수 있는 실수 값과 그에 대응하는 확률을 나타낸 것. 즉, 어떤 사건이 어느 정도의 확률을 가질지를 묘사한 것.

 

이때 이산 확률 변수로 이루어진 확률 분포라면 이산 확률 분포. 이산 확률 분포를 나타내는 함수 = 확률 질량 함수

연속 확률 변수로 이루어진 확률 분포라면 연속 확률 분포. 연속 확률 분포를 나타내는 함수 = 확률 밀도 함수, 누적 분포 함수

 

이산 확률 분포에서의 확률 분포는 확률 변수가 가지는 "각 값" (ex. P(X=1) = 0.5)에서의 확률에 의해 정해지지만, 연속 확률 분포에서의 확률 분포는 확률 변수가 가지는 "각 구간" (ex. P(1<X<3) = 0.5)에서의 확률에 의해 정해진다. 이때, 연속 확률 변수는 각 값을 가질 확률이 모두 0이다.

 

# 확률 밀도 함수란? (probability density function)

 

특정 구간 내에 연속 확률 변수 X가 속할 확률을 나타내는 함수. 이를 f(x)라고 할 때, 다음이 성립한다.

 

 

# 누적 분포 함수란? (cumulative distribution function)

 

연속 확률 변수 X의 확률 밀도 함수가 f(x)일 때, 확률 변수 X가 가질 수 있는 가장 작은 값부터 x까지 해당하는 확률 밀도 함수의 값을 누적해서 더한 것. 누적 분포 함수를 F(x)라 할 때, 다음이 성립한다.

 

 

# 기댓값 E(X)란?

 

보통 평균을 구할 때 쓰는 가중치 1/n 말고, 각 확률을 가중치로 한 확률 변수 X의 평균을 기댓값이라고 한다. 모집단(확률 분포)의 평균이자, 확률 분포의 중심 위치를 나타내는 측도.

 

 

# 분산 Var(X)란?

 

모집단(확률 분포)의 퍼진 정도를 나타내는 측도. 편차 제곱의 평균(=기댓값), 이때 편차 = 확률 변수의 값 - 기댓값

 

 

# 확률의 곱 규칙이란? (multiplicative rule)

 

두 사건 x, y가 동시에 일어날 확률

 

 

# 확률의 합 규칙이란? (sum rule)

 

두 사건 x 또는 y 중 하나만 일어날 확률

 

 

# 베이즈 정리란? (bayes theorm)

 

다음의 공식을 이용해 사후 확률 P(y|x)를 추정하는 방법. 두 사건 x, y에 대한 조건부 확률 간에 성립하는 확률 관계.

사후 확률을 추정하는 것은 이미 어떤 특징(x)이 관측되었을 때, 그 특징이 특정 분포 또는 클래스(y)에서 나왔을 확률을 구하는 것.

 

 

# 사후 확률이란? (posterior)

 

P(y|x), 사건 발생 후의 확률. 관측된 특징 또는 사건(x)이 나오기 위한 클래스 또는 확률 분포(y)를 유추하는 것.

ex) 하얀 공(특징 x)이 나왔다는 사실만 알고, 어느 병(클래스 y)에서 나왔는지 모르는데, 어느 병인지 추정하라.

 

# 우도란? (likelihood)

 

P(x|y), 특정 클래스 또는 확률 분포(y)에서 어떤 사건 또는 특징(x)이 관측될 확률. 즉 기존에 있는 데이터의 각 클래스 별로 어떤 특징에 대한 분포를 의미한다. 이 우도를 이용하면 사후 확률 추정이 가능해진다.

 

# 사전 확률이란? (prior)

 

P(y), 어떤 특징 또는 사건(x)에 무관하게 미리 알 수 있는 확률. 이미 정해진 클래스 또는 확률 분포(y) 등.

ex) 남자 또는 여자 사진이 무작위로 분포되어있고, 그 중 하나를 택했을 때 [P(y=남) = 0.9, P(y=여) = 0.1]처럼 미리 정해진 확률

 

# 최대 우도 추정이란? (maximum likelihood estimation, MLE)

 

 

특정 데이터 분포를 나타내는 모수(매개변수)를 Y라고 할 때, 해당 모수에서 만들어진 데이터 분포로부터 특징 X가 발견될 확률인 우도 P(X|Y)를 최대화하는 Y인 Y_hat을 위와 같이 나타낼 수 있다.

 

따라서 최대 우도 추정이란, 특징 X가 주어졌을 때, X를 발생시켰을 가능성을 최대로 하는 모수 Y를 추정하는 것이다. 즉, 관측된 분포의 확률을 최대화시키는 모수 Y를 추정하는 방법이다.

 

# 공분산이란? (covariance)

 

각 확률 변수 간의 연관성을 나타내는 측도이며, 확률 변수 자기 자신에 대한 분산도 알려준다. 각 확률 변수의 단위에 영향을 받는다는 단점이 있다. Cov(X,Y) > 0 : X와 Y가 같은 방향으로 변화할 확률이 크다. Cov(X,Y) < 0 : X와 Y가 다른 방향으로 변화할 확률이 크다.

 

# 상관계수란? (correlation coefficient)

 

각 확률 변수 간의 연관성을 나타내는 측도이며, 각 확률 변수의 단위에 영향을 받지 않는다.

-1 ≤ ρ ≤ 1, |ρ|가 1에 가까울수록 선형 관계가 강하다.

 

# 각종 분포에 대한 설명

 

- 베르누이 분포 (Bernoulli Distribution)

: 동전 던지기처럼 어떤 사건이 발생하거나 발생하지 않은 것에 대한 분포. 즉 성공 또는 실패만 존재하는 분포

 

- 이항 분포 (Binomial Distribution)

: 베르누이 시행을 여러 번 했을 때 그 사건이 얼마나 발생했는지에 대한 분포

 

- 정규 분포 (Normal Distribution)

: 평균값에서 가장 높은 확률값을 가지며, 그 지점을 중심으로 대칭을 이룬 확률 분포. 평균과 표준편차를 모수로 한다.

 

- 초기하 분포(Hypergeometric Distribution)

: 유한한 모집단에서 비복원 추출 시, 성공 횟수의 확률 분포

 

- 포아송 분포(Poission Distribution)

: 단위 시간/공간에 드물게 나타나는 사건의 횟수에 대한 확률 분포

 

- 균일 분포(Uniform Distribution)

: 특정 구간에 속하는 값을 가질 수 있고, 그 확률이 균등한 확률 분포

 

# 평균(mean)과 중앙값(median)의 차이와 쓰임새

 

평균은 모든 관측치의 값을 반영하므로 지나치게 작거나 큰 관측값, 즉 이상치(outlier)의 영향을 많이 받는다. 그러나 중앙값은 이상치에 상관없이 중간에 있는 값이 된다. 따라서 데이터의 분포가 고르지 못하다면 대푯값으로 평균보다는 중앙값이 낫다. 따라서 결측치(missing value)가 있을 경우, 데이터의 평균값 보다는 중앙값으로 대체하는게 더 나은 경향을 보인다.

 

# 샘플링(sampling)과 리샘플링(resampling)이란? 리샘플링의 장점은?

 

샘플링이란 모집단에서 표본집단을 추출하는 행위이며, 리샘플링이란 표본집단으로 모집단을 추론하는 행위다. 리샘플링을 통해 모집단에 대한 완전한 조사없이, 표본집단만으로 모집단에 대한 추론을 "효율적으로" 수행할 수 있으며, 이는 통계학의 목적이기도 하다.

 

# 모수(parameter)와 통계량(statistic)이란?

 

모수란 모집단의 특성을 나타내는 수치 값이다. 통계량은 표본(관측한 자료)에 의해서만 결정되는 양이다.

 

# 중심 극한 정리란? (Central Limit Theorm) 그것이 유용한 이유는?

 

어떤 모집단에서 표본 집단을 여러 번(무한 번) 추출했을 때, 모집단이 어떤 분포를 갖고 있던 상관없이, 각 표본 집단이 가진 표본 갯수가 30개 이상이 되면, 각 표본 집단의 평균의 분포, 즉 표본 평균의 분포가 정규 분포에 가까워진다.

 

 

즉, 원래 데이터가 어떻게 생겼든, 모집단에서 추출한 표본 집단의 크기가 크기만 하면 표본 평균의 분포는 정규 분포를 따르고, 우리는 정규 분포에 대해 많이 알고 있는 상태이기 때문에 이를 쉽게 활용할 수 있다. (대부분의 통계 절차는 데이터가 정규 분포를 따르길 원한다)

 

# 신뢰구간과 신뢰수준이란?

 

신뢰구간이란 모수(모평균, 모표준편차, ...)를 포함할 것으로 기대되는 구간이다. 신뢰수준이란 신뢰구간이 모수를 포함할 확률이다. 예를 들어 95% 신뢰구간의 의미는, 표본을 여러 번 추출하여 같은 방법으로 신뢰구간을 여러 개 구할 때, 이 구간들 중에서 모수를 포함하는 구간의 비율이 95%에 가깝다는 것이다.

 

# 빈도주의와 베이지안 주의의 차이

 

빈도주의: 동전을 던져 "앞면이 나오는 사건"의 확률값이 0.5다. 즉, "객관적인" 실험에 의해서 계산된 확률을 사용하자는 것.

베이지안 주의: 동전을 던져 "앞면이 나왔다"는 주장의 신뢰도가 0.5다. 즉, 무언가 반복되는 횟수와는 상관없이, "주관적인" 의견에 따른 확률만이 존재한다는 것.

 

# 부트스트랩이란? (bootstrap)

 

복원 추출을 의미한다. 즉, 표본 집단을 만들 때 같은 데이터 표본을 중복으로 사용하는 것이다.

 

# R^2란? (R square, 결정계수)

 

추정한 회귀 직선이 주어진 자료를 얼마나 잘 설명하는지를 재는 척도. 종속 변수의 총 변동 중에서 회귀 직선에 의해 설명되는 비율. 1에 가까울수록 회귀 직선이 종속 변수를 잘 설명한다.

 

# 확률과 우도의 차이

 

확률: "고정된 확률 분포"에서 어떠한 관측값이 얼마만큼 나타날 수 있는지에 대한 값

우도: "고정된 관측값"이 어떠한 확률 분포에서 얼마만큼 나타날 수 있는지에 대한 값

 

 

# 모수가 수십개 이하로 매우 적은 경우, 어떤 통계 모델을 쓸 수 있는가?

 

모평균 추론에는 t-분포, 모표준편차 추론에는 χ^2(카이제곱)-분포를 쓴다.

 

# 정보 이론 (자기 정보, 엔트로피, KL 다이버전스)

 

- 자기 정보 (self information)

: 사건 e_i의 정보량. 단위는 비트 또는 나츠.

 

- 엔트로피 (entropy)

: 확률 변수 x의 불확실성을 나타내는 값.

확률 분포가 균일할수록 정보가 없는 것과 마찬가지이므로 불확실성이 올라가면 엔트로피도 올라간다.

 

- KL 다이버전스 (KL-Divergence)

: 두 분포 P, Q간의 유사도를 나타낸다.

P와 Q의 크로스 엔트로피 = P의 엔트로피 + P와 Q의 KL 다이버전스

 

# 가설 검정

 

- 가설 검정의 정의

: 모집단, 모수에 대한 가정이 있을때, 표본 집단에 대한 자료를 갖고 해당 가정이 적절한지 판단하는 방법

 

- 대립 가설(H1): 자료를 통해 입증하고자 하는 가설

- 귀무 가설(H0): 기본 가설. 대립 가설의 반대. 기존의 믿음을 나타내는 가설

 

- 귀무 가설을 채택 → 귀무 가설 H0를 기각하지 못한다.

- 대립 가설을 채택 → 귀무 가설 H0를 기각한다.

 

⇒ 귀무 가설이 옳다는 가정 하에 관측값을 얻을 확률을 구하고, 이를 바탕으로 판단하므로 검정의 결과도 귀무 가설 기각 또는 기각하지 않는다는 표현을 사용한다.

 

- 기각역(R): 귀무 가설을 기각하게 되는 관측값의 영역

 

- 검정 통계량(test statistic)

: 가설 검정에 이용되는 통계량. 귀무 가설을 가정하고 얻는 값.

 

- 제 1종 오류: 귀무 가설이 참인데 귀무 가설을 기각하는 경우. 확률 α

- 제 2종 오류: 귀무 가설이 거짓인데 귀무 가설을 기각하지 않는 경우. 확률 β

 

- 검정력 (statiscal power): 대립 가설이 사실일 때, 이를 채택할 확률(= 귀무 가설을 기각할 확률). 즉, 1- β

 

⇒ 1종 오류가 2종 오류보다 심각하다. 기존 가설이 맞는데도 불구하고 그걸 버리고 올바르지 않은 새로운 믿음을 받아들인다는 뜻이므로.

 

∴ 일반적으론, 1종 오류를 범할 확률(α)이 일정 수준 이하가 되도록 하는 기각역 중에서 2종 오류를 범할 확률(β)을 작게 하는 기각역을 선택한다.

 

- 유의 수준

: 귀무 가설 하에서 관측값이 기각역에 속할 확률. α. 즉, 1종 오류를 범할 확률에 대한 최대 허용 한계 고정값.

"1종 오류는 이 정도까지만 허용해줄 수 있어"를 정해주는 것. (유의 수준 ⇔ 기각역)

 

- p-value (유의 확률)

: 주어진 관측값(검정 통계량)에 대해 귀무 가설을 기각하게 되는 최소의 유의 수준. 귀무 가설 하에서 관측된 검정 통계량보다 더 극단적인 값이 나올 확률. 주어진 관측값에 대한 p-value가 유의 수준보다 작으면 귀무 가설 기각하고, 유의 수준보다 크면 귀무 가설 기각 못한다.

 

모집단에서 추출한 표본으로 생성한 가설을 검증하는 단계에서, 추가로 뽑은 샘플이 매우 희박한 발생 확률을 가지고 있을 때, 이 샘플이 우연히 발생한 것인지 가설이 틀린 것인지를 판단할 때 사용된다. 고객에게 설명할때는 “통계적으로 분석하여 예상한 범위를 벗어날 확률”이라고 이야기할 수 있을 것이다.

 

p-value는 관측량이 많아지면 낮아질 수 있다. 새로운 가설의 표본이 커지면 표본 오차가 작아지기 때문이다. 따라서 요즘 같은 빅데이터 시대에는 데이터의 양이 늘어나면서 p-value가 기존 관행처럼 5% 이하이더라도 유의미하지 않을 수 있다.