Specialist/Marketing

통계학 기초 복습

홍원 2022. 3. 25. 23:38

데이터 분석 공부를 시작 하기 전에 1학년때 배운 기초통계학을 복습하기로 했다.

이와 관련하여 정말 좋은 자료가 있어서 영상을 공유하고, 공부 한 내용을 적어보기로 했다.

 

데이터 분석을 위한 통계 기초 개념 - 메타코드M

(https://www.youtube.com/watch?v=YaCQrJCgbqg&ab_channel=%EB%A9%94%ED%83%80%EC%BD%94%EB%93%9CM)

 

요약

 

1. 통계

   - 모집단 : 통계학에서 관심/조사의 대상이 대는 개체의 전체 집합 

   - 모수 : 모집단에 대한 수치적 요약

   - 표본 : 모집단을 적절히 대표하는 모집단의 일부

   - 통계량 : 표본에 대한 수치적 요약

 

2. 자료의 종류

(1) 범주형 자료 

    - 명목형 자료 : 단순히 속성을 분류하는 자료 (혈액형)

    - 순서형 자료 : 상대적인 크기 비교 (만족도,학력)

(2) 양적 자료

    - 이산형 자료 : 셀 수 있음 (빈도 수, 불량품의 수) 

    - 연속형 자료 : 셀 수 없음 (길이, 시간)

 

3. 통계량 

(1) 중심

    - 최빈값(mode) : 발생 빈도가 가장 높은 값

    - 중앙값(median) : 크기 순으로 정렬된 자료에서 가운데 위치하는 값

    - 산술 평균(Arithmetic Mean) : 모든 값을 더하여 자료의 수로 나누어 준 값

    - 가중 평균(Weighted Mean) : 자료의 중요성이 각기 다른 경우 중요도에 따라 가중치를 부여한 평균

    - 기하 평균(Geometric Mean) : 자료가 성장률, 증가율등 앞 시점에 대한 비율로 나타난 경우 유용한 통계량 ( 일일 주가 상승률) 

(2) 산포

   - 분산 (Variance) : 편차 제곱의 합을 자료의 수로 나눈 값

   - 표준편차 (Standard Deviation) : 분산을 제곱근 한 값

(3) 형태

   - 왜도 (Skewness) : 분포의 비대칭도

   - 첨도 (Kurtosis) : 뾰족한 정도

(4) 상관

   - 상관 (Correlation) : 변수들 간의 선형적 관련성을 파악함

   - 공분산 (Covariance) : 공분산은 두 개의 확률 변수의 선형관계를 나타내는 값.

   - 상관계수 (Correlation Coefficient) : 확률변수의 절대적 크기에 영향을 받지 않도록 공분산을 단위화 시킨 값 (-1≤x≤1 값을 가지고 0 = 두 변수간 상관관계가 없음, 1 = 양의 상관관계, 2 = 음의 상관관계)

 

4. 확률과 확률변수

   - 표본공간(S) : 랜덤한 현상의 모든 가능한 결과의 집합 (동전을 두번 던졌을 때 - HH, HT, TH,TT)

   - 사건 : 표본공간의 부분집합 (동전 앞면이 하나인 사건 - HT,TH)

(1) 확률 정의 

   - 확률의 고전적 정의 : 가능한 결과가 N가지 이고 각 결과가 나타날 가능성이 모두 같을때, 사건 A에 속하는 결과가 M개라면 A의 확률 : P(A) = m/N

(2) 조건부 확률 :한 사건이 일어날 것을 전제로 다른 사건이 일어날 확률

(3) 독립과 종속

    - 독립사건 : 한 사건의 발생이 다른 발생 확률에 영향을 주지 않는 것

    - 종속사건 : 한 사건의 발생이 다른 사건의 발생에 영향을 줌

(4) 베이즈 정리 : 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리(https://www.youtube.com/watch?v=Y4ecU7NkiEI)

(5) 확률변수

    - 확률 변수 : 표본공간에서 정의된 살수값 함수

    - 확률 분포 : 확률변수의 값과 확률을 대응시켜 표,그래프,함수로 표현한 것

(6) 이산 / 연속 확률변수

    - 이산확률변수 : 이산표본공간에서 정의된 확률변수의 값이 유한할때

    - 연속확률변수 : 특정 구간 내의 모든 값을 취하는 확률 변수 (확률변수의 값이 무한개)

(7) 기대값(E(X)) : 확률변수의 모든 값의 평균

     - 이산확률변수(시그마)와 연속확률변수(인테그랄)의 기대값을 구하는 방법이 당연히 다름

(8) 분산(Var(X) = E[(X-m)^2))과 표준편차(sd(X) = √Var(X))

     - 이산확률변수(시그마)와 연속확률변수(인테그랄)의 분산을 구하는 방법이 당연히 다름

(9) 공분산과 상관계수

     - 공분산 : Cov(X,Y) = E[(X-m1)(Y-m2)]

     -  상관계수 : Corr(X,Y) = Cov(X,Y) / sd(X)*sd(Y)

(10) 이산확률분포 

     - 베르누이 시행 : 사상이 두개뿐인 시행(성공(p) or 실패(1-P)) - 평균:(기댓값) : p, 분산 : p(1-p)

     - 이항확률분포 : 베르누이 시행을 반복하여 특정한 횟수의 성공/실패가 나타날 확률 - 평균:(기댓값) : np, 분산 : np(1-p)

     - 포아송분포 : 단위시간, 단위 공간내에 발생하는 사건의 홧수를 확률변수 X라고 할때 X는 λ(단위시간 당 평균 발생횟수)를 모수로 갖는 포아송 분포를 따름 - 기대값 : λ , 분산 : λ

(11) 연속확률분포

     - 정규분포 : 연속확률분포 중 가장 널리사용 - 평균을 중심으로 좌우 대칭의 종모양

     - 표준정규분포 : 평균이 0이고 표준편차가 1인 정규분포 (Z분포라고도 불림) - 표준화 할때 주로 사용 Z = (X - m / σ z~(0,1) 

     - 표본분포 : 모집단에서 일정한 크기로 뽑을 수 있는 표본을 모두 뽑았을때 그 모든 표본의 통계량의 확률분포 (ex : 남자 100명의 표본 한번(m1)부터 (m100) 까지의 확률분포

    - 표본평균의 평균 : E(x̄) = m

    - 표본평균의 표준편차 : Var(x̄) = σ^2 / n

(12) 중심극한정리 : 평균이 m, 표준편차 σ 인 임의의 모집단으로부터 크기 n인 표본에서의 표본평균은 n이 크면 근사적으로 평균이 m이고 분산이 σ^2 / n인 정규분포를 따름

(13) 카이제곱(χ^2)분포 : 표본분산과 관련된 분포, 확률변수가 각각 표준정규분포를 따르고 독립일때 그들의 제곱합은 자유도(k)인 카이제곱 분포를 따름 (ex : 시간대 별 아이스크림 매출량

(14) t분포 : X의 분포가 정규분표일때, 표본평균의 분포에서 모집단의 표준편차를 모를경우 모표준편차 대신 표본표준편차(S)를 사용 - t(n - 1) ~(x̄ - m) / (S / √n)

    - 주로 모평균 추정 혹은 모 표준차이에 대한 추정 시 모표준편차를 모를 때 t분포를 사용함

    - 표본 크기가 30 이상일 경우에는 표준정규분포 , 미만일때는 t분포

(15) F분포 : 두 정규모집단의 분산을 비교하는 추론에 사용

 

5. 통계적 추정

(1) 통계적 추정 : 표본의 통계량을 기초로 하여 모집단의 모수를 추정하는 방법론

   - 점추정 : 모수를 단일한 값으로 추측 : 신뢰도를 나타낼 수 없음

   - 구간추정 : 모수를 포함한다고 추정되는 구간을 구하는 방식 : 신뢰도를 나타낼 수 있음

(2) 점추정

   - 표준오차(Standard Error) : 통계량의 표준편차 : σ/√n , 표본크기가 클수록 작아짐,추정량의 표준편차가 작을수록 좋음

(3) 구간추정 : 모수가 속할 것으로 기대되는 범위(신뢰구간)을 택하는 과정

   - 모분산을 아는 경우 - Z통계량을 사용 (ex : x̄ - (Z0.05 * ( σ/√n)) ≤ m x̄ + (Z0.05 * ( σ/√n))

   - 모분산을 모르는 경우 - t통계량을 사용 (ex : x̄ - (t(n-1,0.05) * ( S/√n)) ≤ m  x̄ + (t(n-1,0.05) * ( S/√n))

 

6. 통계 검정

(1) 가설검정 : 설정한 가설이 옳을때 표본에서의 통계량과 통계량의 분포에서 이론적으로 얻는 특정 값을 비교하여 가설의 기각/채택여부를 판정하는 방법 - 확률적 오차범위를 넘어서면 가설을 기각한다

   - 유의수준(α) : 기각/채택 여부의 판단기준

   - 귀무가설(H0) : 일반적 사실 - 효과가 없다,차이가 없다 등의 내용

   - 대립가설(H1) : 입증하고자 하는 가설 - 효과가 있다, 차이가 있다 등의 내용

(2) 통계검정 오류

   - 제 1종 오류(α) : 귀무가설을 채택해야 했음에도 이를 기각 할 오류 

   -  제 2종 오류(β) : 귀무가설을 기각해야 했음에도 이를 채택 할 오류

(3) 통계검정  요소

   -  유의수준 : 제1종 오류를 범할 최대 허용한계

   -  유의확률 (p-value) : 검정통계량 값에 대해 귀무가설을 기각 할 수 있는 최소의 유의수준으로 귀무가설이 사실일 확률

   - α > p-value : 귀무가설 기각

   - α < p-value : 귀무가설 채택

   -  임계값 : 기각역과 채택역을 나누는 경계값

(4) 통계검정  절차

   - 검정할 가설을 설정

   - 유의수준을 설정

   - 임계치를 설정하고 검정 통계량과 임계치를 비교

   - p-value 값이 유의수준보다 작으면 귀무가설을 기각

(5) 통계검정  모평균검정

   - 정규모집단(정규 분포를 따르는 모집단)의 경우

       - 모분산이 알려진 경우 : Z 검정 통계량

       - 모분산을 모르는 경우 : t 검정 통계량 (자유도 : n-1)

   - 표본 크기가 큰 임의의 모집단

      - 모분산이 알려진 경우 : Z 검정 통계량

      - 모분산을 모르는 경우 : Z 검정 통계량

    

 

정리 

통계학은 데이터에서 의미를 찾아내는 방법을 다루는 학문이다.

통계적 방법의 이해 없이 툴만을 사용해 인사이트를 도출한다면, 그것은 잘못된 인사이트가 될 것이다.

따라서 통계학 공부를 계속 진행할 것이고, 앞으로 발견할 내 인사이트에 대한 근거를 명확히 할 것이다.