데이터 분석 공부를 시작 하기 전에 1학년때 배운 기초통계학을 복습하기로 했다.
이와 관련하여 정말 좋은 자료가 있어서 영상을 공유하고, 공부 한 내용을 적어보기로 했다.
데이터 분석을 위한 통계 기초 개념 - 메타코드M
(https://www.youtube.com/watch?v=YaCQrJCgbqg&ab_channel=%EB%A9%94%ED%83%80%EC%BD%94%EB%93%9CM)
요약
1. 통계
- 모집단 : 통계학에서 관심/조사의 대상이 대는 개체의 전체 집합
- 모수 : 모집단에 대한 수치적 요약
- 표본 : 모집단을 적절히 대표하는 모집단의 일부
- 통계량 : 표본에 대한 수치적 요약
2. 자료의 종류
(1) 범주형 자료
- 명목형 자료 : 단순히 속성을 분류하는 자료 (혈액형)
- 순서형 자료 : 상대적인 크기 비교 (만족도,학력)
(2) 양적 자료
- 이산형 자료 : 셀 수 있음 (빈도 수, 불량품의 수)
- 연속형 자료 : 셀 수 없음 (길이, 시간)
3. 통계량
(1) 중심
- 최빈값(mode) : 발생 빈도가 가장 높은 값
- 중앙값(median) : 크기 순으로 정렬된 자료에서 가운데 위치하는 값
- 산술 평균(Arithmetic Mean) : 모든 값을 더하여 자료의 수로 나누어 준 값
- 가중 평균(Weighted Mean) : 자료의 중요성이 각기 다른 경우 중요도에 따라 가중치를 부여한 평균
- 기하 평균(Geometric Mean) : 자료가 성장률, 증가율등 앞 시점에 대한 비율로 나타난 경우 유용한 통계량 ( 일일 주가 상승률)
(2) 산포
- 분산 (Variance) : 편차 제곱의 합을 자료의 수로 나눈 값
- 표준편차 (Standard Deviation) : 분산을 제곱근 한 값
(3) 형태
- 왜도 (Skewness) : 분포의 비대칭도
- 첨도 (Kurtosis) : 뾰족한 정도
(4) 상관
- 상관 (Correlation) : 변수들 간의 선형적 관련성을 파악함
- 공분산 (Covariance) : 공분산은 두 개의 확률 변수의 선형관계를 나타내는 값.
- 상관계수 (Correlation Coefficient) : 확률변수의 절대적 크기에 영향을 받지 않도록 공분산을 단위화 시킨 값 (-1≤x≤1 값을 가지고 0 = 두 변수간 상관관계가 없음, 1 = 양의 상관관계, 2 = 음의 상관관계)
4. 확률과 확률변수
- 표본공간(S) : 랜덤한 현상의 모든 가능한 결과의 집합 (동전을 두번 던졌을 때 - HH, HT, TH,TT)
- 사건 : 표본공간의 부분집합 (동전 앞면이 하나인 사건 - HT,TH)
(1) 확률 정의
- 확률의 고전적 정의 : 가능한 결과가 N가지 이고 각 결과가 나타날 가능성이 모두 같을때, 사건 A에 속하는 결과가 M개라면 A의 확률 : P(A) = m/N
(2) 조건부 확률 :한 사건이 일어날 것을 전제로 다른 사건이 일어날 확률
(3) 독립과 종속
- 독립사건 : 한 사건의 발생이 다른 발생 확률에 영향을 주지 않는 것
- 종속사건 : 한 사건의 발생이 다른 사건의 발생에 영향을 줌
(4) 베이즈 정리 : 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리(https://www.youtube.com/watch?v=Y4ecU7NkiEI)
(5) 확률변수
- 확률 변수 : 표본공간에서 정의된 살수값 함수
- 확률 분포 : 확률변수의 값과 확률을 대응시켜 표,그래프,함수로 표현한 것
(6) 이산 / 연속 확률변수
- 이산확률변수 : 이산표본공간에서 정의된 확률변수의 값이 유한할때
- 연속확률변수 : 특정 구간 내의 모든 값을 취하는 확률 변수 (확률변수의 값이 무한개)
(7) 기대값(E(X)) : 확률변수의 모든 값의 평균
- 이산확률변수(시그마)와 연속확률변수(인테그랄)의 기대값을 구하는 방법이 당연히 다름
(8) 분산(Var(X) = E[(X-m)^2))과 표준편차(sd(X) = √Var(X))
- 이산확률변수(시그마)와 연속확률변수(인테그랄)의 분산을 구하는 방법이 당연히 다름
(9) 공분산과 상관계수
- 공분산 : Cov(X,Y) = E[(X-m1)(Y-m2)]
- 상관계수 : Corr(X,Y) = Cov(X,Y) / sd(X)*sd(Y)
(10) 이산확률분포
- 베르누이 시행 : 사상이 두개뿐인 시행(성공(p) or 실패(1-P)) - 평균:(기댓값) : p, 분산 : p(1-p)
- 이항확률분포 : 베르누이 시행을 반복하여 특정한 횟수의 성공/실패가 나타날 확률 - 평균:(기댓값) : np, 분산 : np(1-p)
- 포아송분포 : 단위시간, 단위 공간내에 발생하는 사건의 홧수를 확률변수 X라고 할때 X는 λ(단위시간 당 평균 발생횟수)를 모수로 갖는 포아송 분포를 따름 - 기대값 : λ , 분산 : λ
(11) 연속확률분포
- 정규분포 : 연속확률분포 중 가장 널리사용 - 평균을 중심으로 좌우 대칭의 종모양
- 표준정규분포 : 평균이 0이고 표준편차가 1인 정규분포 (Z분포라고도 불림) - 표준화 할때 주로 사용 Z = (X - m / σ z~(0,1)
- 표본분포 : 모집단에서 일정한 크기로 뽑을 수 있는 표본을 모두 뽑았을때 그 모든 표본의 통계량의 확률분포 (ex : 남자 100명의 표본 한번(m1)부터 (m100) 까지의 확률분포
- 표본평균의 평균 : E(x̄) = m
- 표본평균의 표준편차 : Var(x̄) = σ^2 / n
(12) 중심극한정리 : 평균이 m, 표준편차 σ 인 임의의 모집단으로부터 크기 n인 표본에서의 표본평균은 n이 크면 근사적으로 평균이 m이고 분산이 σ^2 / n인 정규분포를 따름
(13) 카이제곱(χ^2)분포 : 표본분산과 관련된 분포, 확률변수가 각각 표준정규분포를 따르고 독립일때 그들의 제곱합은 자유도(k)인 카이제곱 분포를 따름 (ex : 시간대 별 아이스크림 매출량
(14) t분포 : X의 분포가 정규분표일때, 표본평균의 분포에서 모집단의 표준편차를 모를경우 모표준편차 대신 표본표준편차(S)를 사용 - t(n - 1) ~(x̄ - m) / (S / √n)
- 주로 모평균 추정 혹은 모 표준차이에 대한 추정 시 모표준편차를 모를 때 t분포를 사용함
- 표본 크기가 30 이상일 경우에는 표준정규분포 , 미만일때는 t분포
(15) F분포 : 두 정규모집단의 분산을 비교하는 추론에 사용
5. 통계적 추정
(1) 통계적 추정 : 표본의 통계량을 기초로 하여 모집단의 모수를 추정하는 방법론
- 점추정 : 모수를 단일한 값으로 추측 : 신뢰도를 나타낼 수 없음
- 구간추정 : 모수를 포함한다고 추정되는 구간을 구하는 방식 : 신뢰도를 나타낼 수 있음
(2) 점추정
- 표준오차(Standard Error) : 통계량의 표준편차 : σ/√n , 표본크기가 클수록 작아짐,추정량의 표준편차가 작을수록 좋음
(3) 구간추정 : 모수가 속할 것으로 기대되는 범위(신뢰구간)을 택하는 과정
- 모분산을 아는 경우 - Z통계량을 사용 (ex : x̄ - (Z0.05 * ( σ/√n)) ≤ m ≤ x̄ + (Z0.05 * ( σ/√n))
- 모분산을 모르는 경우 - t통계량을 사용 (ex : x̄ - (t(n-1,0.05) * ( S/√n)) ≤ m ≤ x̄ + (t(n-1,0.05) * ( S/√n))
6. 통계 검정
(1) 가설검정 : 설정한 가설이 옳을때 표본에서의 통계량과 통계량의 분포에서 이론적으로 얻는 특정 값을 비교하여 가설의 기각/채택여부를 판정하는 방법 - 확률적 오차범위를 넘어서면 가설을 기각한다
- 유의수준(α) : 기각/채택 여부의 판단기준
- 귀무가설(H0) : 일반적 사실 - 효과가 없다,차이가 없다 등의 내용
- 대립가설(H1) : 입증하고자 하는 가설 - 효과가 있다, 차이가 있다 등의 내용
(2) 통계검정 오류
- 제 1종 오류(α) : 귀무가설을 채택해야 했음에도 이를 기각 할 오류
- 제 2종 오류(β) : 귀무가설을 기각해야 했음에도 이를 채택 할 오류
(3) 통계검정 요소
- 유의수준 : 제1종 오류를 범할 최대 허용한계
- 유의확률 (p-value) : 검정통계량 값에 대해 귀무가설을 기각 할 수 있는 최소의 유의수준으로 귀무가설이 사실일 확률
- α > p-value : 귀무가설 기각
- α < p-value : 귀무가설 채택
- 임계값 : 기각역과 채택역을 나누는 경계값
(4) 통계검정 절차
- 검정할 가설을 설정
- 유의수준을 설정
- 임계치를 설정하고 검정 통계량과 임계치를 비교
- p-value 값이 유의수준보다 작으면 귀무가설을 기각
(5) 통계검정 모평균검정
- 정규모집단(정규 분포를 따르는 모집단)의 경우
- 모분산이 알려진 경우 : Z 검정 통계량
- 모분산을 모르는 경우 : t 검정 통계량 (자유도 : n-1)
- 표본 크기가 큰 임의의 모집단
- 모분산이 알려진 경우 : Z 검정 통계량
- 모분산을 모르는 경우 : Z 검정 통계량
정리
통계학은 데이터에서 의미를 찾아내는 방법을 다루는 학문이다.
통계적 방법의 이해 없이 툴만을 사용해 인사이트를 도출한다면, 그것은 잘못된 인사이트가 될 것이다.
따라서 통계학 공부를 계속 진행할 것이고, 앞으로 발견할 내 인사이트에 대한 근거를 명확히 할 것이다.
'Specialist > Marketing' 카테고리의 다른 글
에이블리(ABLY)의 "샥-출발" - AARRR 분석 (0) | 2022.08.19 |
---|---|
AARRR이란? (0) | 2022.08.05 |
그로스 해킹이란? - 리그 오브 레전드와 오버워치의 차이점 (0) | 2022.06.05 |
업무 데이터와 로그 데이터 (0) | 2022.04.26 |
데이터의 등장과 발전, 엔지니어와 분석가의 과제 (0) | 2022.04.26 |
댓글