반응형
4장-01. 통계분석의 이해
- 통계 : 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현
표본조사
- 표본오차 : 모집단을 대표할 수 있는 표본 단위들이 조사대상으로 추출되지 못하는 오차
- 표본 편의 :모수를 작게 혹은 크게 할 때 추정하는 것과 같이 표본추출방법에 기인한 오차
-> 확률화에 의해 최소화되거나 없앨 수 있다. - 확률화 : 모집단으로부터 편의 되지 않은 표본을 추출하는 절차를 의미하며 확률화 절차에 의해 추출된 표본을 확률 표본이라 함.
- 비 표본 오차 : 표본오차를 제외한 모든 오차, 조사 과정에서 발생하는 모든 부주의나 실수, 알 수 없는 원인 등 모든 오차를 의미하며 조사대상이 증가하면 오차가 커짐
확률 및 확률분포
- 확률변수
- 특정값이 나타날 가능성이 확률적으로 주어지는 변수
- 정의역이 표본 공간, 치역이 실수 값(0~1)인 함수
- 확률변수의 기댓값
- 확률분포
- 이산형 확률 변수 : 0이 아닌 확률 값을 갖는 확률 변수를 셀 수 있는 경우(시그마 sum)(확률 질량 함수)
- 베르누이 확률분포 : 결과가 2개만 나오는 경우
- 이항 분포 : 베르누이 시행을 n번 반복했을 때 k번의 성공할 확률
- 성공할 확률 p가 0이나 1에 가깝지 않고 n이 충분히 크며 이항 분포는 정규분포에 가까워진다. 성공할 확률 p가 1/2에 가까우면 종모량이 된다. - 기하 분포 : 성공확률이 p인 베르누이 시행에서 첫 번째 성공이 있기까지 x번 실패할 확률
- 다항 분포 : 이항 분포를 확장한 것으로 세 가지 이상의 결과를 가지는 반복 시행
- 포아송 분포 : 시간과 공간 내에서 발생하는 사건의 발생 횟수에 대한 확률분포
- 연속형 확률변수 : 가능한 값이 실수의 어느 특정 구간 전체에 해당하는 확률변수(확률 밀도 함수), 적분
- 균일 분포(일양 분포) : 모든 확률변수가 균일한 확률을 가지는 분포
- 정규분포
- 지수 분포 : 어떤 사건이 발생할 때까지 경과 시간에 대한 연속 확률분포
- T-분포 : 두 집단의 평균이 동일한지 알고자 할 때 검정 통계량으로 사용
- 카이제곱 분포 : 모평균과 모 분산이 알려지지 않은 모집단의 모 분산에 대한 가설 검정에 사용되는 분포
- 두 집단 간의 동질성 검정에 활용(범주형 자료에 대해 얻어진 관측값과 기댓값의 차이를 알아보는 적합성 검정에 활용) - F-분포 : 두 집단 간 분산의 동일성 검정
- 확률변수는 항상 양의 값만을 갖고, 카이제곱과 달리 자유도를 2개 가지고 있으며, 자유도가 커질수록 정규분포에 가까워진다.
- 이산형 확률 변수 : 0이 아닌 확률 값을 갖는 확률 변수를 셀 수 있는 경우(시그마 sum)(확률 질량 함수)
추정과 가설검정
- 추정
- 확률 표본
- 확률분포는 분포를 결정하는 평균, 분산 등의 모수를 가지고 있다.
- 특정한 확률분포로부터 독립적으로 반복해 표본을 추출하는 것
- 각 관찰 값들은 서로 독립적이며 동일한 분포를 갖는다.
- 추정
- 점 추정
- 모수가 특정한 값일 것이라고 추정
- 표본의 평균, 중위수, 최빈값 등을 사용 - 구간 추정
- 모수가 특정한 구간에 있을 것이라고 선언
- 추정량의 분포에 대한 전제가 주어져야 하고, 구해진 구간 안에 모수가 있을 가능성의 크기(신뢰 수준)가 주어져야 한다.
- 점 추정
- 확률 표본
- 가설검정
- 귀무가설 : 비교하는 값과 차이가 없다, 동일하다를 기본개념으로 하는 가설
- 대립 가설 : 뚜렷한 증거가 있을 때 주장하는 가설
- 검정 통계량 : 검정 시 가설의 진위를 판단하는 기준
- 유의 수준(알파) : 귀무가설을 기각하게 되는 확률의 크기, '귀무가설이 옳은데도 이를 기각하는 확률의 크기'
- 기각역 : 귀무가설이 옳다는 전제하에서 구한 검정 통계량의 분포에서 확률이 유의 수준인 부분
대립 가설이 맞을 때 그것을 받아들이는 확률
반대는 채택 역 - p-value : 귀무가설이 사실인데도 불구하고 사실이 아니라고 판정할 때 실제 확률
귀무가설이 옳다는 가정하에 귀무가설을 지지하는 확률
- 비모수 검정
- 추출된 모집단의 분포에 대한 아무 제약 없이 검정을 실시
- 관측 자료가 특정분에 따른다고 가정할 수 없는 경우 이용
- 관측 자료의 수가 많지 않거나(30개 미만) 자료가 개체 간의 서열관계를 나타내는 경우
- 가정된 분포가 없으므로 가설은 단지 '분포의 형태가 동일하다' 또는 '분포의 형태가 동일하지 않다'와 같이 분포의 형태에 대해 설정
- 관측값들의 순위나 두 관측값 차이의 부호 등을 이용해 검정
- 부호 검정, 순위합 검정, 부호 순위합 검정, 스피어만의 순위 상관계수 등
728x90
'데이터분석 > ADP' 카테고리의 다른 글
4장-03. 통계분석 방법론 (0) | 2022.06.08 |
---|---|
4장-02. 기초통계분석 (0) | 2022.06.08 |
PART04.2장 R 프로그래밍 기초(결측값 처리와 이상값 검색) (0) | 2022.06.08 |
PART04.2장 R 프로그래밍 기초(데이터마트) (0) | 2022.06.03 |
PART04.2장 R 프로그래밍 기초(함수) (0) | 2022.06.03 |
댓글