본문 바로가기
반응형

데이터분석/ADP25

4장-03. 통계분석 방법론 4장-03. 통계분석 방법론 T-검정 검정 통계량의 값 df = n - 1 (n : 표본의 개수) 의사결정 유의 확률(p-value) 유의 수준(a) : 귀무가설 기각하지 않음 코드 t.test(x, alternative=c("two.sided", "less"," greater"), mu=0, conf.level=0.95) x 관측값 alternative 양측검정, 단측검정 mu 검정시 기준이 되는 값 conf.level 신뢰도 분산분석(ANOVA) 개념 : 두 개 이상의 집단에서 그룹 평균 간 차이를 그룹 내 변동에 비교하여 살펴보는 데이터 분석 방법 두 개 이상 집단들의 평균 간 차이에 대한 통계적 유의성을 검증 일.. 2022. 6. 8.
4장-02. 기초통계분석 4장-02. 기초통계분석 기술통계 그래프를 이용한 자료 정리 히스토그램 : 도수분포표를 그래프로 그린 것 연속형으로 표시된 데이터를 표현하며, 임의로 순서를 바꿀 수 없고 막대의 간격이 없음 그래프의 모양이 치우쳐있거나 봉우리가 여러 개 있는 그래프는 비정규 데이터일 수 있다. 봉우리가 여러 개 있는 데이터는 일반적으로 2개 이상의 공정이나 조건에서 데이터가 수집되는 경우 발생 표본의 크기가 작은 경우 각 막대의 높이가 데이터 분포의 형상을 잘 표현하지 못한다. 줄기잎 그림 각 데이터의 점들을 구간 단위로 요약하는 방법으로 계산량이 적다. 산점도 두 특성의 값이 연속적인 수인 경우, 표본자료를 그래프로 나타내는 방법으로써 각 이차원 자료에 대하여 좌표평면 위에 찍은 것 파레토 그림 명목형 자료에서 "중요.. 2022. 6. 8.
4장-01. 통계분석의 이해 4장-01. 통계분석의 이해 통계 : 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현 표본조사 표본오차 : 모집단을 대표할 수 있는 표본 단위들이 조사대상으로 추출되지 못하는 오차 표본 편의 :모수를 작게 혹은 크게 할 때 추정하는 것과 같이 표본추출방법에 기인한 오차 -> 확률화에 의해 최소화되거나 없앨 수 있다. 확률화 : 모집단으로부터 편의 되지 않은 표본을 추출하는 절차를 의미하며 확률화 절차에 의해 추출된 표본을 확률 표본이라 함. 비 표본 오차 : 표본오차를 제외한 모든 오차, 조사 과정에서 발생하는 모든 부주의나 실수, 알 수 없는 원인 등 모든 오차를 의미하며 조사대상이 증가하면 오차가 커짐 확률 및 확률분포 확률변수 특정값이 나타날 가능성이 확률적으로.. 2022. 6. 8.
PART04.2장 R 프로그래밍 기초(결측값 처리와 이상값 검색) PART04.2장 R 프로그래밍 기초(결측 값 처리와 이상 값 검색) 데이터 탐색 데이터 기초 통계 결측 값 처리 결측 값 결측 값 : NA ( not available) 불가능한 값 : NAN(not a number), eg) dividing by zero Amelia 결측 값 값 처리 방법 단순 대치법 - completes analysis : 결측 레코드 삭제 - 너무 많은 레코드에 분포해 있다면 문제가 있음 - 평균 대치법(Mean imputation) : 해당 변수의 대푯값 대체 ① 비조건부 평균 대치법 : 관측 데이터의 평균으로 대치 ② 조건부 평균 대치법 : 회귀분석을 활용한 대치법 - 단순 확률 대치법(Single Stochastic Imputation) : 평균 대치법에서 추정량 표준 오차.. 2022. 6. 8.
PART04.2장 R 프로그래밍 기초(데이터마트) PART04.2장 R 프로그래밍 기초(데이터마트) 데이터 마트 데이터 웨어하우스와 사용사 사이 중간층에 위치 요약 변수 분석에 맞게 종합한 변수 데이터 마트의 기본적인 변수로 총 구매금액, 금액 등 데이터 분석을 위해 만들어지는 변수 많은 모델에 공통으로 사용될 수 있어서 재활성이 높다 얼마 이상이면 구매하더라도 기준값의 의미 해석이 애매할 수 있기에, 연속형 변수를 그룹핑해 사용하는 것이 좋다 파생변수 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수 주관적일 수 이기에, 논리적 타당성을 갖추어 개발 세분화, 고객 행동 예측, 캠페인 반응 예측에 활용 상황에 따라 특정 상황에만 유의미하지 않게 대표성을 나타나게 할 필요가 있다. reshape library install.pack.. 2022. 6. 3.
PART04.2장 R 프로그래밍 기초(함수) PART04.2장 R 프로그래밍 기초(함수) APPLY apply는 데이터 자료구조에서 row, column 단위로 계산을 적용하기 위한 함수 apply(자료구조, 행/열 별(1, 2), 적용 함수) lapply : lapply(data, function) 결과를 리스트로 반환 ( 열 단위) sapply : sapply(data, function) 결과를 벡터, 행렬로 반환(열 단위) tapply : tapply(data, index, function) data를 index에 입력된 분류별로 function 적용, sql의 group by와 유사 LENGTH VS NCHAR x 2022. 6. 3.
PART04.2장 R 프로그래밍 기초(그래픽기능) PART04.2장 R 프로그래밍 기초(그래픽 기능) 산점도 그래프 x에 대한 y의 그래프 : plot(x, y), plot(y~x) height=c(170,160,165,190,120) weight=c(70,100,89,55,66) plot(height, weight) 산점도 행렬 pairs(iris[1:4], main="andre", pch=21, bg=c("red", "green","blue")[unclass(iris$Species)]) 히스토그램과 상자 그림 StatScore=c(1:50, 3) hist(StatScore) # 히스토그램 boxplot(StatScore) # 상자그림 hist(StatScore, prob=T) # 히스토그램, 상대도수 표시 2022. 6. 3.
PART04.2장 R 프로그래밍 기초(자료구조) PART04.2장 R 프로그래밍 기초(자료구조) 벡터 동일자료형 combine 하는 경우 문자형이 있으면 문자형으로 변환 벡터를 생성할 경우 기본적으로 열 백터 임 - 벡터를 생성한 후 전치(전치) 처리를 하게 되면 열로 생성된 것을 확인할 수 있다 * 전치 행렬 : 행과 열이 바뀐 행렬 https://terms.naver.com/entry.naver?docId=1139879&cid=40942&categoryId=32208 전치행렬 임의의 행렬 A가 주어졌을 때 그 행렬 A에서 행과 열을 바꾼 행렬을 행렬 A의 전치행렬이라 하고, 보통 AT(혹은 tA, A', Atr)로 나타낸다. 이를테면 행렬 에서 그 행(行)과 열(列)을 바꾼 다음과 같은 terms.naver.com 행렬 기본적으로 열 우선으로 채워.. 2022. 6. 3.
반응형