본문 바로가기
반응형

데이터분석26

[Python] 사업자 등록번호 유효성 및 법인 등록 번호 크롤링 https://gesterlab.com/brn-crwaling-and-check/ 사업자등록번호 유효성 체크 및 법인번호 크롤링(1) - GesterLab사업자등록번호를 가지고 해당 사업자 번호가 유효한 것인지, 관련된 법인번호는 어떤 것인지를 알아볼 일이 있었다. 이를 위해 python을 공부할 겸 국세청 API 및 크롤링을 이용해서 짜보았다. 공gesterlab.com 2022. 6. 13.
4장-03. 통계분석 방법론 4장-03. 통계분석 방법론 T-검정 검정 통계량의 값 df = n - 1 (n : 표본의 개수) 의사결정 유의 확률(p-value) 유의 수준(a) : 귀무가설 기각하지 않음 코드 t.test(x, alternative=c("two.sided", "less"," greater"), mu=0, conf.level=0.95) x 관측값 alternative 양측검정, 단측검정 mu 검정시 기준이 되는 값 conf.level 신뢰도 분산분석(ANOVA) 개념 : 두 개 이상의 집단에서 그룹 평균 간 차이를 그룹 내 변동에 비교하여 살펴보는 데이터 분석 방법 두 개 이상 집단들의 평균 간 차이에 대한 통계적 유의성을 검증 일.. 2022. 6. 8.
4장-02. 기초통계분석 4장-02. 기초통계분석 기술통계 그래프를 이용한 자료 정리 히스토그램 : 도수분포표를 그래프로 그린 것 연속형으로 표시된 데이터를 표현하며, 임의로 순서를 바꿀 수 없고 막대의 간격이 없음 그래프의 모양이 치우쳐있거나 봉우리가 여러 개 있는 그래프는 비정규 데이터일 수 있다. 봉우리가 여러 개 있는 데이터는 일반적으로 2개 이상의 공정이나 조건에서 데이터가 수집되는 경우 발생 표본의 크기가 작은 경우 각 막대의 높이가 데이터 분포의 형상을 잘 표현하지 못한다. 줄기잎 그림 각 데이터의 점들을 구간 단위로 요약하는 방법으로 계산량이 적다. 산점도 두 특성의 값이 연속적인 수인 경우, 표본자료를 그래프로 나타내는 방법으로써 각 이차원 자료에 대하여 좌표평면 위에 찍은 것 파레토 그림 명목형 자료에서 "중요.. 2022. 6. 8.
4장-01. 통계분석의 이해 4장-01. 통계분석의 이해 통계 : 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현 표본조사 표본오차 : 모집단을 대표할 수 있는 표본 단위들이 조사대상으로 추출되지 못하는 오차 표본 편의 :모수를 작게 혹은 크게 할 때 추정하는 것과 같이 표본추출방법에 기인한 오차 -> 확률화에 의해 최소화되거나 없앨 수 있다. 확률화 : 모집단으로부터 편의 되지 않은 표본을 추출하는 절차를 의미하며 확률화 절차에 의해 추출된 표본을 확률 표본이라 함. 비 표본 오차 : 표본오차를 제외한 모든 오차, 조사 과정에서 발생하는 모든 부주의나 실수, 알 수 없는 원인 등 모든 오차를 의미하며 조사대상이 증가하면 오차가 커짐 확률 및 확률분포 확률변수 특정값이 나타날 가능성이 확률적으로.. 2022. 6. 8.
PART04.2장 R 프로그래밍 기초(결측값 처리와 이상값 검색) PART04.2장 R 프로그래밍 기초(결측 값 처리와 이상 값 검색) 데이터 탐색 데이터 기초 통계 결측 값 처리 결측 값 결측 값 : NA ( not available) 불가능한 값 : NAN(not a number), eg) dividing by zero Amelia 결측 값 값 처리 방법 단순 대치법 - completes analysis : 결측 레코드 삭제 - 너무 많은 레코드에 분포해 있다면 문제가 있음 - 평균 대치법(Mean imputation) : 해당 변수의 대푯값 대체 ① 비조건부 평균 대치법 : 관측 데이터의 평균으로 대치 ② 조건부 평균 대치법 : 회귀분석을 활용한 대치법 - 단순 확률 대치법(Single Stochastic Imputation) : 평균 대치법에서 추정량 표준 오차.. 2022. 6. 8.
PART04.2장 R 프로그래밍 기초(데이터마트) PART04.2장 R 프로그래밍 기초(데이터마트) 데이터 마트 데이터 웨어하우스와 사용사 사이 중간층에 위치 요약 변수 분석에 맞게 종합한 변수 데이터 마트의 기본적인 변수로 총 구매금액, 금액 등 데이터 분석을 위해 만들어지는 변수 많은 모델에 공통으로 사용될 수 있어서 재활성이 높다 얼마 이상이면 구매하더라도 기준값의 의미 해석이 애매할 수 있기에, 연속형 변수를 그룹핑해 사용하는 것이 좋다 파생변수 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수 주관적일 수 이기에, 논리적 타당성을 갖추어 개발 세분화, 고객 행동 예측, 캠페인 반응 예측에 활용 상황에 따라 특정 상황에만 유의미하지 않게 대표성을 나타나게 할 필요가 있다. reshape library install.pack.. 2022. 6. 3.
PART04.2장 R 프로그래밍 기초(함수) PART04.2장 R 프로그래밍 기초(함수) APPLY apply는 데이터 자료구조에서 row, column 단위로 계산을 적용하기 위한 함수 apply(자료구조, 행/열 별(1, 2), 적용 함수) lapply : lapply(data, function) 결과를 리스트로 반환 ( 열 단위) sapply : sapply(data, function) 결과를 벡터, 행렬로 반환(열 단위) tapply : tapply(data, index, function) data를 index에 입력된 분류별로 function 적용, sql의 group by와 유사 LENGTH VS NCHAR x 2022. 6. 3.
PART04.2장 R 프로그래밍 기초(그래픽기능) PART04.2장 R 프로그래밍 기초(그래픽 기능) 산점도 그래프 x에 대한 y의 그래프 : plot(x, y), plot(y~x) height=c(170,160,165,190,120) weight=c(70,100,89,55,66) plot(height, weight) 산점도 행렬 pairs(iris[1:4], main="andre", pch=21, bg=c("red", "green","blue")[unclass(iris$Species)]) 히스토그램과 상자 그림 StatScore=c(1:50, 3) hist(StatScore) # 히스토그램 boxplot(StatScore) # 상자그림 hist(StatScore, prob=T) # 히스토그램, 상대도수 표시 2022. 6. 3.
반응형