반응형 데이터 분석3 PART04.2장 R 프로그래밍 기초(결측값 처리와 이상값 검색) PART04.2장 R 프로그래밍 기초(결측 값 처리와 이상 값 검색) 데이터 탐색 데이터 기초 통계 결측 값 처리 결측 값 결측 값 : NA ( not available) 불가능한 값 : NAN(not a number), eg) dividing by zero Amelia 결측 값 값 처리 방법 단순 대치법 - completes analysis : 결측 레코드 삭제 - 너무 많은 레코드에 분포해 있다면 문제가 있음 - 평균 대치법(Mean imputation) : 해당 변수의 대푯값 대체 ① 비조건부 평균 대치법 : 관측 데이터의 평균으로 대치 ② 조건부 평균 대치법 : 회귀분석을 활용한 대치법 - 단순 확률 대치법(Single Stochastic Imputation) : 평균 대치법에서 추정량 표준 오차.. 2022. 6. 8. PART03.1장 데이터 분석 기획의 이해(분석 방법론) PART03.1장 데이터 분석 기획의 이해(분석 방법론) 분석 방법론 개요 개요 개인이나 조직에 기대어 우연한 성공을 바라지 않고, 일정한 수준의 품질을 갖춘 산출물과 프로젝트의 성공 가능성을 확보할 수 있도록, 체계적인 절차와 방법이 정리된 분석 방법론 수립이 필요 절차, 방법, 도구와 기법, 템플릿과 산출물로 구성 데이터 기반 의사결정의 필요성 고정관념(Stereotype), 편향(bias), 프레이밍 효과(Framing Effect)등으로 인해 합리적 의사결정이 방해될 수 있다. - 프레이밍 효과 : 문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 개인의 판단이나 선택이 달라질 수 있는 현상 방법론의 생성 과정 암묵지 -> (형식화) -> 형식지 -> (체계화) -> 방법론 -> (내재.. 2022. 6. 3. PART02-1장. 데이터 처리 프로세스 PART02-1장. 데이터 처리 프로세스 ETL ETL Extraction 데이터 원천으로부터 데이터를 가져오는 것 Transformation 클렌징, 변환, 표준화, 통합 등 비즈니스 적용 Load 타깃에 적재 대용량 처리를 위한 MPP(Massive Parallel Processing) 지원 작업 단계 interface : 다양한 원천으로부터 데이터를 획득하기 위한 인터페이스 구현 Staging ETL : 데이터 획득 작업 후 스테이징 테이블 저장 Profiling ETL : 스테이징 테이블에서 특성 식별 및 품질 측정 Cleansing ETL : 규칙을 활용한 데이터 보정 작업 Intergration ETL : 데이터 충돌 해소 및 클렌징 데이터 통합 Denormalizing ETL : 데이터 웨어.. 2022. 6. 3. 이전 1 다음 반응형