반응형
PART04.1장 데이터 분석 개요
- 데이터 처리
- 데이터 분석은 통계 기반, 하지만 통계지식과 가성이 상대적으로 적은 실용적 분야
- 최종 데이터 구조로 가공
- 데이터 마이닝 분류
- 정형화된 패턴 처리
- 시각화
- 가장 낮은 수준의 분석이지만 잘 사용하면 효율적
- 빅데이터 분석에서는 필수적
- 탐색적 분석을 할 때는 필수
- 공간분석(Spatial Analysis)
- 공간적 차원과 관련된 속성들을 시각화
- 탐색적 자료 분석(EDA)
- 특이한 점이나 의미 있는 사실을 도출하고 분석의 최종 목적을 달성해가는 과정
- 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법 통칭
- 4가지 주제 : 저항성의 강조, 잔차 계산, 자료 변수의 재표현, 그래프를 통한 현시성
- 예
- 데이터의 이해 단계 : 변수의 분포와 특성 파악
- 변수 생성 단계 : 분석 목적에 맞는 주요한 요약 및 파생변수 생성
- 변수 선택 단계 : 목적 변수에 의미 있는 후보 변수 선택
- 통계분석
- 기술통계 : 표본이 가지고 있는 정보를 쉽게 파악
- 추측(추론) 통계 : 표본의 표본 통계량으로부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 절차
- 데이터 마이닝
- 대용량의 자료로부터 정보 요약
- 미래에 대한 예측을 목표로 관계, 패턴, 규칙 등을 탐색 -> 모형화 -> 유용한 지식을 추출
- 데이터 베이스 지식 탐색 / 기계학습 / 패턴인식
- 통계적 모델링이 아니므로 지나치게 통계적 가설이나 유의성에 집착하지 않도록
- 반드시 옵션을 줄 필요는 없고 시간 있으면
- 학습 / 테스트 데이터 분할
- 성능에 집착하면 배보다 배꼽이 클 수 있으니, 훈련 및 테스트 성능에 큰 편차가 없고 예상 성능을 만족하면 중단
- 모델링 성능평가
- 정확도, 정밀도, 디텍트 레이트, 리프트 등의 값으로 판단
- 리프트 : 분위별 반응률 / 기저 리프트 값
- 정확도, 정밀도, 디텍트 레이트, 리프트 등의 값으로 판단
- 시뮬레이션 성능평가
- Throughput, Average Waiting Time, Average Queue Length, Time in System
728x90
'데이터분석 > ADP' 카테고리의 다른 글
PART04.2장 R 프로그래밍 기초(자료구조) (0) | 2022.06.03 |
---|---|
PART04.2장 R 프로그래밍 기초 (0) | 2022.06.03 |
PART03.기타 (0) | 2022.06.03 |
PART03.2장 분석 마스터 플랜(분석 거버넌스 체계 수립) (0) | 2022.06.03 |
PART03.2장 분석 마스터 플랜(마스터 플랜 수립 프레임 워크) (0) | 2022.06.03 |
댓글