본문 바로가기
데이터분석/ADP

PART04.1장 데이터 분석 개요

by Mr.꾸 2022. 6. 3.
반응형

PART04.1장 데이터 분석 개요

  • 데이터 처리
    • 데이터 분석은 통계 기반, 하지만 통계지식과 가성이 상대적으로 적은 실용적 분야
    • 최종 데이터 구조로 가공
      1. 데이터 마이닝 분류
      2. 정형화된 패턴 처리
  • 시각화
    • 가장 낮은 수준의 분석이지만 잘 사용하면 효율적
    • 빅데이터 분석에서는 필수적
    • 탐색적 분석을 할 때는 필수
  • 공간분석(Spatial Analysis)
    • 공간적 차원과 관련된 속성들을 시각화
  • 탐색적 자료 분석(EDA)
    • 특이한 점이나 의미 있는 사실을 도출하고 분석의 최종 목적을 달성해가는 과정
    • 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법 통칭
    • 4가지 주제 : 저항성의 강조, 잔차 계산, 자료 변수의 재표현, 그래프를 통한 현시성
      1. 데이터의 이해 단계 : 변수의 분포와 특성 파악
      2. 변수 생성 단계 : 분석 목적에 맞는 주요한 요약 및 파생변수 생성
      3. 변수 선택 단계 : 목적 변수에 의미 있는 후보 변수 선택
  • 통계분석
    • 기술통계 : 표본이 가지고 있는 정보를 쉽게 파악
    • 추측(추론) 통계 : 표본의 표본 통계량으로부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 절차
  • 데이터 마이닝
    • 대용량의 자료로부터 정보 요약
    • 미래에 대한 예측을 목표로 관계, 패턴, 규칙 등을 탐색 -> 모형화 -> 유용한 지식을 추출
    • 데이터 베이스 지식 탐색 / 기계학습 / 패턴인식
    • 통계적 모델링이 아니므로 지나치게 통계적 가설이나 유의성에 집착하지 않도록
    • 반드시 옵션을 줄 필요는 없고 시간 있으면
    • 학습 / 테스트 데이터 분할
    • 성능에 집착하면 배보다 배꼽이 클 수 있으니, 훈련 및 테스트 성능에 큰 편차가 없고 예상 성능을 만족하면 중단
    • 모델링 성능평가
      1. 정확도, 정밀도, 디텍트 레이트, 리프트 등의 값으로 판단
        - 리프트 : 분위별 반응률 / 기저 리프트 값
    • 시뮬레이션 성능평가
      1. Throughput, Average Waiting Time, Average Queue Length, Time in System
728x90

댓글