본문 바로가기
데이터분석/ADP

PART03.1장 데이터 분석 기획의 이해(분석 방법론)

by Mr.꾸 2022. 6. 3.
반응형

PART03.1장 데이터 분석 기획의 이해(분석 방법론)


분석 방법론 개요


  • 개요
    • 개인이나 조직에 기대어 우연한 성공을 바라지 않고, 일정한 수준의 품질을 갖춘 산출물과 프로젝트의 성공 가능성을 확보할 수 있도록, 체계적인 절차와 방법이 정리된 분석 방법론 수립이 필요
    • 절차, 방법, 도구와 기법, 템플릿과 산출물로 구성
  • 데이터 기반 의사결정의 필요성
    • 고정관념(Stereotype), 편향(bias), 프레이밍 효과(Framing Effect)등으로 인해 합리적 의사결정이 방해될 수 있다.
      - 프레이밍 효과 : 문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 개인의 판단이나 선택이 달라질 수 있는 현상
  • 방법론의 생성 과정
    • 암묵지 -> (형식화) -> 형식지 -> (체계화) -> 방법론 -> (내재화) -> 암묵지
  • 적용 업무 특성에 따른 모델
    • 폭포수 모델
      1. 순차적 진행 방식
    • 프로토타입 모델
      1. 폭포수 모델의 단점을 보완
      2. 고객의 요구를 완벽히 이해하지 못했거나, 완벽한 요구사항 분석이 어려운 경우, 일부분을 개발 -> 점검, 평가 등을 통해 개선 작업을 함
    • 나선형 모델
      1. 반복 점증 개발 방법
      2. 관리 체계를 효과적으로 갖추지 못한 경우 복잡도 상승
  • 방법론의 구성
    • 단계 ( 단계별 완료보고서) : 최상위 계층으로 단계별 산출물 생성, base-line으로 관리 필요
    • 태스크 ( 보고서) : 단계를 구성하는 단위 활동
    • 스탭 ( 보고서 구성요소) : WBS의 Work Package에 해당, input - process & tool, output으로 구성된 단위 프로세스

KDD VS CIRSP-DM


KDD CRISP-DM
분석대상 비지니스 이해 업무 이해
- 업무 목적 파악, 상황 파악, 목표 설정, 프로젝트 계획 수립
데이터셋 선택 데이터 이해
- 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색/품질 확인
데이터 전처리
데이터 변환 데이터 준비
- 분석용 데이터 셋 선택, 데이터 정제, 데이터 통합, 포멧팅
데이터 마이닝 모델링
- 모델링 기법, 테스트 계획 설계, 모델 작성, 모델 평가
데이터 마이닝 결과 평가 평가
- 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가
데이터 마이닝 활용 전개
- 전개 계획 수립, 모니터링 유지보수 계획 수립, 종료보고, 리뷰

빅데이터 분석 방법론


  • 계층적 프로세스
    • 앞의 단계와 유사
    • 단계(Phase) -> 테스트(Task) -> 스텝(Step)
  • 분석 방법론 (5단계)
    • 앞의 방법론과 유사
    • 분석기획
      1. 비즈니스 이해 및 범위 설정
        - 비즈니스 이해
        - 프로젝트 범위 설정 : SOW(Statement Of Work - 프로젝트 범위 정의서) 작성
      2. 프로젝트 정의 및 계획 수립
        - 데이터 분석 프로젝트 정의 : 목표 수준 등 구체화, 모델 운영 이미지 및 평가기준 설정
        - 프로젝트 수행 계획 수립 : 수행계획서 및 WBS
      3. 프로젝트 위험 계획 수립
        - 데이터 분석 위험 식별
        - 위험 대응 계획 수립 : 예상된 위험에 대해, 회피, 전이, 완화, 수용으로 구분하여 관리계획 작성
    • 데이터 준비
      1. 필요 데이터 정의
        - 데이터 정의 : 분석에 필요한 데이터 정의
        - 데이터 획득 방안 수립 : 수집을 위한 구체적 방안, 업무협조 및 보안 관련 점검, 법적 문제 고려
      2. 데이터 스토어 설계
        - 정형 데이터 스토어 설계
        - 비정형 데이터 스토어 설계
      3. 데이터 수집 및 정합성 점검
        - 데이터 수집 및 저장
        - 데이터 정합성 점검 : 데이터 정합성 점검, 데이터 품질개선이 필요한 부분에 대하여 보완작업
    • 데이터 분석
      1. 분석용 데이터 준비
        - 비즈니스 룰 확인 : 프로젝트의 목표를 정확하게 인식, 세부 비즈니스 룰 확인을 통해 데이터의 범위 확인
        - 분석용 데이터 셋 준비
      2. 텍스트 분석
        - 텍스트 데이터 확인 및 추출
        - 텍스트 데이터 분석 : 다양한 기법을 통한 분석, 모델 구축, 용어사전 확보가 필요, 시각화 도구를 이용하여 모델의 의미 전달을 명확히
      3. 탐색적 분석
        - 탐색적 데이터 분석 : 다양한 관점별 기초 통계량, 통계적 특성을 이해하고 모델링을 위한 기초자료 활용
        - 데이터 시각화
          ① 탐색적 데이터 분석을 위한 도구로 활용
          ② 모델의 시스템화를 위한 시각화를 목적으로 활용할 경우 시각화 기획, 설계, 구현 등의 별도의 프로세스 따라 진행되어야 함.
          ③ 수행된 데이터 시각화는 향후 인터페이스 및 프로토타입으로 활용될 수 있다.
      4. 모델링
        - 데이터 분할 : 과적합과 일반화를 위하여 훈련용/테스트용 데이터 분리, 검증 횟수, 생성 모델 개수 등을 설정하기도 한다.
        - 데이터 모델링
        - 모델 적용 및 운영 방안 : 알고리즘 설명서, 모니터링 방안
        - 알고리즘 설명서는 "시스템 구현 단계"의 중요한 입력자료이기에 의사 코드( Pseudo code) 작성 필요
      5. 모델 평가 및 검증
        - 모델 평가 : 모델 평가보고서(알고리즘 파악, 필요시 별도의 검증용 데이터 활용)
        - 모델 검증 : 모델 실 적용성 검증, 모델의 품질을 최종 검증
    • 시스템 구현
      1. 설계 및 구현
      2. 시스템 테스트 및 운영
        - 시스템 테스트는 품질 관리 차원에서 진행, 적용된 시스템의 객관성과 완전성 확보
    • 평가 및 전개
      1. 모델 발전 계획 수립
        - 모델 발전 계획
      2. 프로젝트 평가 및 보고
        - 프로젝트 성과평가
        - 프로젝트 종료 : 지식의 자산화
728x90

댓글