반응형
PART03.1장 데이터 분석 기획의 이해(분석 방법론)
분석 방법론 개요
- 개요
- 개인이나 조직에 기대어 우연한 성공을 바라지 않고, 일정한 수준의 품질을 갖춘 산출물과 프로젝트의 성공 가능성을 확보할 수 있도록, 체계적인 절차와 방법이 정리된 분석 방법론 수립이 필요
- 절차, 방법, 도구와 기법, 템플릿과 산출물로 구성
- 데이터 기반 의사결정의 필요성
- 고정관념(Stereotype), 편향(bias), 프레이밍 효과(Framing Effect)등으로 인해 합리적 의사결정이 방해될 수 있다.
- 프레이밍 효과 : 문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 개인의 판단이나 선택이 달라질 수 있는 현상
- 고정관념(Stereotype), 편향(bias), 프레이밍 효과(Framing Effect)등으로 인해 합리적 의사결정이 방해될 수 있다.
- 방법론의 생성 과정
- 암묵지 -> (형식화) -> 형식지 -> (체계화) -> 방법론 -> (내재화) -> 암묵지
- 적용 업무 특성에 따른 모델
- 폭포수 모델
- 순차적 진행 방식
- 프로토타입 모델
- 폭포수 모델의 단점을 보완
- 고객의 요구를 완벽히 이해하지 못했거나, 완벽한 요구사항 분석이 어려운 경우, 일부분을 개발 -> 점검, 평가 등을 통해 개선 작업을 함
- 나선형 모델
- 반복 점증 개발 방법
- 관리 체계를 효과적으로 갖추지 못한 경우 복잡도 상승
- 폭포수 모델
- 방법론의 구성
- 단계 ( 단계별 완료보고서) : 최상위 계층으로 단계별 산출물 생성, base-line으로 관리 필요
- 태스크 ( 보고서) : 단계를 구성하는 단위 활동
- 스탭 ( 보고서 구성요소) : WBS의 Work Package에 해당, input - process & tool, output으로 구성된 단위 프로세스
KDD VS CIRSP-DM
KDD | CRISP-DM |
분석대상 비지니스 이해 | 업무 이해 - 업무 목적 파악, 상황 파악, 목표 설정, 프로젝트 계획 수립 |
데이터셋 선택 | 데이터 이해 - 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색/품질 확인 |
데이터 전처리 | |
데이터 변환 | 데이터 준비 - 분석용 데이터 셋 선택, 데이터 정제, 데이터 통합, 포멧팅 |
데이터 마이닝 | 모델링 - 모델링 기법, 테스트 계획 설계, 모델 작성, 모델 평가 |
데이터 마이닝 결과 평가 | 평가 - 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가 |
데이터 마이닝 활용 | 전개 - 전개 계획 수립, 모니터링 유지보수 계획 수립, 종료보고, 리뷰 |
빅데이터 분석 방법론
- 계층적 프로세스
- 앞의 단계와 유사
- 단계(Phase) -> 테스트(Task) -> 스텝(Step)
- 분석 방법론 (5단계)
- 앞의 방법론과 유사
- 분석기획
- 비즈니스 이해 및 범위 설정
- 비즈니스 이해
- 프로젝트 범위 설정 : SOW(Statement Of Work - 프로젝트 범위 정의서) 작성 - 프로젝트 정의 및 계획 수립
- 데이터 분석 프로젝트 정의 : 목표 수준 등 구체화, 모델 운영 이미지 및 평가기준 설정
- 프로젝트 수행 계획 수립 : 수행계획서 및 WBS - 프로젝트 위험 계획 수립
- 데이터 분석 위험 식별
- 위험 대응 계획 수립 : 예상된 위험에 대해, 회피, 전이, 완화, 수용으로 구분하여 관리계획 작성
- 비즈니스 이해 및 범위 설정
- 데이터 준비
- 필요 데이터 정의
- 데이터 정의 : 분석에 필요한 데이터 정의
- 데이터 획득 방안 수립 : 수집을 위한 구체적 방안, 업무협조 및 보안 관련 점검, 법적 문제 고려 - 데이터 스토어 설계
- 정형 데이터 스토어 설계
- 비정형 데이터 스토어 설계 - 데이터 수집 및 정합성 점검
- 데이터 수집 및 저장
- 데이터 정합성 점검 : 데이터 정합성 점검, 데이터 품질개선이 필요한 부분에 대하여 보완작업
- 필요 데이터 정의
- 데이터 분석
- 분석용 데이터 준비
- 비즈니스 룰 확인 : 프로젝트의 목표를 정확하게 인식, 세부 비즈니스 룰 확인을 통해 데이터의 범위 확인
- 분석용 데이터 셋 준비 - 텍스트 분석
- 텍스트 데이터 확인 및 추출
- 텍스트 데이터 분석 : 다양한 기법을 통한 분석, 모델 구축, 용어사전 확보가 필요, 시각화 도구를 이용하여 모델의 의미 전달을 명확히 - 탐색적 분석
- 탐색적 데이터 분석 : 다양한 관점별 기초 통계량, 통계적 특성을 이해하고 모델링을 위한 기초자료 활용
- 데이터 시각화
① 탐색적 데이터 분석을 위한 도구로 활용
② 모델의 시스템화를 위한 시각화를 목적으로 활용할 경우 시각화 기획, 설계, 구현 등의 별도의 프로세스 따라 진행되어야 함.
③ 수행된 데이터 시각화는 향후 인터페이스 및 프로토타입으로 활용될 수 있다. - 모델링
- 데이터 분할 : 과적합과 일반화를 위하여 훈련용/테스트용 데이터 분리, 검증 횟수, 생성 모델 개수 등을 설정하기도 한다.
- 데이터 모델링
- 모델 적용 및 운영 방안 : 알고리즘 설명서, 모니터링 방안
- 알고리즘 설명서는 "시스템 구현 단계"의 중요한 입력자료이기에 의사 코드( Pseudo code) 작성 필요 - 모델 평가 및 검증
- 모델 평가 : 모델 평가보고서(알고리즘 파악, 필요시 별도의 검증용 데이터 활용)
- 모델 검증 : 모델 실 적용성 검증, 모델의 품질을 최종 검증
- 분석용 데이터 준비
- 시스템 구현
- 설계 및 구현
- 시스템 테스트 및 운영
- 시스템 테스트는 품질 관리 차원에서 진행, 적용된 시스템의 객관성과 완전성 확보
- 평가 및 전개
- 모델 발전 계획 수립
- 모델 발전 계획 - 프로젝트 평가 및 보고
- 프로젝트 성과평가
- 프로젝트 종료 : 지식의 자산화
- 모델 발전 계획 수립
728x90
'데이터분석 > ADP' 카테고리의 다른 글
PART03.1장 데이터 분석 기획의 이해(분석프로젝트 관리 방안) (0) | 2022.06.03 |
---|---|
PART03.1장 데이터 분석 기획의 이해(분석 과제 발굴) (0) | 2022.06.03 |
PART03.1장 데이터 분석 기획의 이해(분석기획 방향성 도출) (0) | 2022.06.03 |
PART02.2장 데이터 처리 기술( 클라우드 인프라 기술) (0) | 2022.06.03 |
PART02.2장 데이터 처리 기술 ( 분산 컴퓨팅 기술) (0) | 2022.06.03 |
댓글