본문 바로가기
반응형

데이터분석/ADP25

PART04.2장 R 프로그래밍 기초 PART04.2장 R 프로그래밍 기초 R이란? 통계, 데이터 마이닝 언어 각 세션 사이마다 시스템에 데이터 셋 저장, 매번 데이터를 로딩할 필요가 없고 명령어 스토리도 저장 가능 객체지향 언어이며 함수형 언어 R스튜디오 래틀은 GUI 가 패키지가 긴밀한 결합, 정해진 기능만 사용 가능해 업그레이드가 제대로 되지 않으면 통합성에 문제 R설치 1. R install 먼저 https://cran.rstudio.com/ The Comprehensive R Archive Network cran.rstudio.com 2. RStudio 설치 https://www.rstudio.com/products/rstudio/download/ Download the RStudio IDE RStudio is a set of in.. 2022. 6. 3.
PART04.1장 데이터 분석 개요 PART04.1장 데이터 분석 개요 데이터 처리 데이터 분석은 통계 기반, 하지만 통계지식과 가성이 상대적으로 적은 실용적 분야 최종 데이터 구조로 가공 데이터 마이닝 분류 정형화된 패턴 처리 시각화 가장 낮은 수준의 분석이지만 잘 사용하면 효율적 빅데이터 분석에서는 필수적 탐색적 분석을 할 때는 필수 공간분석(Spatial Analysis) 공간적 차원과 관련된 속성들을 시각화 탐색적 자료 분석(EDA) 특이한 점이나 의미 있는 사실을 도출하고 분석의 최종 목적을 달성해가는 과정 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법 통칭 4가지 주제 : 저항성의 강조, 잔차 계산, 자료 변수의 재표현, 그래프를 통한 현시성 예 데이터의 이해 단계 : 변수의 분포와 특성 파악 변수 생성 단계 : 분.. 2022. 6. 3.
PART03.기타 PART03. 기타 기존 데이터 분석 VS 빅데이터 분석 특징 분석대상 데이터를 모든 형태 및 내외부 데이터로 확대 실시간에 가까운 분석 데이터 마트에 정형 데이터를 적재하고 데이터 분석을 통하여 모델을 만들 수 있다(?) 동일 고급 기법의 사용 Self Service Analytics 포함되어야 하는 주요 기능은 BI 도구, Ad hoc Report, OLAP, Visual Discovery, Machine Learning 등 성공적인 적용을 위해서는 Reference Method의 작성 및 공유, 표준 데이터의 활용, 데이터 거버넌스, 도구 사용에 대한 지속적인 교육 필요 R, Python 등의 데이터 분석 언어와 많은 통계 지식을 필요로 함 분석 처리와는 무관(지원하지 않는다) 더보기 셀프서비스 분.. 2022. 6. 3.
PART03.2장 분석 마스터 플랜(분석 거버넌스 체계 수립) PART03.2장 분석 마스터플랜(분석 거버넌스 체계 수립) 거버넌스 체계 개요 어떤 목적으로 어떤 데이터를 어떻게 분석에 활용할 것인가가 중요 ▶ 분석과 활용을 위한 체계적인 관리 필요 구성요소 분석기획 및 관리 수행 조직 과제 기획 및 운영 프로세스 분석 관련 시스템 데이터 분석 관련 교육 및 마인드 육성 체계 데이터 분석 수준진단 개요 분석 준비도 - 분석업무 : 발생한 사실 분석업무, 예측 분석 업무, 시뮬레이션 분석업무, 최적화 분석업무, 분석업무 정기 개선 - 분석 인력, 조직 : 직무 존재, 교육훈련 프로그램, 관리자의 기본 분석 능력, 전사 총괄 조직, 경영진 분석 업무 이해 능력 - 분석기법 : 적합한 분석기법 사용, 도입 방법론, 분석기법 라이브러리/ 효과성 평가/정기적 개선 - 분석 .. 2022. 6. 3.
PART03.2장 분석 마스터 플랜(마스터 플랜 수립 프레임 워크) PART03.2장 분석 마스터플랜(마스터플랜 수립 프레임 워크) 분석 마스터플랜 수립 프레임 워크 개요 우선순위 고려요소 전략적 중요도 비즈니스 성과/ROI 실행 용이성 적용범위/방식 고려요소 업무 내재화 적용 수준 분석 데이터 적용 수준 기술 적용 수준 수행 과제 도출 및 우선순위 평가 순서 분석 과제 도출 ▶ 우선순위 평가 ▶ 우선순위 정련 ROI관점에서의 특징 3V(크기, 다양성, 속도) : 투자비용 요소 ▶ 난이도 4V(3V + 가치) : (가치) 비즈니스 효과 ▶ 시급성 우선순위 시급성 우선 : 시급성↑+난이도↓ ▶ 시급성↓+난이도↓ ▶ 시급성↓+난이도↑ 난이도 : 시급성↑+난이도↓ ▶ 시급성↑+난이도↑ ▶ 시급성↓+난이도↑ 추진단계 Stage 1 : 데이터 분석체계 도입 추진목표 : 비즈니스 .. 2022. 6. 3.
PART03.1장 데이터 분석 기획의 이해(분석프로젝트 관리 방안) PART03.1장 데이터 분석 기획의 이해(분석 프로젝트 관리 방안) 분석 과제 관리를 위한 5가지 영역 영역 내용 Data Size 1. 분석하고자 하는 데이터의 양 고려 2. 관리방식의 차이 발생 Data Complexity 1. 정형외의 비정형 데이터를 포함하는 경우, 데이터의 통합/확보 그리고 해당 데이터에 잘 적용될수 있는 모델 고려 Speed 1. 시나리오 측면의 속도 2. Real time or Batch 3. Real time인 경우 분석 모델의 성능및 속도 고려 Analytic Complexity 1. 모델의 정확도와 복잡도는 Trade off 2. 해석이 가능하면서도 정확도를 올릴 수 있는 최적 모델 고려 Accuracy & Precision 1. Accuracy : 실제 값과의 차이 .. 2022. 6. 3.
PART03.1장 데이터 분석 기획의 이해(분석 과제 발굴) PART03.1장 데이터 분석 기획의 이해(분석 과제 발굴) 분석 과제 발굴 방법론 개요 분석 문제로 변환한 후 관계자들이 이해하고 프로젝트로 수행할 수 있는 과제 정의서 형태로 도출 분석의 대상을 아는 경우는 Top-Down 방식, 대상을 모르는 경우는 Bottom-up 방식이 주로 사용 실제 새로운 상품 개발이나 전략 수립 등의 의사 결정할 때는 혼용 분석의 가치를 높일 수 있는 최적의 의사결정은 두 접근 방식이 상호보완 관계에 있을 때 가능 Design Thinking : Bottom-up의 발산과 Top-Down의 수렴이 반복적으로 수행 Top-Down 접근 기회나 문제를 탐색 -> 문제를 정의 -> 해결방안을 탐색 -> 분석의 타당성 평가 ▶ 분석 과제를 도출하는 과정으로 구성 문제 탐색(1단계.. 2022. 6. 3.
PART03.1장 데이터 분석 기획의 이해(분석 방법론) PART03.1장 데이터 분석 기획의 이해(분석 방법론) 분석 방법론 개요 개요 개인이나 조직에 기대어 우연한 성공을 바라지 않고, 일정한 수준의 품질을 갖춘 산출물과 프로젝트의 성공 가능성을 확보할 수 있도록, 체계적인 절차와 방법이 정리된 분석 방법론 수립이 필요 절차, 방법, 도구와 기법, 템플릿과 산출물로 구성 데이터 기반 의사결정의 필요성 고정관념(Stereotype), 편향(bias), 프레이밍 효과(Framing Effect)등으로 인해 합리적 의사결정이 방해될 수 있다. - 프레이밍 효과 : 문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 개인의 판단이나 선택이 달라질 수 있는 현상 방법론의 생성 과정 암묵지 -> (형식화) -> 형식지 -> (체계화) -> 방법론 -> (내재.. 2022. 6. 3.
반응형