본문 바로가기
반응형

분류 전체보기38

PART03.1장 데이터 분석 기획의 이해(분석프로젝트 관리 방안) PART03.1장 데이터 분석 기획의 이해(분석 프로젝트 관리 방안) 분석 과제 관리를 위한 5가지 영역 영역 내용 Data Size 1. 분석하고자 하는 데이터의 양 고려 2. 관리방식의 차이 발생 Data Complexity 1. 정형외의 비정형 데이터를 포함하는 경우, 데이터의 통합/확보 그리고 해당 데이터에 잘 적용될수 있는 모델 고려 Speed 1. 시나리오 측면의 속도 2. Real time or Batch 3. Real time인 경우 분석 모델의 성능및 속도 고려 Analytic Complexity 1. 모델의 정확도와 복잡도는 Trade off 2. 해석이 가능하면서도 정확도를 올릴 수 있는 최적 모델 고려 Accuracy & Precision 1. Accuracy : 실제 값과의 차이 .. 2022. 6. 3.
PART03.1장 데이터 분석 기획의 이해(분석 과제 발굴) PART03.1장 데이터 분석 기획의 이해(분석 과제 발굴) 분석 과제 발굴 방법론 개요 분석 문제로 변환한 후 관계자들이 이해하고 프로젝트로 수행할 수 있는 과제 정의서 형태로 도출 분석의 대상을 아는 경우는 Top-Down 방식, 대상을 모르는 경우는 Bottom-up 방식이 주로 사용 실제 새로운 상품 개발이나 전략 수립 등의 의사 결정할 때는 혼용 분석의 가치를 높일 수 있는 최적의 의사결정은 두 접근 방식이 상호보완 관계에 있을 때 가능 Design Thinking : Bottom-up의 발산과 Top-Down의 수렴이 반복적으로 수행 Top-Down 접근 기회나 문제를 탐색 -> 문제를 정의 -> 해결방안을 탐색 -> 분석의 타당성 평가 ▶ 분석 과제를 도출하는 과정으로 구성 문제 탐색(1단계.. 2022. 6. 3.
PART03.1장 데이터 분석 기획의 이해(분석 방법론) PART03.1장 데이터 분석 기획의 이해(분석 방법론) 분석 방법론 개요 개요 개인이나 조직에 기대어 우연한 성공을 바라지 않고, 일정한 수준의 품질을 갖춘 산출물과 프로젝트의 성공 가능성을 확보할 수 있도록, 체계적인 절차와 방법이 정리된 분석 방법론 수립이 필요 절차, 방법, 도구와 기법, 템플릿과 산출물로 구성 데이터 기반 의사결정의 필요성 고정관념(Stereotype), 편향(bias), 프레이밍 효과(Framing Effect)등으로 인해 합리적 의사결정이 방해될 수 있다. - 프레이밍 효과 : 문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 개인의 판단이나 선택이 달라질 수 있는 현상 방법론의 생성 과정 암묵지 -> (형식화) -> 형식지 -> (체계화) -> 방법론 -> (내재.. 2022. 6. 3.
PART03.1장 데이터 분석 기획의 이해(분석기획 방향성 도출) PART03.1장 데이터 분석 기획의 이해(분석기획 방향성 도출) 분석기획의 특징 분석기획이란 과제 정의 + 결과를 도출할 수 있도록 관리 방안 => 사전 계획하는 일련의 작업 목표(What)를 달성하기 위해 (Why) 어떤 데이터를 어떠한 방식으로(How) 수행할 지의 계획 분석대상과 방법 분석의 대상(What) Known Un-Known Optimization 최적화 Insight 통찰 Known 분석의 방법(How) Solution Discovery 발견 Un-Known 목표 시점별 분석기획 방안 당면한 분석 주제의 해결 (과제 단위) 지속적 분석 문화 내재화 (마스터 플랜단위) Speed & Test 1차 목표 Accuracy & Deploy Quick & Win 과제 유형 Long Term Vi.. 2022. 6. 3.
PART02.2장 데이터 처리 기술( 클라우드 인프라 기술) PART02.2장 데이터 처리 기술( 클라우드 인프라 기술) 클라우드 컴퓨팅 개념 및 특징 동적으로 확장할 수 있는 가상화 자원들을 인터넷으로 서비스하는 기술 Iaas, Paas, Saas VMware, Xen, KVM 등 : Iaas에 주로 사용 AWS의 EMR은 하둡을 온디멘드로 이용 서버 가상화의 개념 및 특징 정의 : 서버와 OS 사이에 적절한 계층을 추가해, 사용자에게 논리적인 자원만을 보여주는 기술 특징 하나의 서버에 여러 개의 애플리케이션, 미들웨어, OS들이 영향을 미치지 않으며 동시에 쓸 수 있음 인프라 종류에 따라 서로 다른 기술 및 분류체계 사용 x86은 하드웨어 제조사가 다양, 때문에 가상화 기술도 업체에 따라 다양 CPI 제공업체는 하드웨어 차원의 CPU 가상화 VMware 등은 .. 2022. 6. 3.
PART02.2장 데이터 처리 기술 ( 분산 컴퓨팅 기술) PART02.2장 데이터 처리 기술 ( 분산 컴퓨팅 기술) MapReduce 개념 및 특징 구글에서 개발한 분산 병렬 컴퓨팅을 이용하여 대용량 데이터 처리를 위한 소프트웨어 분할 정복(Divide and conquer) 방식 Client 수행 작업 단위는 맵리듀스 잡 MapReduce JOB : Map Task + Reduce Task 일반적으로 Map Task 하나가 1개의 블록(64MB) Map 과정에서 생성된 중간 결과물을 사용자가 지정한 개수에 해당하는 Reduce Task가 받아서 정렬 및 필터링 작업 구글 MapReduce 복자 한 기능(연산의 병렬화, 장애 복구 등)을 추상화해 핵심기능 구현에만 집중할 수 있도록 하기 위해 개발 프로그래밍 모델 Map + Reduce 단계 Map의 input.. 2022. 6. 3.
PART02-2장. 데이터 처리기술 ( 분산 데이터 저장 기술) PART02-2장. 데이터 처리기술 ( 분산 데이터 저장 기술) 분산 파일 시스템 개요 분산 데이터 저장기술 : 분산 파일 시스템, 클러스터, 데이터베이스, NoSQL 대용량 저장공간, 빠른 처리 성능, 확장성, 신뢰성, 가용성 등 파일의 메타데이터를 관리하는 별도의 서버를 가지고 있는 비대칭형 클러스터 파일 시스템 활발히 개발 메타데이터에 접근하는 경로와 데이터에 접근하는 경로 분리 구글 파일 시스템(GFS) 데이터를 고정크기(64MB)로 나눈 Chunk(청크)를 분산 저장 해쉬 테이블 구조를 사용 -> 메모리상에서 효율적인 메타데이터 처리 지원 설계 가정 저가형 서버 구성으로 빈번한 고장 발생 가능 대용량 파일 가정 작업 부하는 연속적인 데이터 Read 혹은 임의의 영역의 적은 데이터 Read wri.. 2022. 6. 3.
PART02-1장. 데이터 처리 프로세스 PART02-1장. 데이터 처리 프로세스 ETL ETL Extraction 데이터 원천으로부터 데이터를 가져오는 것 Transformation 클렌징, 변환, 표준화, 통합 등 비즈니스 적용 Load 타깃에 적재 대용량 처리를 위한 MPP(Massive Parallel Processing) 지원 작업 단계 interface : 다양한 원천으로부터 데이터를 획득하기 위한 인터페이스 구현 Staging ETL : 데이터 획득 작업 후 스테이징 테이블 저장 Profiling ETL : 스테이징 테이블에서 특성 식별 및 품질 측정 Cleansing ETL : 규칙을 활용한 데이터 보정 작업 Intergration ETL : 데이터 충돌 해소 및 클렌징 데이터 통합 Denormalizing ETL : 데이터 웨어.. 2022. 6. 3.
반응형