본문 바로가기
반응형

데이터분석26

PART03.1장 데이터 분석 기획의 이해(분석 방법론) PART03.1장 데이터 분석 기획의 이해(분석 방법론) 분석 방법론 개요 개요 개인이나 조직에 기대어 우연한 성공을 바라지 않고, 일정한 수준의 품질을 갖춘 산출물과 프로젝트의 성공 가능성을 확보할 수 있도록, 체계적인 절차와 방법이 정리된 분석 방법론 수립이 필요 절차, 방법, 도구와 기법, 템플릿과 산출물로 구성 데이터 기반 의사결정의 필요성 고정관념(Stereotype), 편향(bias), 프레이밍 효과(Framing Effect)등으로 인해 합리적 의사결정이 방해될 수 있다. - 프레이밍 효과 : 문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 개인의 판단이나 선택이 달라질 수 있는 현상 방법론의 생성 과정 암묵지 -> (형식화) -> 형식지 -> (체계화) -> 방법론 -> (내재.. 2022. 6. 3.
PART03.1장 데이터 분석 기획의 이해(분석기획 방향성 도출) PART03.1장 데이터 분석 기획의 이해(분석기획 방향성 도출) 분석기획의 특징 분석기획이란 과제 정의 + 결과를 도출할 수 있도록 관리 방안 => 사전 계획하는 일련의 작업 목표(What)를 달성하기 위해 (Why) 어떤 데이터를 어떠한 방식으로(How) 수행할 지의 계획 분석대상과 방법 분석의 대상(What) Known Un-Known Optimization 최적화 Insight 통찰 Known 분석의 방법(How) Solution Discovery 발견 Un-Known 목표 시점별 분석기획 방안 당면한 분석 주제의 해결 (과제 단위) 지속적 분석 문화 내재화 (마스터 플랜단위) Speed & Test 1차 목표 Accuracy & Deploy Quick & Win 과제 유형 Long Term Vi.. 2022. 6. 3.
PART02.2장 데이터 처리 기술( 클라우드 인프라 기술) PART02.2장 데이터 처리 기술( 클라우드 인프라 기술) 클라우드 컴퓨팅 개념 및 특징 동적으로 확장할 수 있는 가상화 자원들을 인터넷으로 서비스하는 기술 Iaas, Paas, Saas VMware, Xen, KVM 등 : Iaas에 주로 사용 AWS의 EMR은 하둡을 온디멘드로 이용 서버 가상화의 개념 및 특징 정의 : 서버와 OS 사이에 적절한 계층을 추가해, 사용자에게 논리적인 자원만을 보여주는 기술 특징 하나의 서버에 여러 개의 애플리케이션, 미들웨어, OS들이 영향을 미치지 않으며 동시에 쓸 수 있음 인프라 종류에 따라 서로 다른 기술 및 분류체계 사용 x86은 하드웨어 제조사가 다양, 때문에 가상화 기술도 업체에 따라 다양 CPI 제공업체는 하드웨어 차원의 CPU 가상화 VMware 등은 .. 2022. 6. 3.
PART02.2장 데이터 처리 기술 ( 분산 컴퓨팅 기술) PART02.2장 데이터 처리 기술 ( 분산 컴퓨팅 기술) MapReduce 개념 및 특징 구글에서 개발한 분산 병렬 컴퓨팅을 이용하여 대용량 데이터 처리를 위한 소프트웨어 분할 정복(Divide and conquer) 방식 Client 수행 작업 단위는 맵리듀스 잡 MapReduce JOB : Map Task + Reduce Task 일반적으로 Map Task 하나가 1개의 블록(64MB) Map 과정에서 생성된 중간 결과물을 사용자가 지정한 개수에 해당하는 Reduce Task가 받아서 정렬 및 필터링 작업 구글 MapReduce 복자 한 기능(연산의 병렬화, 장애 복구 등)을 추상화해 핵심기능 구현에만 집중할 수 있도록 하기 위해 개발 프로그래밍 모델 Map + Reduce 단계 Map의 input.. 2022. 6. 3.
PART02-2장. 데이터 처리기술 ( 분산 데이터 저장 기술) PART02-2장. 데이터 처리기술 ( 분산 데이터 저장 기술) 분산 파일 시스템 개요 분산 데이터 저장기술 : 분산 파일 시스템, 클러스터, 데이터베이스, NoSQL 대용량 저장공간, 빠른 처리 성능, 확장성, 신뢰성, 가용성 등 파일의 메타데이터를 관리하는 별도의 서버를 가지고 있는 비대칭형 클러스터 파일 시스템 활발히 개발 메타데이터에 접근하는 경로와 데이터에 접근하는 경로 분리 구글 파일 시스템(GFS) 데이터를 고정크기(64MB)로 나눈 Chunk(청크)를 분산 저장 해쉬 테이블 구조를 사용 -> 메모리상에서 효율적인 메타데이터 처리 지원 설계 가정 저가형 서버 구성으로 빈번한 고장 발생 가능 대용량 파일 가정 작업 부하는 연속적인 데이터 Read 혹은 임의의 영역의 적은 데이터 Read wri.. 2022. 6. 3.
PART02-1장. 데이터 처리 프로세스 PART02-1장. 데이터 처리 프로세스 ETL ETL Extraction 데이터 원천으로부터 데이터를 가져오는 것 Transformation 클렌징, 변환, 표준화, 통합 등 비즈니스 적용 Load 타깃에 적재 대용량 처리를 위한 MPP(Massive Parallel Processing) 지원 작업 단계 interface : 다양한 원천으로부터 데이터를 획득하기 위한 인터페이스 구현 Staging ETL : 데이터 획득 작업 후 스테이징 테이블 저장 Profiling ETL : 스테이징 테이블에서 특성 식별 및 품질 측정 Cleansing ETL : 규칙을 활용한 데이터 보정 작업 Intergration ETL : 데이터 충돌 해소 및 클렌징 데이터 통합 Denormalizing ETL : 데이터 웨어.. 2022. 6. 3.
관련 용어 설명 관련 용어 설명 데이터 : 객관적 사실이라는 존재적 특성을 갖는 동시에 "추론, 예측, 전망, 추정을 위한 근거"로 기능하는 당위적 특성 데이터 유형 정성적 데이터 : 언어, 문자 등 정량적 데이터 : 수치 등 암묵지와 형식지 암묵지 형식지 공통화 표출화 내면화 연결화 DIKW 피라미드 지혜(Wisdom) : 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 아이디어 지식(Knowledge) : 상호 연결된 정보 패턴 이해, 이를 토대로 예측한 결과 정보(Information) : 데이터의 가공 및 상관관계간 이해 패턴인식, 그 의미를 부여 데이터(Data) : 형식 불문, 상관관계가 없는 가공하기 전 순수한 수치나 기호 데이터 베이스 데이터베이스 시스템 : 데이터베이스 + DBMS 특징 - 통합된 / 저.. 2022. 6. 3.
PART01.3장 가치 창조를 위한 데이터 사이언스와 전략 인사이트 PART01.3장 가치 창조를 위한 데이터 사이언스와 전략 인사이트 빅데이터 분석, '빅'이 핵심이 아님 데이터의 크기가 이슈가 아님, 어떤 시각과 통찰을 얻을 수 있냐의 문제 => 객관적이고 종합적인 통찰을 줄 수 있는 데이터를 찾는 것이 중요 전략적 통찰이 없는 분석의 함정 단순히 분석을 많이 한다고 좋은 게 아님 아메리칸 항공 VS 사우스웨스트 항공 전략적인 통찰력을 가지고 해야하며, 핵심적인 비즈니스 이슈에 집중해야 함. 일차원적 분석 문제 부서나 업무영역에서 상당한 효과는 있음 환경변화 같은 큰 변화에는 제대로 대응하지 못함 환경이 급변하면, 일차원적 분석에서 점증, 전술적으로 사용하면 효과는 미비 전략 도출 가치기반 분석 전략적인 통찰력 도출에 포커스를 해야만, 중요 기회나 경영진의 지원을 얻.. 2022. 6. 3.
반응형