본문 바로가기
반응형

분류 전체보기38

PART04.2장 R 프로그래밍 기초(함수) PART04.2장 R 프로그래밍 기초(함수) APPLY apply는 데이터 자료구조에서 row, column 단위로 계산을 적용하기 위한 함수 apply(자료구조, 행/열 별(1, 2), 적용 함수) lapply : lapply(data, function) 결과를 리스트로 반환 ( 열 단위) sapply : sapply(data, function) 결과를 벡터, 행렬로 반환(열 단위) tapply : tapply(data, index, function) data를 index에 입력된 분류별로 function 적용, sql의 group by와 유사 LENGTH VS NCHAR x 2022. 6. 3.
PART04.2장 R 프로그래밍 기초(그래픽기능) PART04.2장 R 프로그래밍 기초(그래픽 기능) 산점도 그래프 x에 대한 y의 그래프 : plot(x, y), plot(y~x) height=c(170,160,165,190,120) weight=c(70,100,89,55,66) plot(height, weight) 산점도 행렬 pairs(iris[1:4], main="andre", pch=21, bg=c("red", "green","blue")[unclass(iris$Species)]) 히스토그램과 상자 그림 StatScore=c(1:50, 3) hist(StatScore) # 히스토그램 boxplot(StatScore) # 상자그림 hist(StatScore, prob=T) # 히스토그램, 상대도수 표시 2022. 6. 3.
PART04.2장 R 프로그래밍 기초(자료구조) PART04.2장 R 프로그래밍 기초(자료구조) 벡터 동일자료형 combine 하는 경우 문자형이 있으면 문자형으로 변환 벡터를 생성할 경우 기본적으로 열 백터 임 - 벡터를 생성한 후 전치(전치) 처리를 하게 되면 열로 생성된 것을 확인할 수 있다 * 전치 행렬 : 행과 열이 바뀐 행렬 https://terms.naver.com/entry.naver?docId=1139879&cid=40942&categoryId=32208 전치행렬 임의의 행렬 A가 주어졌을 때 그 행렬 A에서 행과 열을 바꾼 행렬을 행렬 A의 전치행렬이라 하고, 보통 AT(혹은 tA, A', Atr)로 나타낸다. 이를테면 행렬 에서 그 행(行)과 열(列)을 바꾼 다음과 같은 terms.naver.com 행렬 기본적으로 열 우선으로 채워.. 2022. 6. 3.
PART04.2장 R 프로그래밍 기초 PART04.2장 R 프로그래밍 기초 R이란? 통계, 데이터 마이닝 언어 각 세션 사이마다 시스템에 데이터 셋 저장, 매번 데이터를 로딩할 필요가 없고 명령어 스토리도 저장 가능 객체지향 언어이며 함수형 언어 R스튜디오 래틀은 GUI 가 패키지가 긴밀한 결합, 정해진 기능만 사용 가능해 업그레이드가 제대로 되지 않으면 통합성에 문제 R설치 1. R install 먼저 https://cran.rstudio.com/ The Comprehensive R Archive Network cran.rstudio.com 2. RStudio 설치 https://www.rstudio.com/products/rstudio/download/ Download the RStudio IDE RStudio is a set of in.. 2022. 6. 3.
PART04.1장 데이터 분석 개요 PART04.1장 데이터 분석 개요 데이터 처리 데이터 분석은 통계 기반, 하지만 통계지식과 가성이 상대적으로 적은 실용적 분야 최종 데이터 구조로 가공 데이터 마이닝 분류 정형화된 패턴 처리 시각화 가장 낮은 수준의 분석이지만 잘 사용하면 효율적 빅데이터 분석에서는 필수적 탐색적 분석을 할 때는 필수 공간분석(Spatial Analysis) 공간적 차원과 관련된 속성들을 시각화 탐색적 자료 분석(EDA) 특이한 점이나 의미 있는 사실을 도출하고 분석의 최종 목적을 달성해가는 과정 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법 통칭 4가지 주제 : 저항성의 강조, 잔차 계산, 자료 변수의 재표현, 그래프를 통한 현시성 예 데이터의 이해 단계 : 변수의 분포와 특성 파악 변수 생성 단계 : 분.. 2022. 6. 3.
PART03.기타 PART03. 기타 기존 데이터 분석 VS 빅데이터 분석 특징 분석대상 데이터를 모든 형태 및 내외부 데이터로 확대 실시간에 가까운 분석 데이터 마트에 정형 데이터를 적재하고 데이터 분석을 통하여 모델을 만들 수 있다(?) 동일 고급 기법의 사용 Self Service Analytics 포함되어야 하는 주요 기능은 BI 도구, Ad hoc Report, OLAP, Visual Discovery, Machine Learning 등 성공적인 적용을 위해서는 Reference Method의 작성 및 공유, 표준 데이터의 활용, 데이터 거버넌스, 도구 사용에 대한 지속적인 교육 필요 R, Python 등의 데이터 분석 언어와 많은 통계 지식을 필요로 함 분석 처리와는 무관(지원하지 않는다) 더보기 셀프서비스 분.. 2022. 6. 3.
PART03.2장 분석 마스터 플랜(분석 거버넌스 체계 수립) PART03.2장 분석 마스터플랜(분석 거버넌스 체계 수립) 거버넌스 체계 개요 어떤 목적으로 어떤 데이터를 어떻게 분석에 활용할 것인가가 중요 ▶ 분석과 활용을 위한 체계적인 관리 필요 구성요소 분석기획 및 관리 수행 조직 과제 기획 및 운영 프로세스 분석 관련 시스템 데이터 분석 관련 교육 및 마인드 육성 체계 데이터 분석 수준진단 개요 분석 준비도 - 분석업무 : 발생한 사실 분석업무, 예측 분석 업무, 시뮬레이션 분석업무, 최적화 분석업무, 분석업무 정기 개선 - 분석 인력, 조직 : 직무 존재, 교육훈련 프로그램, 관리자의 기본 분석 능력, 전사 총괄 조직, 경영진 분석 업무 이해 능력 - 분석기법 : 적합한 분석기법 사용, 도입 방법론, 분석기법 라이브러리/ 효과성 평가/정기적 개선 - 분석 .. 2022. 6. 3.
PART03.2장 분석 마스터 플랜(마스터 플랜 수립 프레임 워크) PART03.2장 분석 마스터플랜(마스터플랜 수립 프레임 워크) 분석 마스터플랜 수립 프레임 워크 개요 우선순위 고려요소 전략적 중요도 비즈니스 성과/ROI 실행 용이성 적용범위/방식 고려요소 업무 내재화 적용 수준 분석 데이터 적용 수준 기술 적용 수준 수행 과제 도출 및 우선순위 평가 순서 분석 과제 도출 ▶ 우선순위 평가 ▶ 우선순위 정련 ROI관점에서의 특징 3V(크기, 다양성, 속도) : 투자비용 요소 ▶ 난이도 4V(3V + 가치) : (가치) 비즈니스 효과 ▶ 시급성 우선순위 시급성 우선 : 시급성↑+난이도↓ ▶ 시급성↓+난이도↓ ▶ 시급성↓+난이도↑ 난이도 : 시급성↑+난이도↓ ▶ 시급성↑+난이도↑ ▶ 시급성↓+난이도↑ 추진단계 Stage 1 : 데이터 분석체계 도입 추진목표 : 비즈니스 .. 2022. 6. 3.
반응형