본문 바로가기
데이터분석/ADP

4장-02. 기초통계분석

by Mr.꾸 2022. 6. 8.
반응형

4장-02. 기초통계분석

 

기술통계

  • 그래프를 이용한 자료 정리
    • 히스토그램 : 도수분포표를 그래프로 그린 것
      1. 연속형으로 표시된 데이터를 표현하며, 임의로 순서를 바꿀 수 없고 막대의 간격이 없음
      2. 그래프의 모양이 치우쳐있거나 봉우리가 여러 개 있는 그래프는 비정규 데이터일 수 있다.
      3. 봉우리가 여러 개 있는 데이터는 일반적으로 2개 이상의 공정이나 조건에서 데이터가 수집되는 경우 발생
      4. 표본의 크기가 작은 경우 각 막대의 높이가 데이터 분포의 형상을 잘 표현하지 못한다.
    • 줄기잎 그림
      1. 각 데이터의 점들을 구간 단위로 요약하는 방법으로 계산량이 적다.
    • 산점도
      1. 두 특성의 값이 연속적인 수인 경우, 표본자료를 그래프로 나타내는 방법으로써 각 이차원 자료에 대하여 좌표평면 위에 찍은 것
    • 파레토 그림
      1. 명목형 자료에서 "중요한 소수"를 찾는데 유용한 방법
      2. 참고
        https://terms.naver.com/entry.naver?docId=413439&cid=42327&categoryId=42327
 

파레토 다이어그램

파레토 분석한 것을 그래프에 나타낸 것. 그림은 월간불량률을 각 작업별로 조사하여 공장에 주는 손해액의 순으로 막대 그래프로 표시한 것. 이것에 의하여, 불량에 따른 손해액의 주체나 어느

terms.naver.com

 

상관분석

  • 두 변수 간의 관계의 정도를 알아보기 위한 분석방법
  • -1 ~ 1 사이의 값을 가지며, 0에 가까울수록 상관관계가 존재하지 않는다
  • 유형
구분 피어슨 스피어만
개념 등간척도 이상으로 측정된 두 변수들의 상관관계 측정 서열척도인 두 변수들의 상관관계 측정 방식
특징 연속형 변수, 정규성 가정 순서형 변수, 비모수적 방법
순위를 기준으로 상관관계
상관계수 피어슨 r(적률상관계수) 순위상관계수(로우)
  • Hmisc 패키지의 rcorr 함수는 상관계수와 함께 가설(상관계수가 0인)에 대한 p-value를 출력 - 클수록 유의하지 않음
728x90

댓글