Data Analyst/통계학

[K-MOOC 통계학의 이해 1] 3-1 수치자료 분포의 중심위치, 3-2 수치자료의 대체중심위치, 3-3 수치자료 분포의 산포 1

Duratears 2022. 7. 29. 23:28

3-1 수치자료 분포의 중심위치

수치를 이용한 자료정리

(1)표본평균 : 표본의 합을 표본 크기로 나눈 값

 

(2)표본비율 (= 표본평균)

 

(3)이상점 : 대부분의 관측값으로부터 멀리 떨어져 있는 일부 관측 값

- 이상점 포함 여부에 따라 표본평균의 값에 크게 차이가 나는 경향 = 이상점에 로버스트하지 않음을 의미

- 대체 통계값 : 중앙값, 절사 평균, 최빈값

 

 

3-2 수치자료의 대체중심위치

(1)표본중앙값 : 자료를 크기 순서대로 나열했을 때 중간에 있는 값

- 순서통계량 : 표본을 오름차순으로 정렬한 것

- 이상점 유무에 관계없이 안정적인 중심위치 제공 = 이상점에 로버스트

- 단점 : 자료의 정보를 다 활용하지 못함

 

(2)표본절사평균

- a% 표본절사평균 : 순서통계량에서 하위 a%부터 상위 a%까지의 자료를 이용하여 표본평균을 계싼

- a백분위수 : 하위 a%에 해당하는 값

- a = 0 -> 표본평균, a = 50 -> 표본중앙값

 

(3)표본최빈값 : 자료 중 빈도가 가장 많은 값

 

 

3-3 수치자료 분포의 산포 1

산포 : 자료들이 얼마나 퍼져있는지를 나타내는 측도

- 중심위치가 얼마나 안정적인지에 대한 중요한 정보를 제공

 

(1)범위: 자료 중 가장 큰 값과 작은 값의 차이

- 최대값과 최소값에만 영향을 받기 떄문에 자료 전체에 퍼져 있는 정도를 파악할 수 없음

 

(2)사분위간범위(IQR)

- 사분위수 : 자료를 동일한 비율로 4등분 할 때의 세 위치

- 자료를 오름차순으로 정렬했을 때

25% 지점 : 제1사분위수(Q1)

50% 지점 : 제2사분위수(Q2)

75% 지점 : 제3사분위수(Q3)

- 사분위간범위는 제3사분위수와 제1사분위수의 차이 => IQR = Q3 - Q1

- 사분위 수 계산 방법 -> k = (n-1)p + 1 (n = 관측값 수, p = 해당 %값/100)

 

(3)상자그림

- 자료의 주요 위치 파악과 이상점 검출 등에 사용되는 그림

 

 

 

*강의의 모든 내용을 적은게 아닌, 정리하며 눈에 보이는 것만 후딱 요약해 적은겁니다.

강의도 무료이니 여인권 교수님의 강의를 직접 들어보길 추천해요!

 

모든 내용 출처 : http://www.kmooc.kr/courses/course-v1:SookmyungK+SM_sta_004k+2019_03SM_02/course/#block-v1:SookmyungK+SM_sta_004k+2019_03SM_02+type@chapter+block@eb0a1c109e664458999982d10e934a63