[K-MOOC 통계학의 이해 1] 3-1 수치자료 분포의 중심위치, 3-2 수치자료의 대체중심위치, 3-3 수치자료 분포의 산포 1
3-1 수치자료 분포의 중심위치
수치를 이용한 자료정리
(1)표본평균 : 표본의 합을 표본 크기로 나눈 값
(2)표본비율 (= 표본평균)
(3)이상점 : 대부분의 관측값으로부터 멀리 떨어져 있는 일부 관측 값
- 이상점 포함 여부에 따라 표본평균의 값에 크게 차이가 나는 경향 = 이상점에 로버스트하지 않음을 의미
- 대체 통계값 : 중앙값, 절사 평균, 최빈값
3-2 수치자료의 대체중심위치
(1)표본중앙값 : 자료를 크기 순서대로 나열했을 때 중간에 있는 값
- 순서통계량 : 표본을 오름차순으로 정렬한 것
- 이상점 유무에 관계없이 안정적인 중심위치 제공 = 이상점에 로버스트
- 단점 : 자료의 정보를 다 활용하지 못함
(2)표본절사평균
- a% 표본절사평균 : 순서통계량에서 하위 a%부터 상위 a%까지의 자료를 이용하여 표본평균을 계싼
- a백분위수 : 하위 a%에 해당하는 값
- a = 0 -> 표본평균, a = 50 -> 표본중앙값
(3)표본최빈값 : 자료 중 빈도가 가장 많은 값
3-3 수치자료 분포의 산포 1
산포 : 자료들이 얼마나 퍼져있는지를 나타내는 측도
- 중심위치가 얼마나 안정적인지에 대한 중요한 정보를 제공
(1)범위: 자료 중 가장 큰 값과 작은 값의 차이
- 최대값과 최소값에만 영향을 받기 떄문에 자료 전체에 퍼져 있는 정도를 파악할 수 없음
(2)사분위간범위(IQR)
- 사분위수 : 자료를 동일한 비율로 4등분 할 때의 세 위치
- 자료를 오름차순으로 정렬했을 때
25% 지점 : 제1사분위수(Q1)
50% 지점 : 제2사분위수(Q2)
75% 지점 : 제3사분위수(Q3)
- 사분위간범위는 제3사분위수와 제1사분위수의 차이 => IQR = Q3 - Q1
- 사분위 수 계산 방법 -> k = (n-1)p + 1 (n = 관측값 수, p = 해당 %값/100)
(3)상자그림
- 자료의 주요 위치 파악과 이상점 검출 등에 사용되는 그림
*강의의 모든 내용을 적은게 아닌, 정리하며 눈에 보이는 것만 후딱 요약해 적은겁니다.
강의도 무료이니 여인권 교수님의 강의를 직접 들어보길 추천해요!