2022. 7. 29. 23:28ㆍData Analyst/통계학
3-1 수치자료 분포의 중심위치
수치를 이용한 자료정리
(1)표본평균 : 표본의 합을 표본 크기로 나눈 값
(2)표본비율 (= 표본평균)
(3)이상점 : 대부분의 관측값으로부터 멀리 떨어져 있는 일부 관측 값
- 이상점 포함 여부에 따라 표본평균의 값에 크게 차이가 나는 경향 = 이상점에 로버스트하지 않음을 의미
- 대체 통계값 : 중앙값, 절사 평균, 최빈값
3-2 수치자료의 대체중심위치
(1)표본중앙값 : 자료를 크기 순서대로 나열했을 때 중간에 있는 값
- 순서통계량 : 표본을 오름차순으로 정렬한 것
- 이상점 유무에 관계없이 안정적인 중심위치 제공 = 이상점에 로버스트
- 단점 : 자료의 정보를 다 활용하지 못함
(2)표본절사평균
- a% 표본절사평균 : 순서통계량에서 하위 a%부터 상위 a%까지의 자료를 이용하여 표본평균을 계싼
- a백분위수 : 하위 a%에 해당하는 값
- a = 0 -> 표본평균, a = 50 -> 표본중앙값
(3)표본최빈값 : 자료 중 빈도가 가장 많은 값
3-3 수치자료 분포의 산포 1
산포 : 자료들이 얼마나 퍼져있는지를 나타내는 측도
- 중심위치가 얼마나 안정적인지에 대한 중요한 정보를 제공
(1)범위: 자료 중 가장 큰 값과 작은 값의 차이
- 최대값과 최소값에만 영향을 받기 떄문에 자료 전체에 퍼져 있는 정도를 파악할 수 없음
(2)사분위간범위(IQR)
- 사분위수 : 자료를 동일한 비율로 4등분 할 때의 세 위치
- 자료를 오름차순으로 정렬했을 때
25% 지점 : 제1사분위수(Q1)
50% 지점 : 제2사분위수(Q2)
75% 지점 : 제3사분위수(Q3)
- 사분위간범위는 제3사분위수와 제1사분위수의 차이 => IQR = Q3 - Q1
- 사분위 수 계산 방법 -> k = (n-1)p + 1 (n = 관측값 수, p = 해당 %값/100)
(3)상자그림
- 자료의 주요 위치 파악과 이상점 검출 등에 사용되는 그림
*강의의 모든 내용을 적은게 아닌, 정리하며 눈에 보이는 것만 후딱 요약해 적은겁니다.
강의도 무료이니 여인권 교수님의 강의를 직접 들어보길 추천해요!
'Data Analyst > 통계학' 카테고리의 다른 글
[K-MOOC 통계학의 이해 1] 4-2 비교그림과 산점도, 4-3 공분산과 상관계수 (0) | 2022.08.03 |
---|---|
[K-MOOC 통계학의 이해 1] 3-4 수치자료 분포의 산포 2, 3-5 수치자료의 형태, 3-6 기술통계 실습 및 과제, 4-1 분할표와 그래프 (0) | 2022.08.01 |
[K-MOOC 통계학의 이해 1] 2-3 수치 자료 정리, 2-4 기술통계 실습 및 과제 (0) | 2022.07.28 |
[K-MOOC 통계학의 이해 1] 1-3 가중치, 1-4 과제, 2-1 자료의 분류와 특성, 2-2 범주형 자료 정리 (0) | 2022.07.27 |
[K-MOOC 통계학의 이해 1] 1-1 모집단과 표본, 1-2 표본 추출 (0) | 2022.07.26 |