2022. 8. 1. 21:28ㆍData Analyst/통계학
3-4 수치자료 분포의 산포 2
1.퍼져있는 정도를 나타내는 통계값
2.표본분산
3.표본표준편차
- 표본분산은 편차의 제곱합을 이용하기 때문에 분산의 단위는 관측값 단위의 제곱 ->
눈으로 이해하는 산포와 일치하기 위해서는 자료를 측정할 때의 단위로 표시
4.표준화
5.변동계수
- 표준편차만 이용하여 산포를 비교하는 것은 적절치 않을 수 있어 평균으로 표준편차를 보정
->CV = s/$\bar{x}$
3-5 수치자료의 형태
1.분포의 형태
- 많은 통계분석 방법은 모집단이 중심위치를 기준으로 대칭이라고 가정
- 분석방법의 적절성은 가정한 조건을 자료가 얼마나 만족하고 있는지에 따라 영향을 받음
2.왜도
- 자료가 대칭적으로 분포되어 있는지, 한쪽으로 기울어져 있는지에 대한 측도
3.첨도
- 양쪽 꼬리가 얼마나 두터운지를 나타내는 값
3-6 기술통계 실습 및 과제
#과제 1
#"hit.txt"(예제파일)의 자료를 불러오기(연도별 프로야구 최고 타율)
hit <- scan("hit.txt", fileEncoding = "EUC-KR")
#표본평균, 표본중앙값, 최댓값과 최솟값을 제외한 평균 계산
##표본평균
mean(hit)
##표본중앙값
median(hit)
##절삭평균
hit
trim = c(max(hit),min(hit))
trim
re_hit <- hit[-trim]
mean(re_hit)
##상자그림, 분산, 변동계수 계산
boxplot(hit,horizontal = TRUE)
var(hit)
sd(hit)
#과제 2
##수정된 왜도와 첨도 함수 만들기
dist.shape <- function(x)
{
n <- length(x)
result <- c(NA,NA) #일단 missing값이라 생각(n>=2가 아니면 NA로 나오게끔 한 것)
if (n >= 2) #n=1이면 계산 불가능(n-1)
{
z <- (x-mean(x))/sd(x)
skew <- sum(z^3)*n/(n-1)/(n-2)
kurt <- sum(z^4)*n*(n+1)/(n-1)/(n-2)/(n-3)-3
result <- c(skew,kurt)
}
return(result)
}
dist.shape(hit)
4-1 분할표와 그래프
1.분석목적
- 비교 : X에 따라 Y에 차이가 있는가?
- 관계 : X가 Y에 영향을 주는가?
- 분류 : X에 따라 Y를 분류할 수 있는가?
2.분할표
: 두 개 이상의 변수를 동시에 고려하여 각각의 범주에 관측개체의 빈도를 정리한 교차표
-ex.
3.k차원 분할표
ex. k=3(생존여부, 성별(+어린이), 객실등급(+승무원))
-심슨의 역설
:전체적으로 분석한 결과와 개별적으로 분석한 결과가 다른 경우(자세한 건 좀 더 찾아봐야 할듯 하다..)
*강의의 모든 내용을 적은게 아닌, 정리하며 눈에 보이는 것만 후딱 요약해 적은겁니다.
강의도 무료이니 여인권 교수님의 강의를 직접 들어보길 추천해요!
'Data Analyst > 통계학' 카테고리의 다른 글
[K-MOOC 통계학의 이해 1] 4-4 기술통계 실습 및 과제, 5-1-1 확률이란?(1), 5-1-2 확률이란?(2) (0) | 2022.08.03 |
---|---|
[K-MOOC 통계학의 이해 1] 4-2 비교그림과 산점도, 4-3 공분산과 상관계수 (0) | 2022.08.03 |
[K-MOOC 통계학의 이해 1] 3-1 수치자료 분포의 중심위치, 3-2 수치자료의 대체중심위치, 3-3 수치자료 분포의 산포 1 (0) | 2022.07.29 |
[K-MOOC 통계학의 이해 1] 2-3 수치 자료 정리, 2-4 기술통계 실습 및 과제 (0) | 2022.07.28 |
[K-MOOC 통계학의 이해 1] 1-3 가중치, 1-4 과제, 2-1 자료의 분류와 특성, 2-2 범주형 자료 정리 (0) | 2022.07.27 |