[K-MOOC 통계학의 이해 1] 3-4 수치자료 분포의 산포 2, 3-5 수치자료의 형태, 3-6 기술통계 실습 및 과제, 4-1 분할표와 그래프

2022. 8. 1. 21:28Data Analyst/통계학

3-4 수치자료 분포의 산포 2

1.퍼져있는 정도를 나타내는 통계값

2.표본분산

 

3.표본표준편차

- 표본분산은 편차의 제곱합을 이용하기 때문에 분산의 단위는 관측값 단위의 제곱 ->

눈으로 이해하는 산포와 일치하기 위해서는 자료를 측정할 때의 단위로 표시

4.표준화

 

5.변동계수

- 표준편차만 이용하여 산포를 비교하는 것은 적절치 않을 수 있어 평균으로 표준편차를 보정

->CV = s/$\bar{x}$

 

 

 

3-5 수치자료의 형태

1.분포의 형태

- 많은 통계분석 방법은 모집단이 중심위치를 기준으로 대칭이라고 가정

- 분석방법의 적절성은 가정한 조건을 자료가 얼마나 만족하고 있는지에 따라 영향을 받음

 

2.왜도

- 자료가 대칭적으로 분포되어 있는지, 한쪽으로 기울어져 있는지에 대한 측도

 

3.첨도

- 양쪽 꼬리가 얼마나 두터운지를 나타내는 값

 

 

3-6 기술통계 실습 및 과제

#과제 1
#"hit.txt"(예제파일)의 자료를 불러오기(연도별 프로야구 최고 타율)
hit <- scan("hit.txt", fileEncoding = "EUC-KR")

#표본평균, 표본중앙값, 최댓값과 최솟값을 제외한 평균 계산
##표본평균
mean(hit) 

##표본중앙값
median(hit) 

##절삭평균
hit
trim = c(max(hit),min(hit))
trim

re_hit <- hit[-trim]
mean(re_hit)

##상자그림, 분산, 변동계수 계산
boxplot(hit,horizontal = TRUE)
var(hit)
sd(hit)

#과제 2
##수정된 왜도와 첨도 함수 만들기
dist.shape <- function(x) 
{
  n <- length(x)
  result <- c(NA,NA) #일단 missing값이라 생각(n>=2가 아니면 NA로 나오게끔 한 것)
  if (n >= 2) #n=1이면 계산 불가능(n-1)
  {
    z <- (x-mean(x))/sd(x)
    skew <- sum(z^3)*n/(n-1)/(n-2)
    kurt <- sum(z^4)*n*(n+1)/(n-1)/(n-2)/(n-3)-3
    result <- c(skew,kurt)
  }
  return(result)
}

dist.shape(hit)

 

 

4-1 분할표와 그래프

1.분석목적

- 비교 : X에 따라 Y에 차이가 있는가?

- 관계 : X가 Y에 영향을 주는가?

- 분류 : X에 따라 Y를 분류할 수 있는가?

 

2.분할표

: 두 개 이상의 변수를 동시에 고려하여 각각의 범주에 관측개체의 빈도를 정리한 교차표

-ex.

 

3.k차원 분할표

ex. k=3(생존여부, 성별(+어린이), 객실등급(+승무원))

 

-심슨의 역설

:전체적으로 분석한 결과와 개별적으로 분석한 결과가 다른 경우(자세한 건 좀 더 찾아봐야 할듯 하다..)

 

 

 

*강의의 모든 내용을 적은게 아닌, 정리하며 눈에 보이는 것만 후딱 요약해 적은겁니다.

강의도 무료이니 여인권 교수님의 강의를 직접 들어보길 추천해요!

 

모든 내용 출처 : http://www.kmooc.kr/courses/course-v1:SookmyungK+SM_sta_004k+2019_03SM_02/course/#block-v1:SookmyungK+SM_sta_004k+2019_03SM_02+type@chapter+block@eb0a1c109e664458999982d10e934a63