2022. 7. 28. 21:18ㆍData Analyst/통계학
2-3 수치 자료 정리
1. 수치자료에 대한 도수분포표
- 자료의 값이 몇 개로 한정된 경우에는 값을 범주로 처리
-ex.
-> 딸이 많은 가구는 34.67%(아들 수가 1~5인 누적 상대도수)
-> 아들이 많은 가구는 100 - 56.63(아들 수가 1~6인 누적 상대도수) = 43.37%
2.범주화
- 계급의 수와 경계값 결정 -> 자료의 특성, 구조를 고려해 분석자가 선택한다
- ex.
3.점도표
- 각 관측값의 위치에 점을 표시하고 같은 관측값이 있는 경우 위로 누적
4.히스토그램
- 수치자료, 특히 연속자료의 분포형태를 표시
- 히스토그램 vs 막대그래프
-> 구간이 같다면 차이가 없고, 구간이 다르다면 차이가 존재
-> 밀도 = 상대도수 / 계급구간길이
-> 히스토그램은 전체 면적이 1
5. 줄기-잎 그림
- 자료를 순서대로 정렬
- 줄기에는 기본단위의 10배의 값을 표시
- 잎에는 관측값의 기본단위에 해당되는 값을 표시
- 자료가 많은 경우 줄기를 5단위로 분리(0~4, 5~9)
ex.
- 전체 그림 ex.
2-4 기술통계 실습 및 과제
par(family = "AppleGothic") -> 구글링 통해 찾은 맥북 Plot 한글 깨짐 해결법!, 앞으로 이 코드 까먹으면 내 블로그 와서 찾자 ㅎㅎ
par(family = "AppleGothic") #맥북 Plot 한글 깨짐 해결법!
#과제
#1) Score.txt 예제파일을 불러들여서 도수분포표를 만들고, 막대그래프를 그려보시기 바랍니다.
score <- scan("score.txt", what="character", fileEncoding = "EUC-KR")
## 도수분포표
Freq <- table(score)
Total <- sum(Freq)
ScoreProp <- 100*Freq/Total
ScoreProp <- round(ScoreProp,1)
Score.Freq <- cbind(Freq,ScoreProp)
colnames(Score.Freq) <- c("학생 수","등급 비율")
Score.Freq
## 막대그래프
barplot(Freq,ylim=c(0,20),space=0.5)
abline(h=0)
abline(h=c(5,10,15),lty=3)
#2) 취업률 자료의 기준을 [, ) 에서 (, ] 기준으로 변경해서 도수분포표와 히스토그램을 그려보고 앞에서 실습한 결과와 어떤 차이점이 있는지 비교해보세요
## 도수분포표
JobCut2 <- cut(Job, breaks=c(10, 39.9, 49.9, 59.9, 69.9, 79.9, 100))
JobFreq2 <- table(JobCut2)
JobProp2 <- round(JobFreq/sum(JobFreq2),3)
CumJobProp2 <- cumsum(JobProp2)
Result2 <- cbind(JobFreq2,JobProp2,CumJobProp2)
Result2
Result
#도수분포표 차이는 없다
## 히스토그램
par(mfrow=c(1,2))
hist(Job,breaks = c(10, 39.99, 49.99, 59.99, 69.99, 79.99, 100),
main = "취업률 히스토그램", xlab = "취업률", ylab = "밀도")
hist(Job,breaks = c(10, 39.99, 49.99, 59.99, 69.99, 79.99, 100), right = FALSE, main = "취업률 히스토그램", xlab = "취업률", ylab = "밀도")
#히스토그램도 차이 없다.
*강의의 모든 내용을 적은게 아닌 중요하다고 생각되는 것만 요약하고 요약해 적은겁니다.
강의도 무료이니 여인권 교수님의 강의를 직접 들어보길 추천해요!
'Data Analyst > 통계학' 카테고리의 다른 글
[K-MOOC 통계학의 이해 1] 4-2 비교그림과 산점도, 4-3 공분산과 상관계수 (0) | 2022.08.03 |
---|---|
[K-MOOC 통계학의 이해 1] 3-4 수치자료 분포의 산포 2, 3-5 수치자료의 형태, 3-6 기술통계 실습 및 과제, 4-1 분할표와 그래프 (0) | 2022.08.01 |
[K-MOOC 통계학의 이해 1] 3-1 수치자료 분포의 중심위치, 3-2 수치자료의 대체중심위치, 3-3 수치자료 분포의 산포 1 (0) | 2022.07.29 |
[K-MOOC 통계학의 이해 1] 1-3 가중치, 1-4 과제, 2-1 자료의 분류와 특성, 2-2 범주형 자료 정리 (0) | 2022.07.27 |
[K-MOOC 통계학의 이해 1] 1-1 모집단과 표본, 1-2 표본 추출 (0) | 2022.07.26 |