[K-MOOC 통계학의 이해 1] 4-4 기술통계 실습 및 과제, 5-1-1 확률이란?(1), 5-1-2 확률이란?(2)
2022. 8. 3. 20:32ㆍData Analyst/통계학
4-4 기술통계 실습 및 과제
#과제
#1.타이타닉호 예제에서 생존율 대신 사망률을 이용하여 정리하여라.
titanic <- read.csv("titanic.csv",fileEncoding = "EUC-KR")
ttn.table <- with(titanic,table(Class,Survived,Group)) #2차원으로 표시
ftable(ttn.table) #한번에 3차원 표시, but 원하는 형태가 아님
table3way <- ftable(ttn.table,row.vars="Class",col.vars=c("Group","Survived")) #row variable은 Class, col variable은 Group,Survived로 옵션을 설정
ttn.ftable <- data.frame(table3way) #분석을 위해 데이터프레임화
ttn.dead <- ttn.ftable[ttn.ftable$Survived == "No",] #사망률을 계산하기 위해 생존한 경우의 데이터만 골라 추출
# 등실별사망율
dead <- with(ttn.dead,tapply(Freq,Class,sum)) #tapply 함수를 통해 class별 Freq의 합을 구함
total <- with(ttn.ftable,tapply(Freq,Class,sum))
round(100*dead/total,1)
# 그룹별 생존율
dead <- with(ttn.dead,tapply(Freq,Group,sum))
total <- with(ttn.ftable,tapply(Freq,Group,sum))
round(100*dead/total,1)
id <- 1:12
ttn.dead$Rate <- round(100*ttn.dead$Freq/(ttn.ftable$Freq[id]+ttn.ftable$Freq[id+12]),1)
# 각각의[생존하지 못한 사람/(생존하지 못한 사람 + 생존한 사람)] 경우를 계산해 생존률 열을 추가
ttn.dead
par(mfrow=c(1,1))
ttnbar <- matrix(ttn.dead$Rate,4,3) #생존률 열을 4x3 표 형태로 만듦
row.names(ttnbar) <- c("1등실","2등실","3등실","승무원")
colnames(ttnbar) <- c("남자","어린이","여자")
barplot(ttnbar, beside = TRUE, ylim = c(0, 100),col=1:4)
legend("topright",legend = rownames(ttnbar), fill = 1:4, ncol = 1, cex = 0.6)
abline(h=c(20,40,60,80,100),lty=3)
abline(h=0)
#2.올림픽 육상 여자 100m 우승기록을 이용하여 연도와 기록의 공분산, 상관계수를 계산하여라.
olympic <- read.csv("100m.csv",fileEncoding = "EUC-KR")
head(olympic)
tail(olympic)
n <- nrow(female)
Sxy <- sum(female$year*female$record)-sum(female$year)*sum(female$record)/n
Sxy/(n-1) # 공분산
Sxx <- sum(female$year^2)-sum(female$year)^2/n
Syy <- sum(female$record^2)-sum(female$record)^2/n
Sxy/sqrt(Sxx*Syy) #상관계수
with(female,cov(year,record)) #공분산(covariance)
with(female,cor(year,record)) #상관계수(correlation)
#3.스마트폰 선호도 예제에서 A 모델 52, B 모델 56, C모델 38개에 대해 남여의 선호 빈도가 조사되었다고 하면, 해당 자료에 맞게 분할표의 비율과 원도표를 구하여라.
# 1
smarttable <- table(smart$gender,smart$model)
# 2
with(smart,table(gender,model))
margin.table(smarttable,1) ## row의 합계
margin.table(smarttable,2) ## column의 합계
prop.table(smarttable) #전체 합 기준
prop.table(smarttable,1) #row기준 -> 남,녀 합이 1
prop.table(smarttable,2) #col기준 -> A,B,C 합이 1
smart.prop <- round(100*prop.table(smarttable,2),1)
# 원도표
par(mfrow=c(1,3))
pie(smart.prop[,1],main="A")
pie(smart.prop[,2],main="B")
pie(smart.prop[,3],main="C")
5-1 확률이란?
1.확률
: 어떤 사건이 발생항 가능성이 얼마나 되는지를 나타내는 [0,1]의 수치적 측도
- 확률 발생 상황 ex.주사위 던지기, 앞면 나올때 까지 동전 던지기, 휴대전화의 수명
- 실험을 시행하기 전에 발생할 수 있는 모든 결과는 알 수 있음
- 다만 어떤 것이 발생할 것인지에 대해서는 확실히 예측할 수 없음 => 불확실성
(1)확률실험 : 위의 두 성질을 가지는 실험
(2)표본공간 : 확률실험에서 발생 가는한 모든 결과들의 집합
(3)사건 : 표본공간 내에서의 관심 부분집합
- 확률을 언급하기 위해서는 확률실험이 전제 -> 이후 표본공간과 사건이 설정되어야 함
2.집합연산 정의와 법칙
3.고전적 확률
4.연속표본공간
*강의의 모든 내용을 적은게 아닌, 정리하며 눈에 보이는 것만 후딱 요약해 적은겁니다.
강의도 무료이니 여인권 교수님의 강의를 직접 들어보길 추천해요!
'Data Analyst > 통계학' 카테고리의 다른 글
[K-MOOC 통계학의 이해 1] 5-4 확률계산 실습 및 퀴즈 (0) | 2022.08.05 |
---|---|
[K-MOOC 통계학의 이해 1] 5-2-1 경우의 수(1), 5-2-2 경우의 수(2), 5-3 통계적 확률 (0) | 2022.08.04 |
[K-MOOC 통계학의 이해 1] 4-2 비교그림과 산점도, 4-3 공분산과 상관계수 (0) | 2022.08.03 |
[K-MOOC 통계학의 이해 1] 3-4 수치자료 분포의 산포 2, 3-5 수치자료의 형태, 3-6 기술통계 실습 및 과제, 4-1 분할표와 그래프 (0) | 2022.08.01 |
[K-MOOC 통계학의 이해 1] 3-1 수치자료 분포의 중심위치, 3-2 수치자료의 대체중심위치, 3-3 수치자료 분포의 산포 1 (0) | 2022.07.29 |