[K-MOOC 통계학의 이해 1] 4-4 기술통계 실습 및 과제, 5-1-1 확률이란?(1), 5-1-2 확률이란?(2)

2022. 8. 3. 20:32Data Analyst/통계학

4-4 기술통계 실습 및 과제

#과제
#1.타이타닉호 예제에서 생존율 대신 사망률을 이용하여 정리하여라.
titanic <- read.csv("titanic.csv",fileEncoding = "EUC-KR")

ttn.table <- with(titanic,table(Class,Survived,Group)) #2차원으로 표시
ftable(ttn.table) #한번에 3차원 표시, but 원하는 형태가 아님
table3way <- ftable(ttn.table,row.vars="Class",col.vars=c("Group","Survived")) #row variable은 Class, col variable은 Group,Survived로 옵션을 설정
ttn.ftable <- data.frame(table3way) #분석을 위해 데이터프레임화
ttn.dead <- ttn.ftable[ttn.ftable$Survived == "No",] #사망률을 계산하기 위해 생존한 경우의 데이터만 골라 추출

# 등실별사망율
dead <- with(ttn.dead,tapply(Freq,Class,sum)) #tapply 함수를 통해 class별 Freq의 합을 구함 
total <- with(ttn.ftable,tapply(Freq,Class,sum))
round(100*dead/total,1)

# 그룹별 생존율
dead <- with(ttn.dead,tapply(Freq,Group,sum))
total <- with(ttn.ftable,tapply(Freq,Group,sum))
round(100*dead/total,1)

id <- 1:12
ttn.dead$Rate <- round(100*ttn.dead$Freq/(ttn.ftable$Freq[id]+ttn.ftable$Freq[id+12]),1)
# 각각의[생존하지 못한 사람/(생존하지 못한 사람 + 생존한 사람)] 경우를 계산해 생존률 열을 추가
ttn.dead

par(mfrow=c(1,1))
ttnbar <- matrix(ttn.dead$Rate,4,3) #생존률 열을 4x3 표 형태로 만듦
row.names(ttnbar) <- c("1등실","2등실","3등실","승무원")
colnames(ttnbar) <- c("남자","어린이","여자")
barplot(ttnbar, beside = TRUE, ylim = c(0, 100),col=1:4)
legend("topright",legend = rownames(ttnbar), fill = 1:4, ncol = 1, cex = 0.6)
abline(h=c(20,40,60,80,100),lty=3)
abline(h=0)


#2.올림픽 육상 여자 100m 우승기록을 이용하여 연도와 기록의 공분산, 상관계수를 계산하여라.
olympic <- read.csv("100m.csv",fileEncoding = "EUC-KR")
head(olympic)
tail(olympic)

n <- nrow(female)
Sxy <- sum(female$year*female$record)-sum(female$year)*sum(female$record)/n
Sxy/(n-1)   # 공분산
Sxx <- sum(female$year^2)-sum(female$year)^2/n
Syy <- sum(female$record^2)-sum(female$record)^2/n
Sxy/sqrt(Sxx*Syy) #상관계수

with(female,cov(year,record)) #공분산(covariance)
with(female,cor(year,record)) #상관계수(correlation)


#3.스마트폰 선호도 예제에서 A 모델 52, B 모델 56, C모델 38개에 대해 남여의 선호 빈도가 조사되었다고 하면, 해당 자료에 맞게 분할표의 비율과 원도표를 구하여라.
# 1
smarttable <- table(smart$gender,smart$model)
# 2
with(smart,table(gender,model))

margin.table(smarttable,1)  ## row의 합계
margin.table(smarttable,2)  ## column의 합계

prop.table(smarttable) #전체 합 기준
prop.table(smarttable,1) #row기준 -> 남,녀 합이 1
prop.table(smarttable,2) #col기준 -> A,B,C 합이 1
smart.prop <- round(100*prop.table(smarttable,2),1)

# 원도표
par(mfrow=c(1,3))
pie(smart.prop[,1],main="A")
pie(smart.prop[,2],main="B")
pie(smart.prop[,3],main="C")

 

 

5-1 확률이란?

1.확률

: 어떤 사건이 발생항 가능성이 얼마나 되는지를 나타내는 [0,1]의 수치적 측도

- 확률 발생 상황 ex.주사위 던지기, 앞면 나올때 까지 동전 던지기, 휴대전화의 수명

- 실험을 시행하기 전에 발생할 수 있는 모든 결과는 알 수 있음

- 다만 어떤 것이 발생할 것인지에 대해서는 확실히 예측할 수 없음 => 불확실성

 

(1)확률실험 : 위의 두 성질을 가지는 실험

 

(2)표본공간 : 확률실험에서 발생 가는한 모든 결과들의 집합

 

(3)사건 : 표본공간 내에서의 관심 부분집합

 

- 확률을 언급하기 위해서는 확률실험이 전제 -> 이후 표본공간과 사건이 설정되어야 함 

 

 

2.집합연산 정의와 법칙

3.고전적 확률

 

4.연속표본공간

 

 

 

*강의의 모든 내용을 적은게 아닌, 정리하며 눈에 보이는 것만 후딱 요약해 적은겁니다.

강의도 무료이니 여인권 교수님의 강의를 직접 들어보길 추천해요!

 

모든 내용 출처 : http://www.kmooc.kr/courses/course-v1:SookmyungK+SM_sta_004k+2019_03SM_02/course/#block-v1:SookmyungK+SM_sta_004k+2019_03SM_02+type@chapter+block@eb0a1c109e664458999982d10e934a63