Data Analyst/통계학

[K-MOOC 통계학의 이해 1] 1-1 모집단과 표본, 1-2 표본 추출

Duratears 2022. 7. 26. 21:10

1-1 모집단과 표본

모집단

: 연구대상이 되는 모든 개체의 집합

ex. 19대 대통령선거 선거인 명부 유권자 수는 42,432,413명

 

- 전수조사: 모집단 전체를 대상으로 조사하는 경우

 

- 대부분의 모집단은 매우 커 전체를 조사하기 어려움

 

 

표본

: 모집단으로부터 선택된 일부의 개체

 

 

 

통계학이란

- 관심 또는 연구의 대상인 모집단의 특성을 파악하기 위해

-> 모집단으로부터 일부의 자료(표본)를 수집하고

-> 수집된 표본을 정리, 요약, 분석하여 표본의 특성을 파악한 후

-> 표본의 특성을 이용하여 모집단의 특성에 대해 추론하는 원리와 방법을 제공하는 학문

 

 

 

1-2 표본추출

확률표본추출

: 모집단을 구성하는 모든 추출단위에 대해 표본으로 추출된 확률을 알 수 있는 추출법

ex. 모집단 : {1,2,3,4,5} -> 2개의 표본 선택 -> 어떤 개체가 표본으로 뽑힐 확률 : 2/5

 

- 단순확률추출, 계통추출, 집락추출, 층화추출 등

 

 

단순확률추출(SRS, simple random sampling)

: 크기가 N인 모집단에서 크기 n인 표본을 무작위로 추출

 

- 모든 단위들이 표본에 선택될 확률이 동일

 

- 실제 대규모 조사에서는 거의 사용되지 않지만 다른 모든 표본추출방법의 기초(표본추출 기초 이론)

 

 

계통표본추출

: 표집틀에서 처음 1~k번째 단위들 중 하나를 랜덤하게 선택한 다음, 매 k번째에 해당되는 단위들을 표본으로 추출

 

- 추출간격 k의 설정 : N/n 또는 정확도를 고려해 결정

 

- 단순확률추출법을 적용하기 어려운 실제 조사현장에서 폭 넓게 활용

ex) 선거출구조사, 주차장 출입 차량에 대한 조사

 

 

층화확률추출

: 모집단을 서로 중복되지 않는 여러개의 층으로 나누고, 각 층에서 단순 확률에 의해 표본을 추출

 

- 부모집단의 구성 내역을 알고 있음

 

- 과정 : 층의 구성(성별, 연령, 지역 등) -> 각 층에서 독립적으로 표본 추출(단순확률추출 사용)

 

 

집락표본추출

: 서로 인접한 조사단위들을 묶어 구성한 집락(cluster)을 추출하고, 이들 집락 내의 조사단위들을 조사

 

-ex) 서울시 고등학생 월평균 사교육비 추정

IF SRS

- 추출틀: 서울시 전체 고등학생 명단 -> 작성비용 과다

- 조사대상: 서울 전역에 산재(=흩어짐) -> 조사비용 과다

 

IF 집락추출

- 1단계 : 고등학교추출(PSU, primary sampling unit)

- 2단계: 학생추출(학급 -> 학생)

 

- 집락추출법 활용하는 경우

(1) 조사단위에 대한 표집틀 확보 어려울 때

(2) 조사단위들이 산재되어 관측비용이 높은 경우

 

 

비확률표본추출

: 특정 표본이 선정될 확률을 알 수 없음

 

- ex. 편의추출, 유의추출, 할당추출

(1)편의추출 : 자발적 참여, 백화점 앞 사람 붙잡기, 인터넷 조사

(2)유의추출 : 전문가 의견

(3)할당추출 : 그룹 내 조사대상 선택에서 랜덤화(=무작위로 고르기)과정 없이 선택

 

- 간편하고 비용이 적게 든다는 이유로 사회조사에서 광범위하게 사용됨

 

 

목표모집단

: 관심대상이 되는 모든 기본단위들의 집합

 

- 시공간상 명확하게 정의된 연구대상 집단

-> 조사시점, 지리적인 경계, 연령 기준 등

-> ex. 수도권 거주 고등학생 학부모 대상 조사 -> 표본추출틀이 필요하지만 구상하기 애매 -> 조사모집단 사용

 

 

조사모집단

:현실적인 제약을 고려해 표분추출틀을 통해 추출될 수 있는 기본단위들의 집합, 조사가능모집단

 

 

 

모든 내용 출처 : http://www.kmooc.kr/courses/course-v1:SookmyungK+SM_sta_004k+2019_03SM_02/course/#block-v1:SookmyungK+SM_sta_004k+2019_03SM_02+type@chapter+block@eb0a1c109e664458999982d10e934a63

댓글수0