표본 추출 이란?
표본 추출이란
우리가 모집단 전체에 대해서 통계 자료를 작성하기 위해선 시간과 비용이 많이 들 수 밖에 없다.
그러한 이유로 여러가지 표본들을 추출하여 모집단의 평균과 표준편차 등등을 추정하게 되는데 이때. 모집단에서 데이터를 가져오는 방법을 표본 추출 이라고 하고 단순 임의 추출, 층화 표본 추출, 계통 추출, 군집 추출등 이 있다.

예시로 보는 표본 추출 방법
1.전국의 고등학생들의 평균 키를 알아보기 위해 전국의 학교 리스트가 있고, 각 학교에 요청하여 학생들의 키를 조사 할 수 있게 되었는데, 시간과 비용이 너무 많이 들 것을 걱정하여 N개의 학교를 조사 하기로 하였을때 표본 추출 방법별 차이는 아래와 같다.
단순 임의 추출
전체 중에 랜덤한 N개를 선택 한다.
층화 표본 추출
고등학교 사이에서 일반 고등학교와 체육목적의 체육고등학교 학생들의 키는 차이가 날 수 있어 군집을 체육고등학교와 그외 일반 고등학교로 나눈뒤 그 비율이 1:9 라면 2개의 군집에서 체육고등하교 1, 일반고등학교의 비율을 9로 가지고 각각의 학교 학생들의 키를 조사한다.
계통 추출
가지고 있는 학교 리스트를 가나다 순으로 정렬 한뒤 랜덤한 학교를 선택한뒤 우리가 지정한 K번의 간격 별 학교의 학생들의 키를 조사한다.
가,나,다,라,마,바,사,아,자,차,카,타,파,하 - EX)임의순서로 3번째 데이터 다를 선택한뒤 K를 4로 두었을때
군집 추출
지역이라는 특징을 기준으로 군집을 만든 다면 각 군집 내에는 다양한 학교가 섞여 군집내에는 이질성이 생기고 군집간에는 비슷한 성향을 가질 수 있다 이때, 특정 지역 N개를 조사하는 방법이 군집 추출이라고 볼 수 있다.
2. 전국 직장인들의 평균 연봉을 각 추출 방법으로 알아 보자.
단순 임의 추출
전체 중에 랜덤한 N개를 선택 한다.
층화 표본 추출
전국 직장인들의 나이를 기준으로 20,30,40,50 대별 연봉이 다를 수 있으므로 각 나이대 별의 군집을 만든뒤 각각의 비율에 맞게 나이 별 데이터를 수집한다.
계통 추출
회사를 다니는 회사원들의 이름을 정렬 하여 N번째 인원 부터 K번째를 간격으로 있는 사람들의 연봉을 조사한다.
군집 추출
지역을 기준으로 군집을 분류하여 군집내의 이질성, 군집간의 동질성을 만들어 특정 지역 N 개를 조사한다.
잘못된 예시 - 직종별로 군집을 형성하여 특정 N개의 직종 종사자의 연봉을 평균으로 조사한다.
직종별 연봉은 차이가 날 수 밖에 없어 직종별로 군집을 나누어 조사하게 된다면 결과가 왜곡 될 수 있다. 이러한 이유로 군집 추출시 군집을 무엇을 기준으로 정할지는 중요하다.