원본 마크다운: wiki/표집방법.md

표집 방법 (Sampling Methods)

학습 takeaway: 대표성과-표본추출이 “왜 표본으로 모집단을 추정할 수 있는가”를 다룬다면, 이 페이지는 “어떻게 표본을 뽑는가“의 실전 절차를 다룬다. 확률표집(무작위·층화·군집·다단계·체계적)과 비확률표집(편의·눈덩이)의 차이를 이해하는 것이 핵심이다. 둘을 가르는 기준은 단 하나 — 표집오차를 통계적으로 계산할 수 있는가다. 확률표집만이 신뢰수준·신뢰구간을 산출해 일반화를 정당화하고, 비확률표집은 접근이 어려운 은닉 모집단(노인학대·가정폭력 피해자 등)을 연구하는 현실적 대안이 된다.

정의 / 개요

표본조사를 하는 이유

전수조사는 시간적·경제적 비용 문제가 크다. 대표성을 확보한 표본을 통한 표본조사가 효율적이다.

추리통계(inferential statistics): 표본에서 얻은 통계량을 활용하여 모집단의 모수를 추정하는 통계학. 표본조사의 결과를 모집단으로 확장하는 논리적 다리다.

핵심 내용

1. 대표성과 표집

대표성(representativeness)이란, 표본 조사로 얻은 통계량이 모수와 가장 근접하도록, 표집을 거쳐 추출한 표본이 얼마나 모집단의 특성과 일치하는가의 문제다. 즉 표본의 특성이 그 표본이 추출된 모집단의 특성과 동일한 것을 의미한다. (대표성 확보의 실제 — 성·연령·지역 비율 맞추기는 대표성과-표본추출 참고.)

현실 경고 — 완전한 대표성은 사실상 불가능하다. 성별·연령·교육·직업·지역을 모두 모집단 비율과 일치시키려면 표본 설계가 폭증한다. 그래서 실무에서는 자기 연구에서 결정적인 특성만 골라(예: “이 연구는 성별과 연령이 핵심”) 그 기준 중심으로 표집한다(→ 층화표집의 출발점). 한 표본의 편향성을 보는 직관적 점검: 모집단 성비가 4:6인데 표본이 9:1이면 모집단 특성을 전혀 반영하지 못한 표본이다.

모집단 특성과 표본 편향 — 강의 사례. 같은 “대학생”이라도 학과 특성에 따라 응답 성향이 크게 갈린다. 교수 관찰에 따르면 경찰·범죄·형사정책 계열 학생은 처벌·응보 성향이 강하고, 복지·아동 계열은 교화·교육 지향이 강하다. 따라서 “범죄두려움 연구” 같은 주제에서 특정 학과 학생만 뽑으면 표본이 한쪽으로 치우친다. 표본의 출처 집단이 가진 고유 성향이 결과를 왜곡할 수 있다는 점을 보여주는 예다.

고전 실패 사례 — 1936년 미국 대통령 선거 여론조사 (Literary Digest). 잡지사가 공화당 랜던(Landon) 대 민주당 루스벨트(Roosevelt) 지지를 묻는 우편조사를 했다. 표집틀이 전화번호부 + 자동차 소유자 명부였는데, 1936년 당시 전화·자동차 소유자는 부유층(상대적으로 보수 성향)에 편중돼 있었다. 조사 결과는 공화당 우세(약 57%)였으나 실제로는 루스벨트가 압도했다. 표집틀 자체가 모집단을 대표하지 못해 전 국민 여론을 반영하지 못한 것 — 표집틀 편향(coverage bias)의 교과서적 사례다. 추가로 전화 응답 여론조사에는 두 가지 구조적 편향이 더 있다: ① 전화·접근 수단이 있는 사람만 응답, ② 정치 관심·시간 여유가 있는 사람(고연령·관심층)이 과대 대표되고 중도·청년층은 과소 대표. 그래서 표집을 아무리 잘해도 연령·지역(한국은 지역색이 선거에 큰 영향)으로 세분화하지 않으면 결과 신뢰가 어렵다.

1.5. 확률표집 vs 비확률표집 — 핵심 대비

구분 확률표집 비확률표집
추출 기회 모든 구성원이 동등 동등하지 않음
추출 방식 무작위 연구자 임의(의도적)
모수 추정·오차 측정 가능 불가능
일반화 정당화 가능 제한적(단서 필요)
비용·시간 적음(간단)

2. 표집오차 vs 비표집오차

구분 발생 지점 의미 예시
표집오차(sampling error) 표본추출 단계 모집단 전체가 아닌 일부 표본만 조사하여 발생하는 모집단 값과 표본 값의 차이 표본 평균이 모집단 평균과 어긋남
비표집오차(non-sampling error) 조사·측정·응답·입력 과정 표본추출이 아니라 조사 설계·응답 태도·조사자 실수에서 발생 애매한 문항, 질문 오독, 허위 응답, 코딩 실수

표집오차의 두 유형:

핵심: 표집오차는 확률표집에서는 통계적으로 계산 가능하지만, 비확률표집에서는 표본이 무작위로 선정되지 않아 정확히 계산하기 어렵다. 표본 크기가 커지고 표본추출이 적절할수록 표집오차는 줄어든다.

예비조사(파일럿 테스트)는 표집오차가 아니라 비표집오차를 줄이기 위한 장치다. (강의 강조점) 표집오차는 추출 과정 자체에서 생기므로 사전 점검으로 막을 수 없지만, 비표집오차는 설문 설계 단계에서 미리 잡을 수 있다. 연구자는 자기 문항에 익숙해져 결함을 못 보므로, 본조사 전에 소수에게 시범 실시해 점검해야 한다. 잡아내야 할 대표 결함:

3. 표집 절차 6단계

  1. 모집단 정하기 — 연구 대상 범위 명확화 (예: “2024년 기준 전국 중등학교 교사”).
  2. 표집틀(sampling frame) 정하기 — 모집단 구성원이 수록된 목록·명부(학교명단, 교사 리스트 등). 반드시 두 가지 검토:
    • 누락(coverage error): 모집단 구성원이 명부에서 빠짐
    • 중복(duplication): 한 구성원이 명부에 두 번 이상 등록됨
  3. 표집 방법 정하기 — 확률표집 or 비확률표집 결정.
  4. 표본 크기 결정하기 — 통계적 검정력(power)과 오차 허용 수준 고려.
  5. 표본추출하기 — 번호 부여 → 무작위 추출, 또는 층화/군집 절차 수행.
  6. (조사 거부 대비) 사전 기준에 따른 대체 표본 선정.

4. 확률표집(Probability Sampling)

모집단의 모든 구성원이 표본으로 선택될 확률을 알 수 있고, 표집오차를 통계적으로 계산할 수 있다.

방법 핵심 절차 예시
단순무작위표집 모든 구성원이 동일한 확률로 선택되도록 난수표·프로그램으로 무작위 추출 전국 중학생 1만 명 명단 → 난수로 500명 추출. 특정 학교·성별·지역 치우침 없음
층화표집(Stratified) 성별·연령·지역·학년·학교급 등 중요 기준으로 모집단을 여러 층(strata)으로 나눈 뒤, 각 층 안에서 무작위 추출 모집단 남52%·여48%이면 표본도 남52%·여48%로 맞춤
군집표집(Cluster) 모집단을 자연적 집단(군집)으로 나눈 후 일부 군집을 무작위 선택, 선택된 군집은 전수조사하는 경우가 많음 (조사단위 = 집단) 전국 경찰관 조사 → 경찰서를 군집으로, 일부 경찰서 선택 → 해당 경찰서 전수조사
다단계표집(Multistage) 여러 단계에 걸쳐 ‘집단 → 하위집단 → 개인’ 순으로 점진적 추출 사이버불링 연구: 시·도 → 학교 → 학급 → 학생
층화다단계표집 먼저 층화 → 층별 비율로 표본 할당 → 각 층에서 다단계 추출 청소년 조사: ①수도권50%·비수도권50% 층화 ②1,000명을 500/500 할당 ③각 지역 시·도→학교→학급→학생
체계적표집(Systematic) 명부에서 일정 간격(k번째)마다 추출 다단계 절차의 마지막 개인 선정 단계에서 활용

군집표집의 함정: 군집 간 이질성이 크고 군집 내부 동질성이 높은데 일부 군집만 선택하면 대표성이 약화되고 표집오차가 증가한다. 통계적 정확성이 단순무작위표집보다 낮을 수 있다. (강의 보충: 경찰서는 순환보직·계급·연령 구성이 서마다 비슷해 군집 간 동질성이 높은 편이라 군집표집에 적합하다. 반대로 군집끼리 성격이 크게 다르면 한 군집만 뽑았을 때 표본이 심하게 편향된다.)

군집표집과 편의표집의 경계 — 강의 통찰. 군집을 “무작위로” 뽑으면 확률표집이지만, 실무에서는 군집 선택이 사실상 연구자가 아는·접근 가능한 집단(예: 자기가 아는 강남 경찰서 형사과 30명)으로 정해지는 경우가 많다. 이러면 시작은 군집표집 형식이라도 편의표집이 섞여 들어가 대표성이 흔들린다. 단계별 군집 추출 시 각 단계에서 무작위 추출을 지켜야 비로소 확률표집의 지위를 유지한다.

다단계표집의 가중치 문제: 단계별로 표본의 추출 확률이 서로 다르므로, 모집단을 정확히 대표하도록 각 표본에 가중치(weight)를 부여하여 분석해야 한다. 단계별 표집오차가 누적되는 단점도 있으나, 대규모·광범위 조사에서 가장 현실적이라 실제 설계에서 가장 많이 쓰인다.

층화다단계표집의 종합 예시 (A지역 교사 조사):

  1. 모집단을 A지역 초·중·고 교사 전체로 정한다.
  2. 초·중·고 학교급별 층으로 나눈다.
  3. 각 학교급 비율에 맞게 표본 학교 수를 정한다.
  4. 각 학교급 층 안에서 학교를 무작위 선정한다.
  5. 선정된 학교 안에서 교사 20명을 무작위 또는 체계적으로 선정한다.
  6. 조사 거부 발생 시 사전 기준에 따라 대체 표본을 선정한다.

→ 층화 + 군집 + 단순무작위 또는 체계적 표집이 결합된 형태.

5. 비확률표집(Non-Probability Sampling)

선택 확률을 알 수 없어 표집오차를 정확히 계산하기 어렵다. 대표성 보장이 약하지만 접근성·현실성 때문에 쓰인다. 강의 보충: 실제 연구자들은 비확률표집을 많이 쓴다(돈이 안 들고 명부 확보가 어려워서). 다만 일반화 시 해석을 제한적으로 해야 한다 — “이 결과는 범죄학과 학생에게만 해당하며 다른 집단으로 확장될 가능성이 있다” 식으로 반드시 단서를 달아야 한다.

6. 표본 크기와 표집오차의 관계

표본이 커질수록 표집오차는 줄어든다(체감적으로). 95% 신뢰수준 기준 대략값:

표본 크기(n) 표집오차(약)
100명 ±10%
300명 ±5.7%
500명 ±4.4%
1,000명 ±3.1%
2,000명 ±2.2%

관련 개념

출처

메타