원본 마크다운: wiki/표집방법.md
표집 방법 (Sampling Methods)
학습 takeaway: 대표성과-표본추출이 “왜 표본으로 모집단을 추정할 수 있는가”를 다룬다면, 이 페이지는 “어떻게 표본을 뽑는가“의 실전 절차를 다룬다. 확률표집(무작위·층화·군집·다단계·체계적)과 비확률표집(편의·눈덩이)의 차이를 이해하는 것이 핵심이다. 둘을 가르는 기준은 단 하나 — 표집오차를 통계적으로 계산할 수 있는가다. 확률표집만이 신뢰수준·신뢰구간을 산출해 일반화를 정당화하고, 비확률표집은 접근이 어려운 은닉 모집단(노인학대·가정폭력 피해자 등)을 연구하는 현실적 대안이 된다.
정의 / 개요
- 모집단(population): 연구 대상이 되는 전체 집단.
- 연구 모집단(study population): 모집단 중에서 표본이 실제로 추출되는 요소들의 총합체. 이론상의 모집단과 실제 접근 가능한 범위의 차이를 메우는 개념.
- 모수(parameter): 모집단의 특성을 나타내는 수치(예: 모집단 평균·비율).
- 표집(sampling): 모집단으로부터 그 일부를 추출하는 과정.
- 표본(sample): 표집 과정을 거쳐 얻어낸 모집단의 일부 요소. 연구자는 전체를 조사하지 않고 일부를 통해 전체를 추정한다.
표본조사를 하는 이유
전수조사는 시간적·경제적 비용 문제가 크다. 대표성을 확보한 표본을 통한 표본조사가 효율적이다.
- 경제성 — 비용 절감
- 시간의 제약 — 전수조사는 시간이 과다
- 무한한 규모의 모집단 — 전체 조사가 물리적으로 불가능
- 조사가 불가능한 모집단 — 접근 자체가 어려운 경우
- 정확성 — 역설적으로, 범위를 좁혀 정밀하게 관리하면 전수조사보다 오류가 적을 수도 있음
추리통계(inferential statistics): 표본에서 얻은 통계량을 활용하여 모집단의 모수를 추정하는 통계학. 표본조사의 결과를 모집단으로 확장하는 논리적 다리다.
핵심 내용
1. 대표성과 표집
대표성(representativeness)이란, 표본 조사로 얻은 통계량이 모수와 가장 근접하도록, 표집을 거쳐 추출한 표본이 얼마나 모집단의 특성과 일치하는가의 문제다. 즉 표본의 특성이 그 표본이 추출된 모집단의 특성과 동일한 것을 의미한다. (대표성 확보의 실제 — 성·연령·지역 비율 맞추기는 대표성과-표본추출 참고.)
현실 경고 — 완전한 대표성은 사실상 불가능하다. 성별·연령·교육·직업·지역을 모두 모집단 비율과 일치시키려면 표본 설계가 폭증한다. 그래서 실무에서는 자기 연구에서 결정적인 특성만 골라(예: “이 연구는 성별과 연령이 핵심”) 그 기준 중심으로 표집한다(→ 층화표집의 출발점). 한 표본의 편향성을 보는 직관적 점검: 모집단 성비가 4:6인데 표본이 9:1이면 모집단 특성을 전혀 반영하지 못한 표본이다.
모집단 특성과 표본 편향 — 강의 사례. 같은 “대학생”이라도 학과 특성에 따라 응답 성향이 크게 갈린다. 교수 관찰에 따르면 경찰·범죄·형사정책 계열 학생은 처벌·응보 성향이 강하고, 복지·아동 계열은 교화·교육 지향이 강하다. 따라서 “범죄두려움 연구” 같은 주제에서 특정 학과 학생만 뽑으면 표본이 한쪽으로 치우친다. 표본의 출처 집단이 가진 고유 성향이 결과를 왜곡할 수 있다는 점을 보여주는 예다.
고전 실패 사례 — 1936년 미국 대통령 선거 여론조사 (Literary Digest). 잡지사가 공화당 랜던(Landon) 대 민주당 루스벨트(Roosevelt) 지지를 묻는 우편조사를 했다. 표집틀이 전화번호부 + 자동차 소유자 명부였는데, 1936년 당시 전화·자동차 소유자는 부유층(상대적으로 보수 성향)에 편중돼 있었다. 조사 결과는 공화당 우세(약 57%)였으나 실제로는 루스벨트가 압도했다. 표집틀 자체가 모집단을 대표하지 못해 전 국민 여론을 반영하지 못한 것 — 표집틀 편향(coverage bias)의 교과서적 사례다. 추가로 전화 응답 여론조사에는 두 가지 구조적 편향이 더 있다: ① 전화·접근 수단이 있는 사람만 응답, ② 정치 관심·시간 여유가 있는 사람(고연령·관심층)이 과대 대표되고 중도·청년층은 과소 대표. 그래서 표집을 아무리 잘해도 연령·지역(한국은 지역색이 선거에 큰 영향)으로 세분화하지 않으면 결과 신뢰가 어렵다.
1.5. 확률표집 vs 비확률표집 — 핵심 대비
| 구분 | 확률표집 | 비확률표집 |
|---|---|---|
| 추출 기회 | 모든 구성원이 동등 | 동등하지 않음 |
| 추출 방식 | 무작위 | 연구자 임의(의도적) |
| 모수 추정·오차 측정 | 가능 | 불가능 |
| 일반화 | 정당화 가능 | 제한적(단서 필요) |
| 비용·시간 | 큼 | 적음(간단) |
2. 표집오차 vs 비표집오차
| 구분 | 발생 지점 | 의미 | 예시 |
|---|---|---|---|
| 표집오차(sampling error) | 표본추출 단계 | 모집단 전체가 아닌 일부 표본만 조사하여 발생하는 모집단 값과 표본 값의 차이 | 표본 평균이 모집단 평균과 어긋남 |
| 비표집오차(non-sampling error) | 조사·측정·응답·입력 과정 | 표본추출이 아니라 조사 설계·응답 태도·조사자 실수에서 발생 | 애매한 문항, 질문 오독, 허위 응답, 코딩 실수 |
표집오차의 두 유형:
- 우연에 의한 오차: 무작위로 뽑았더라도 우연히 특정 특성을 가진 사람이 많이 포함되어 생기는 차이. → 표본 수를 늘리면 완화된다. (예: 시민 전체의 경찰 신뢰도는 보통인데, 우연히 매우 긍정적인 사람만 표본에 많이 들어감.)
- 편의에 의한 오차: 연구자가 쉽게 접근할 수 있는 사람만 뽑는 편의표집에서 발생. → 표본을 늘려도 해결 안 됨(체계적 편향). (예: 전국 대학생 범죄두려움을 조사한다며 자기 수업 수강생만 조사. 또 다른 예: “경찰 신뢰도”를 전체 시민이 아니라 경찰행정학과 학생에게 조사하면 — 그 직업을 지망하는 집단이라 호의가 과대 표집되어 — 신뢰도가 비현실적으로 높게 나온다. 표본의 출처 집단이 주제에 대해 편향된 성향을 가질 때 생기는 전형적 오류.)
핵심: 표집오차는 확률표집에서는 통계적으로 계산 가능하지만, 비확률표집에서는 표본이 무작위로 선정되지 않아 정확히 계산하기 어렵다. 표본 크기가 커지고 표본추출이 적절할수록 표집오차는 줄어든다.
예비조사(파일럿 테스트)는 표집오차가 아니라 비표집오차를 줄이기 위한 장치다. (강의 강조점) 표집오차는 추출 과정 자체에서 생기므로 사전 점검으로 막을 수 없지만, 비표집오차는 설문 설계 단계에서 미리 잡을 수 있다. 연구자는 자기 문항에 익숙해져 결함을 못 보므로, 본조사 전에 소수에게 시범 실시해 점검해야 한다. 잡아내야 할 대표 결함:
- 이중질문(이중 문항, double-barreled): 한 문항이 두 가지를 동시에 묻는 경우. 응답자가 한쪽에만 동의할 때 답할 수 없다.
- 전공자만 아는 용어·이해하기 어려운 단어: 비전공 응답자가 해석을 못 함.
- 특정 계층(예: 고령층) 대상이면 그 집단에 맞게 용어와 설명을 바꿔야 한다.
3. 표집 절차 6단계
- 모집단 정하기 — 연구 대상 범위 명확화 (예: “2024년 기준 전국 중등학교 교사”).
- 표집틀(sampling frame) 정하기 — 모집단 구성원이 수록된 목록·명부(학교명단, 교사 리스트 등). 반드시 두 가지 검토:
- 누락(coverage error): 모집단 구성원이 명부에서 빠짐
- 중복(duplication): 한 구성원이 명부에 두 번 이상 등록됨
- 표집 방법 정하기 — 확률표집 or 비확률표집 결정.
- 표본 크기 결정하기 — 통계적 검정력(power)과 오차 허용 수준 고려.
- 표본추출하기 — 번호 부여 → 무작위 추출, 또는 층화/군집 절차 수행.
- (조사 거부 대비) 사전 기준에 따른 대체 표본 선정.
4. 확률표집(Probability Sampling)
모집단의 모든 구성원이 표본으로 선택될 확률을 알 수 있고, 표집오차를 통계적으로 계산할 수 있다.
| 방법 | 핵심 절차 | 예시 |
|---|---|---|
| 단순무작위표집 | 모든 구성원이 동일한 확률로 선택되도록 난수표·프로그램으로 무작위 추출 | 전국 중학생 1만 명 명단 → 난수로 500명 추출. 특정 학교·성별·지역 치우침 없음 |
| 층화표집(Stratified) | 성별·연령·지역·학년·학교급 등 중요 기준으로 모집단을 여러 층(strata)으로 나눈 뒤, 각 층 안에서 무작위 추출 | 모집단 남52%·여48%이면 표본도 남52%·여48%로 맞춤 |
| 군집표집(Cluster) | 모집단을 자연적 집단(군집)으로 나눈 후 일부 군집을 무작위 선택, 선택된 군집은 전수조사하는 경우가 많음 (조사단위 = 집단) | 전국 경찰관 조사 → 경찰서를 군집으로, 일부 경찰서 선택 → 해당 경찰서 전수조사 |
| 다단계표집(Multistage) | 여러 단계에 걸쳐 ‘집단 → 하위집단 → 개인’ 순으로 점진적 추출 | 사이버불링 연구: 시·도 → 학교 → 학급 → 학생 |
| 층화다단계표집 | 먼저 층화 → 층별 비율로 표본 할당 → 각 층에서 다단계 추출 | 청소년 조사: ①수도권50%·비수도권50% 층화 ②1,000명을 500/500 할당 ③각 지역 시·도→학교→학급→학생 |
| 체계적표집(Systematic) | 명부에서 일정 간격(k번째)마다 추출 | 다단계 절차의 마지막 개인 선정 단계에서 활용 |
군집표집의 함정: 군집 간 이질성이 크고 군집 내부 동질성이 높은데 일부 군집만 선택하면 대표성이 약화되고 표집오차가 증가한다. 통계적 정확성이 단순무작위표집보다 낮을 수 있다. (강의 보충: 경찰서는 순환보직·계급·연령 구성이 서마다 비슷해 군집 간 동질성이 높은 편이라 군집표집에 적합하다. 반대로 군집끼리 성격이 크게 다르면 한 군집만 뽑았을 때 표본이 심하게 편향된다.)
군집표집과 편의표집의 경계 — 강의 통찰. 군집을 “무작위로” 뽑으면 확률표집이지만, 실무에서는 군집 선택이 사실상 연구자가 아는·접근 가능한 집단(예: 자기가 아는 강남 경찰서 형사과 30명)으로 정해지는 경우가 많다. 이러면 시작은 군집표집 형식이라도 편의표집이 섞여 들어가 대표성이 흔들린다. 단계별 군집 추출 시 각 단계에서 무작위 추출을 지켜야 비로소 확률표집의 지위를 유지한다.
다단계표집의 가중치 문제: 단계별로 표본의 추출 확률이 서로 다르므로, 모집단을 정확히 대표하도록 각 표본에 가중치(weight)를 부여하여 분석해야 한다. 단계별 표집오차가 누적되는 단점도 있으나, 대규모·광범위 조사에서 가장 현실적이라 실제 설계에서 가장 많이 쓰인다.
층화다단계표집의 종합 예시 (A지역 교사 조사):
- 모집단을 A지역 초·중·고 교사 전체로 정한다.
- 초·중·고 학교급별 층으로 나눈다.
- 각 학교급 비율에 맞게 표본 학교 수를 정한다.
- 각 학교급 층 안에서 학교를 무작위 선정한다.
- 선정된 학교 안에서 교사 20명을 무작위 또는 체계적으로 선정한다.
- 조사 거부 발생 시 사전 기준에 따라 대체 표본을 선정한다.
→ 층화 + 군집 + 단순무작위 또는 체계적 표집이 결합된 형태.
5. 비확률표집(Non-Probability Sampling)
선택 확률을 알 수 없어 표집오차를 정확히 계산하기 어렵다. 대표성 보장이 약하지만 접근성·현실성 때문에 쓰인다. 강의 보충: 실제 연구자들은 비확률표집을 많이 쓴다(돈이 안 들고 명부 확보가 어려워서). 다만 일반화 시 해석을 제한적으로 해야 한다 — “이 결과는 범죄학과 학생에게만 해당하며 다른 집단으로 확장될 가능성이 있다” 식으로 반드시 단서를 달아야 한다.
- 할당표집(Quota): 어떤 특성에 따라 표본 수를 나누되, 그 비율을 연구자가 임의로 정하는 방법. 층화표집과 가장 헷갈리는 지점이므로 구분이 중요하다. 층화표집은 모집단의 실제 비율(예: 전국 남녀 40:60)을 알고 그대로 표본에 반영하지만, 할당표집은 그 실제 비율을 모르거나 무시한 채 연구자가 “남녀 50:50으로 뽑겠다”처럼 임의로 할당한다. 즉 모집단 비율 정보의 사용 여부가 둘을 가른다. (예: 불교학과 50명·연극영화과 50명을 학교 내 실제 학과 비율과 무관하게 똑같이 배정.)
- 편의표집(Convenience): 연구자가 쉽게 접근할 수 있는 대상으로 표본 구성. 편의에 의한 표집오차의 전형. (예: 자기 수업 시간에 대학원생에게 설문지를 돌림.)
- 의도적(유의)표집(Purposive): 연구자가 연구 목적에 맞는 특정 대상만 의도적으로 선택. 실무에서는 편의표집과 섞여 나타나는 경우가 많다(접근이 쉬운 특정 대상을 의도적으로 고름).
- 눈덩이표집(Snowball): 처음에 소수의 연구대상자를 찾은 뒤, 그 대상자에게 다른 대상자를 소개받는 방식으로 표본을 점점 늘려간다. 은닉 모집단(hidden population) 연구에 핵심적이다. 강의 보충: 응답이 100~200개 단위로 필요한 설문보다, 대상 확보가 어렵고 자발적 응답을 기대하기 힘든 인터뷰(질적 연구)에서 특히 많이 쓰인다(범죄 피해자 면접 등).
6. 표본 크기와 표집오차의 관계
표본이 커질수록 표집오차는 줄어든다(체감적으로). 95% 신뢰수준 기준 대략값:
| 표본 크기(n) | 표집오차(약) |
|---|---|
| 100명 | ±10% |
| 300명 | ±5.7% |
| 500명 | ±4.4% |
| 1,000명 | ±3.1% |
| 2,000명 | ±2.2% |
- 예: 표본에서 지지도 40%가 나오고 표집오차 ±3%면, 실제 모집단 지지도는 약 37%~43% 범위에 있을 가능성이 높다.
- 95% 신뢰수준에서 ±1% 수준의 표집오차를 얻으려면 약 9,600명, 즉 대략 1만 명 정도의 표본이 필요하다.
- 주목할 점: 표본을 2배 늘려도 오차는 절반이 되지 않는다(2,000명 ±2.2% → 1만 명 ±1%). 정밀도 향상의 한계비용이 가파르게 증가한다.
관련 개념
- 대표성과-표본추출 — 이 페이지의 상위 개념. “왜 표본으로 추정 가능한가”(대표성)를 다루며, 본 페이지는 그 “표집 방법 심화” 편
- 분석단위 — 표집 직전에 “누구/무엇을 단위로 뽑을지” 결정. 군집/다단계 표집의 단계별 단위 선택과 직결
- 범죄-연구방법 — 표집은 범죄 연구의 자료수집 설계 핵심 단계
- 연구-설계와-절차 — 4단계(자료수집 설계)에서 표본 크기·표집 방법을 결정
- 노인학대 — 신고·접근이 어려운 피해자(은닉 모집단)는 눈덩이표집으로 접근하는 경우가 많음
- 노인학대-잠재유형 — 층화추출 + 가중치의 실제 사례: 조한라·박선주(2025)는 등급·연령·성별·지역 기준 층화추출로 3,500명 표본을 뽑은 뒤, 가중치를 적용해 약 53,050명 모집단으로 확장·일반화. 이 페이지의 다단계·가중치 논리가 실제 연구에서 작동하는 모습
- 가정폭력 — 마찬가지로 은닉성이 강한 피해 영역. 확률표집이 어려워 비확률표집의 대표적 적용 대상
출처
raw/범죄학연구방법론중간/ 제9장 표본 조사와 표집 방법.pdf/— 2026-05-31, PDF 강의자료 (제9장 표본 조사와 표집 방법)raw/범죄학연구방법론중간/ 제9장 표본 조사와 표집 방법.pdf/Recordings/1 녹음 중.m4a(음성, cl-whisper 전사) +1 녹음 중.txt(전사 텍스트) — 2026-05-31, 강의 녹음raw/범죄학연구방법론중간/ 제9장 표본 조사와 표집 방법.pdf/Recordings/2 녹음 중.m4a(음성, cl-whisper 전사) +2 녹음 중.txt(전사 텍스트) — 2026-05-31, 강의 녹음
메타
- 생성: 2026-05-31
- 최근 업데이트: 2026-05-31
- 카테고리: 통계·연구방법