원본 마크다운: wiki/대표성과-표본추출.md
대표성과 표본추출 (Representativeness & Sampling)
학습 takeaway: “몇 명을 조사하느냐”보다 “누구를 조사하느냐”가 결정적이다. 표본이 모집단을 닮지 않으면 아무리 정교한 통계를 돌려도 결론은 모집단으로 확장될 수 없다. 대표성은 양적 연구가 “일반화”를 주장할 수 있는 유일한 근거이며, 분석단위를 잘못 잡거나 표본을 잘못 뽑으면 그 위에 쌓는 모든 분석이 무너진다.
정의 / 개요
- 모집단(Population): 연구 대상이 되는 전체 집단. 예) 마약 연구라면 모든 마약 사용자, 청소년 비행 연구라면 모든 청소년.
- 표본(Sample): 모집단에서 뽑아낸 일부. 실제로 조사하는 대상.
- 대표성(Representativeness): 표본의 특성이 모집단의 특성과 동일한 분포를 갖도록 하는 것. 표본추출의 핵심 관건.
표본을 통해 모집단의 특성을 추론하려면, 표본이 모집단을 “축소판”처럼 닮아야 한다.
핵심 내용
전수조사 vs 표본조사
| 구분 | 의미 | 예시 | 한계 |
|---|---|---|---|
| 전수조사 | 모집단 전체를 대상으로 조사 | 인구주택 총조사 | 비용·시간이 막대함 → 현실적으로 어려움 |
| 표본조사 | 모집단의 일부(표본)만 조사 | 서울 중학교에서 일부 학급 추출 | 대표성 확보가 어려움 |
인구주택 총조사조차 실제로는 전 가구를 전수조사하지 않고 일부 가구를 추출하는 방식을 병행한다. 모집단 전체 조사는 대부분의 연구에서 사실상 불가능하므로, 거의 모든 사회과학 연구는 표본조사에 의존한다.
대표성 확보의 실제 — 비율 맞추기
표본의 분포를 모집단의 분포에 맞추는 것이 대표성 확보의 출발점이다. 모든 변수를 맞추기는 불가능하므로, 대표적 인구통계 변수부터 모집단 비율과 일치시킨다.
- 성별·연령: 가장 기본. 모집단의 성비·연령 분포를 표본에 그대로 반영.
- 예) 노인 범죄 연구 시 60대는 여성이, 70대 이상은 남성이 (사망률 차이로 인해) 줄어드는 식으로 연령대별 성비가 달라짐 → 연령대별 성비를 표본에 반영해야 함.
- 예) 60대 이상 모집단 성비가 남:여 = 40:60이면, 표본 100명도 남 40·여 60으로 추출.
- 지역: 인구가 많은 지역에서 더 많이 추출. A지역 인구가 B지역의 10배면, B지역에서 1명 뽑을 때 A지역에서 10명 뽑아 비율을 맞춤.
모집단을 좁히는 전략
대표성 확보가 어려울 때는, 연구 대상 자체를 좁혀 모집단을 명시적으로 한정할 수 있다.
- 예) “동국대학교 범죄학과 1학년 학생”만 모집단으로 설정 → 결론도 그 집단에만 적용.
- 이때 결과를 더 넓은 집단으로 확대 해석하면 안 됨. 다른 집단으로의 적용은 “가능성” 수준으로만 언급 가능 → 분석단위의 개인주의적·생태학적 오류와 연결.
분석단위와의 관계
표본추출 이전에 무엇을(누구를) 단위로 분석할지 정해야 한다 — 개인(개별 사람)인가, 집단(조직·지역·학교·국가)인가.
- 개인 단위: 설문지를 개별 응답자에게 배포 (예: 개인의 공격성 수준, 경찰제도 인식).
- 집단 단위: 공식 통계 비교 (예: 지역별 범죄율, 학교별 폭력발생률, 국가별 경찰신뢰).
분석단위 선택과 표본 설계가 어긋나면 분석단위의 3대 오류(생태학적·개인주의적·환원주의적)에 빠진다. 자세한 내용은 해당 페이지 참고.
의외의 연결점
- 표본 확대 ↔ 성폭력피해율-재분석의 측정 착시 (동형 구조): 표본을 2,000명→1만 명으로 키우면 희소 사건(성폭력·강도)이 더 많이 잡힌다. 황지태(2025)가 보여준 “문항 그물망 확대 → 피해율 증가”와 정확히 같은 구조다 — 측정 대상이 늘면 통계가 늘지만 실제 범죄가 는 게 아닐 수 있다. 표본 크기와 문항 범위는 둘 다 “그물망”의 두 축이며, 시계열 비교를 동시에 위협한다.
- 공식통계 vs KCVS 피해자 인구 불일치 ↔ 대표성의 정반대 증명 (범죄피해실태-한국통계): 공식통계는 남성·20대·미혼 우위, KCVS는 성균형·40~50대·기혼 우위 — 두 통계가 “다른 인구를 측정”한다. 이는 표본이 모집단을 어떻게 잡느냐(신고된 사건 vs 일반 가구)에 따라 “누가 피해자인가”의 답이 달라진다는 대표성 명제의 가장 강력한 반례적 실증.
- 모집단 좁히기 ↔ 사회과학-연구의-기초의 개연성 진술 (동형 구조): “동국대 1학년만 모집단”으로 한정해 결론을 그 집단에만 적용하는 전략은, 사회과학이 “가난하면 무조건 범죄한다”는 일반법칙 대신 “이 조건에서 가능성이 높다”는 개연적·한정적 명제에 머무는 것과 같은 인식론적 겸손이다. 둘 다 확대 해석의 유혹을 구조적으로 차단하는 장치.
- 전화조사 표본왜곡(1930s 미국 대선) ↔ 대표성은 수집 “방법”이 깬다 (서베이-연구와-자료수집): 대표성 붕괴는 표본추출 단계뿐 아니라 자료수집 방법 선택에서도 발생한다. 전화 보급 초기 전화 소유자(부유층)만 표본에 들어가 대선 예측이 빗나간 고전 사례는, “특정 도구를 소유한 사람의 특성” 때문에 모집단을 못 닮은 것 — 즉 표집틀(sampling frame)이 모집단과 어긋난 비표집적 대표성 오류다. 우편조사의 낮은 회수율(관심층만 응답), 온라인조사의 인터넷 사용자 편중도 같은 메커니즘. 누구를 뽑느냐(표집)뿐 아니라 어떻게 접촉하느냐(수집 방법)도 대표성을 결정한다.
- 성·연령 비율 맞추기 ↔ 인과관계의 통계적 통제 (동형 구조): 표본추출 단계에서 인구통계 비율을 미리 맞추는 것(설계상 통제)과, 분석 단계에서 연령·성별을 통제변수로 회귀모형에 넣는 것(통계적 통제)은 같은 제3변수 문제에 대한 사전(표본) vs 사후(분석) 대응이다.
관련 개념
- 분석단위 — 표본 설계 직전에 정해야 할 “누구에 관한 연구인가”
- 사회과학-연구의-기초 — 모집단 한정 = 개연적·확률적 진술의 표본 차원 구현
- 성폭력피해율-재분석 — 표본/문항 그물망 확대가 통계를 부풀리는 동형 구조
- 범죄피해실태-한국통계 — 공식통계 vs KCVS 피해자 분포 불일치 = 모집단 설정의 효과
- 연구-설계와-절차 — 4단계(자료수집 설계)에서 표본 크기·선정 방식을 결정
- 양적연구와-질적연구 — 대표성은 특히 양적 연구의 일반화 근거
- 척도 — 표본에서 측정할 변수의 측정 수준
- 공식통계 — 집단 단위 분석 시 활용하는 기존 전수·표본 자료
- 범죄피해조사 — 표본조사 기반 대표적 범죄통계
- 서베이-연구와-자료수집 — 전화·우편·온라인 등 수집 방법 선택도 표집틀 편중을 통해 대표성을 깬다(전화조사 표본왜곡 사례)
출처
raw/범죄학연구방법론중간/제4장 사회과학 연구를 위한 기초 지식(학부)/Recordings/3 녹음 중.txt— 2026-05-22 (모집단·전수조사·표본조사·대표성, 성·연령 비율 맞추기, 지역 인구비례 추출, 노인범죄 성비 사례)
메타
- 생성: 2026-05-22
- 최근 업데이트: 2026-05-22
- 카테고리: 통계·연구방법