• '통계의 함정'에 빠지지 않기 위한 6가지 방법

    영국의 수상 밴저민 디즈레일리는 '거짓말에는 세 종류가 있다. '거짓말', '빨간 거짓말',
    그리고 '통계'라고 했다. 통계는 통계일 뿐 맹신하지 말아야

    김필재  

  • [2012년 12월18일자 보도]

    ■ 독일의 통계학자 발터 크래머는 '벌거벗은 통계'에서 각종 숫자와 데이터를 가지고 만들어진 통계가 어떻게 사람들을 현혹시키고, 잘못된 행동으로 이끄는지를 적나라하게 보여준다.

    일례로 10명의 농부 가운데 농부 1명이 소 40마리를 가지고 있고, 나머지 농부 9명은 0마리를 가지고 있다면 농부들은 몇 마리의 소를 가지고 있는가? 통계에서 나타나는 최빈(最頻)값은 '0'마리이고, 중간값도 '0'마리인데 '산술평균'(算術平均)은 4마리가 된다. 

    '산술평균'은 통계에서 흔히 이용되는 숫자다. 그러나 소가 한 마리도 없는 9명의 농부에게는 아무 의미가 없다. 이처럼 '산술평균'은 사건의 실체를 은폐하는데 주로 악용되고 있다.

    이 때문에 영국의 수상 밴저민 디즈레일리는 '거짓말에는 세 종류가 있다. '거짓말', '빨간 거짓말', 그리고 '통계'라고 했다. 통계는 통계일 뿐 맹신하지 말아야 한다는 것이다.

    표본조사가 잘못될 경우 통계 자체가 완전히 틀리는 경우도 있다. 미국의 인기잡지 '리터러리 다이제스트'(The Literary Digest)'는 과거 엄청난 물량작전으로 여론조사를 실시해 정상의 잡지로 군립했던 적이 있다. 이 잡지는 1916년~1936년 기간 동안 대대적인 여론조사를 실시했는데, 특히 1924년 선거에서는 1600만 명의 유권자에게 설문지를 발송했다.

    1928년에는 무려 1800만 명의 유권자들에게 설문지를 보냈다. 당시 '리터러리 다이제스트'가 구사한 설문 방법은 잡지 정기 구독자를 중심으로 전화번호부와 자동차 소유주를 중심으로 한 것이었다. 그러나 이 조사방법은 1936년 선거에서 문제가 발생했다.

    당시 공화당 후보는 알프레드 랜던(Alfred Landon)이었고, 민주당은 현직 대통령이었던 프랭클린 루즈벨트(Franklin D. Roosevelt)였다. '리터러리 다이제스트'는 기존의 방식대로 1000만 명을 대상으로 표본을 조사해 공화당 후보가 당선될 것이라는 예측을 했다.

    그러나 결과는 참담한 악몽이었다. 민주당의 루즈벨트가 유효투표의 60%를 획득해 대통령에 재선된 것이다. '리터러리 다이제스트'는 독자와 전 국민의 망신거리가 되어 1938년 폐간됐다. '리터러리 다이제스트'의 예측이 틀린 이유는 표본추출에 문제가 있었기 때문이다.

    투표장으로 향하는 일반인들을 대상으로 표본조사를 한 것이 아니라 앞서 언급한 것처럼 잡지 정기구독자, 전화 가입자, 자동차를 소유한 부유계층으로 대부분 공화당 지지자들이었다.

    '리터러리 다이제스트'의 참담한 실패가 가져다 준 교훈은 두 가지였다. 첫째는 여론조사에서 피조사자의 숫자가 아무리 많아도 안심할 수 없다는 점. 둘째는 표본을 어떻게 구할 것인가인데 크기가 중요한 것이 아니라 표본추출의 방법이 훨씬 더 중요하다는 것이다(2013/8/11). 

    ■ 사회학-정치학자, 그리고 언론인들이 가장 쉽게 의존하고, 그만큼 가장 쉽게 오류에 빠지는 것이 바로 통계자료이다. 이 때문에 선진국의 언론인들은 통계수치를 인용할 때, 초보적 오류에 빠지지 않기 위해 통계분석에 사용된 표본 및 조사가 제대로 이뤄졌는지를 살핀다.

    '통계의 함정'에 빠지지 않기 위한 방법으로는 6가지 방법이 있다.(《벌거벗은 통계》인용)

    -첫째, 너무 구체적인 숫자는 믿지 말라: (예수 탄생이 지금으로부터 2012년 X월X일 전에 이뤄졌다고 주장한다 해서 그것이 사실이 되는 것은 아니다.)

    -둘째, 평균값의 함정에 빠지지 말라: (산술평균이 아닌 중앙값, 혹은 최빈값이 어떠한지를 비교해야 한다. 도시근로자 월평균소득이 400만원이라고 해도 만약 소득 그래프가 양쪽으로 치우쳐져 있다면 실제 그와 같은 소득을 얻는 이는 외려 극소수에 불과할 수 있다.)

    -셋째, 표본이 어떻게 수집됐는지를 꼭 살피라.

    -넷째, 그래프에서 기준축이 되는 수치를 반드시 점검하라.

    -다섯째, 설문조사 결과를 그대로 신뢰하지 말라: (설문에 대한 응답이 응답자의 진심을 드러내리라고 기대하는 것은 순진하다. 특히나 성문제와 같이 민감하고 개인적인 질문에 대한 응답자의 답변은 신뢰도가 떨어지는 경우가 많다.)

    -여섯째, 사실이라기엔 너무 좋아 보이는 수치는 실제로 사실이 아닌 경우가 대부분이다.

    김필재(조갑제닷컴) spooner1@hanmail.net
    [조갑제닷컴=뉴데일리 특약]