2015년은 각종 정책수립과 통계조사에 근간이 되는 인구주택총조사가 실시되는 해이다. 근대적 기법을 갖춘 인구주택총조사의 첫 실시는 1925년 ‘1925년 10월 1일 오전 영시 현재 조선 내에 현존하는 자’를 대상으로 진행되었고, 성명, 성별, 출생연월, 배우자 관계, 본적 또는 국적이 조사항목의 전부였다. 조사방법으로는 조사원이 직접 수기로 작성하는 방법을 통해 이루어졌고, 이후 매년 5년을 주기로 반복되었다. 시간이 지남에 따라 조사항목은 점차 확대 되어 현재는 경제활동, 출산, 인구이동, 주거 및 복지에 관련된 사항까지 포함하고 있다. 특히 정보통신기술의 발달에 힘입어, 인구주택총조사는 조사내용뿐만 아니라 조사방법 및 조사자료의 관리도 점차 변화하였다. 예를 들어, 1990년 조사에는 처음으로 자료입력의 광학판독 방식(OMR System)을 도입하였고, 2005년에는 웹기반 현지 입력방식을 시작하고, 인터넷 조사방식을 최초로 도입하여 조사의 효율성을 높였다. 올해는 인구주택충조사에서 전수조사에 해당하는 부분은 100% 행정자료만을 연계ㆍ활용하여 인구주택총조사를 대체하는 방식인 등록센서스 방식으로 최초 전환하여 인구주택총조사를 실시한다.
인구주택총조사는 대표적인 통계조사인 만큼 통계조사의 변화와 역사를 잘 보여주고 있다. 처음에는 성명과 간단한 가족관계에서 시작하였으나 다양한 분야에 대한 조사통계의 수요는 점차 많아졌고, 정보통신기술의 발달과 함께 조사방법 또한 점차 진화했다. 대부분의 조사는, 조사기획을 거쳐 자료를 수집, 관리하고 점검하는 단계를 거치게 된다. 기술의 발달은 각 단계에 걸쳐 영향을 미쳤는데, 80년대에는 조사원이 컴퓨터를 이용하여 조사를 실시하는 등 자료수집의 방법이 변화하였고, PDA와 같은 기기를 이용하여 조사내용을 실시간으로 전달하는 등 자료관리 방법에도 영향을 미쳤다. 특히 2000년대에 인터넷과 컴퓨터와 같은 정보통신기기의 보급이 확산되면서 조사원이 아닌 응답자가 직접 네트워크에 연결된 컴퓨터를 이용하여 응답값을 기입하는 단계까지 이르렀다. 2010년 인구주택총조사에서는 인터넷조사의 응답률이 전체 가구의 약 48%에 미치는 결과를 보였는데, 이는 상대적으로 높은 컴퓨터와 인터넷 보급률 등과 같은 탄탄한 정보통신 인프라와 함께 국민들의 우수한 정보통신기기의 활용수준이 뒷받침되었기 때문이라고 할 수 있을 것이다.
기술의 발달로 인한 조사 과정의 변모를 살펴보면, 온라인조사는 조사표에 수기로 작성된 응답을 컴퓨터 등과 같은 자료처리기기에 옮겨 적는 수고와, 조사원이 직접 응답자를 찾아가 조사를 실시하는 과정을 생략가능하게 했다. 온라인조사는 여러 가지 장점이 있는데, 특히 시간과 장소의 구애를 받지 않고 단시간에 다수의 응답자에게 의견을 물어볼 수 있다는 점에서 굉장히 효율적인 방법이며 가장 큰 장점으로 들 수 있다. 조사원이 직접 가가호호 방문하여 응답자를 대상으로 조사를 실시하는 것에 비하면 응답자 한 명당 발생하는 조사비용도 훨씬 저렴하다. 게다가 조사 내용이 복잡한 경우 응답과정에서 나타날 수 있는 오류를 기계적으로 찾아낼 수 있다는 장점도 있다. 또한, 전통적인 종이조사표를 이용한 조사에서는 조사표의 크기에 맞도록 문항을 구성해야하는 제약이 있지만, 온라인조사와 같이 IT기기를 활용한 조사의 경우 영상, 음향등 다양한 멀티미디어 보조 장치를 조사에 활용할 수 있다는 점도 조사내용과 그 구성에 다양하게 반영할 수 있다는 점에서 큰 장점이다. 최근에는 스마트폰을 통한 조사가 도입되면서 응답자의 위치에 기반을 둔 자료의 분석도 가능해졌다.
하지만 모든 가구나 개인이 네트워크에 연결되어있는 컴퓨터를 보유하고 있는 것이 아니기 때문에, 인터넷 사용자만을 대상으로 조사를 실시할 수밖에 없다는 점에서는 조사 모집단(母集團)의 설정에 있어서 추정통계량의 편차가 있을 수 있다. 특히 온라인조사의 경우 50대 이상 응답자의 참여비율이 상대적으로 낮게 나타나는 것으로 알려져 있기도 하다. 또한, 조사원이 직접 지켜보고 있지 않다는 점에서 개인정보에 민감한 응답을 받아낼 수 있는 장점도 있지만, 불성실한 응답으로 인한 측정 오류가 발생할 수 있다는 점도 간과할 수 없는 점이다.
최근 몇 년간 자료를 수집하고 분석하는데 있어서 빅데이터 분석이 화두가 되고 있다. 대용량 자료를 저장할 수 있는 장치와 처리기술이 발달되면서 비정형(非定型) 자료의 활용이 가능해진 것이 기반이 되었다. 빅데이터 분석은 통계학에서 조사통계에 중요하게 다루고 있는 모집단의 정의가 명확하지 않고, 이에 따라 분석하는 자료가 모집단의 대표하는지에 대한 과학적 검증이 불가능한 경우가 있다. 다만, 빅데이터 분석에 있어서 이용되는 대부분의 자료들은 무상(無償)으로 얻어지는 부산물(副産物)인 경우가 많다. 따라서 정해진 비용 안에 오차범위를 줄여 효율적인 방법으로 추정치를 얻어내고자 하는 조사통계와는 다르게, 더 많은 정보를 바탕으로 빠른 시간 안에 다양한 분석결과와 의미를 도출하여 활용하고자 하는 시도가 빅데이터 분석에서 활발히 이루어지고 있는 것이기도 하다. 하지만, 자료의 크기가 그것의 신뢰성(reliabiltiy)과 유효성(validity)을 보장하지는 않는다. 빅데이터의 분석과 활용에서 잘 알려진 '구글 독감 동행(Google Flu Trends)'은 구글 이용자의 검색어 분석으로 미국의 질병관리통제본부 (Center for Disease Control and prevention)의 추정치와 비교해 비교적 정확한 예측력을 보여 큰 관심을 끌기도 했지만, 예측 시점에 따라 오히려 과대추정(overestimate)하는 결과를 낳기도 했다. 두 예측결과를 비교한 한 연구1)에서는 이 결과의 원인 중 하나로 빅데이터 자만(big data hubris)을 꼽기도 하였다.
정보통신기술의 발달로 새로운 분석기법, 자료수집 및 관리 체계의 등장은 조사 통계의 생산체계 뿐만 아니라 자료 활용의 패러다임의 변화에도 큰 영향을 미치고 있다. 개인정보보호에 대한 인식이 강화되면서 조사 응답자의 응답률은 점차 낮아지고 있고, 면접조사의 경우 1인가구, 고령화등 변화하는 인구구조에 따라 응답자를 접근할 수 있는 환경조차 바뀌어 가고 있는 실정이다.
증거기반 정책수립(Evidence-Based Policymaking)의 확대로 조사통계와 분석결과는 중요한 역할을 담당하고 있다. 조사통계의 생산도 다양한 분야로 확대되며 조사항목 또한 증가하고 있다. 또한, 정부 3.0의 공공정보 개방 및 공유 활성화로 다양한 자료의 활용이 가능해 지고 있기도 하다. 이에 따라 축적된 자료의 효율적 활용방안에 대한 체계적인 연구도 함께 뒷받침 되어야 할 시점이기도 하다. 학계에서는 다양한 목적으로 수집된 조사통계자료와 기존에 축적되어있는 행정자료등 공공자료와 같은 상이한 성격의 자료를 연계 분석하여 통계조사자료와 빅데이터 분석의 단점을 극복하려는 데이터매칭 기법에 대한 다양한 연구가 진행되고 있기도 하다. 조사환경의 다각적 변화에 종합적으로 대응하기 위한 새로운 조사 방법과 분석 방법론 마련이 고민되어야 할 때이다.
-------------------------------------------------------------------
1) Lazer, David, et al. "The parable of Google Flu: traps in big data analysis." Science 343.14 March (2014).