요약
디지털 전환이 사회 전 분야로 확산되면서 데이터의 중요성이 강조되는 데이터 경제시대로 변화하고 있다. 정부도 증거기반 정책(evidence-based policy making)을 강화하기 위해 ‘모든 데이터가 연결되는 세계 최고의 디지털 플랫폼 정부 구현’을 국정과제로 적극 추진하고 있다. 경제·인문사회연구회 소관 연구기관 또한 협업을 통해 데이터에 기반한 국정운영 지원을 위해 2019년부터 ‘데이터 기반 미래예측 정책지원 사업’을 수행하고 있다.본 보고서는 경제인문사회연구회가 운영 중인 NRC데이터정보시스템에 저장된 텍스트 데이터와 외부 데이터를 활용하여 ICT, 여성 정책 분야의 미래예측·정책지원 모형 개발을 통해 미래예견적 국정관리 지원 체계를 구축하기 위한 연구의 4차년도 결과물이다.
2장 지역별 ICT 고용 전망모형 개발 고도화 연구는 이전에 개발한 전망모형의 후속 연구로 연구의 확장 및 고도화를 주된 내용으로 하고 있다. 이를 위해 고용 전망의 예측력 평가 및 제고, ICT 제조업의 고용 부분 추정 및 결합, ICT 고용지수의 확장 및 함의 발견이라는 세 가지 과업을 목표로 하였다.
먼저 다양한 모형을 활용하여 전망을 수행한 결과 지역별 ICT 고용 전망에 있어 절대적인 우위를 나타내는 모형은 존재하지 않았으나, 전국, 지역, 산업의 특징 변수나 비정형 데이터(뉴스 데이터)에 기반한 지수를 정보로 포함한 모형들의 예측력이 일반적으로 향상되는 것을 확인하였다. 두 번째로 정보통신업(J) 고용만을 대상으로 한 1차년도 연구에 ICT 제조업(C) 고용까지 확장하여 ICT 산업 전체의 고용을 살펴보고 전망하였다. 수도권에 집중된 정보통신업 고용에 비해 ICT 제조업 고용은 상대적으로 지방에 넓게 분포되어 있어 ICT 지역 고용에 있어 산업별 차이가 있음을 확인하였다. 마지막으로 ICT 고용지수의 함의에 대해서 살펴보고 이를 주간 지수로까지 확장하는 작업을 수행하였다.
3장 인구변화에 대응한 양성평등정책 분야 이슈발굴 모형 고도화에서는 인구구조 변화로 인한 가족 변동 및 돌봄 수요 변화에 대응하기 위하 성평등한 가족 형성을 중심으로 한 저출산 대응 정책 수립을 위한 이슈 현안 발굴을 시도하였다. 1차연도 연구 결과를 기초로 데이터 수집 및 전처리, 분석모형 개선, 시각화 도구 등 다양한 방면에 걸쳐 고도화가 추진되었다. 이슈 모니터링 분석을 위한 이머징 이슈 모형은 기존 Bi-gram 및 TF-IDF 외에도 TextRank와 KeyBERT 알고리즘을 활용하여 이슈 키워드를 추출한 뒤 성능을 비교하고, 이슈의 중요성과 변동성을 파악하는 등 다차원적 평가지표를 도입하였다. 미래예측을 위한 DMR 토픽 모델링에서 효율성을 높이기 위해 도출된 이머징 이슈 키워드에 기반한 모형 적용으로 분석결과의 정확성과 효율성을 향상시켰다. 또한 시각화 도구를 정비하여 분석결과의 효과적 전달 방안을 모색하였다, 한편, 개발모형의 NRC 데이터정보시스템과의 연계, 탑재를 진행하여 개발 모형을 NDIS에 서비스화하고 정책적 활용 가능성을 높였다.
4장에서는 경제·인문사회연구회와 그 소관 연구기관에서 연구과제를 수행하는 과정에서 생산되는 경제·인문사회 분야 연구데이터를 공동 활용하기 위한 데이터 표준화를 목적으로 수행하였다. 연구기관이 보유하고 있는 연구데이터와 연구에 필요한 데이터 수요를 조사하였으며, 공동 활용 대상 연구데이터 선정기준(안)에 따라 최종 60종을 선정하였다. 총 60종에 대하여 공동 활용을 추진할 경우, 연구데이터 소재 정보를 “메타데이터 형식 표준(안)”을 개발하여 소재 정보를 등록·서비스할 수 있도록 제안하였으며, 연구데이터 관리를 위한 “데이터 관리 참조모델”을 개발·제안하고, 이를 기초로 종합적인 데이터 관리를 위한 데이터거버넌스와 프레임워크 도입·적용 방안을 검토하였다.
5장 NDIS 플랫폼 연계 연구는 ICT부문과 양성평등 부문에서 개발한 모형을 시스템에 탑재하는 방안을 제시하였다. ICT 고용 전망 모형 탑재는 매월 1일 ICT 여부 분류 모형, 고용 수요 분류 모형, 긍·부정 분류 모형이 오류 없이 수행되어 고용지수가 산출되는 것을 목적으로 한다. 이를 위해 (i) 비정형 데이터 준비, (ii) 텍스트 전처리, (iii) 레이블링, (iv) 분류모형 학습, (v) 지수화 작업 순으로 총 5개의 과업을 수행한 후 지정된 데이터베이스에 적재하였다. 레이블링과 모델링에 많은 시간이 소요됨에 따라 런타임 오류가 발생할 수 있는 문제나 서비스 불안정에 대비하여 안정적이고 신속하게 처리하기 위한 방안을 모색했다. 이를 위해 자연어 처리에 필요한 형태소 분석기 Mecab을 설치하고, 모델 연산시 Ray 라이브러리를 통해 병렬 처리를 수행하여 고용지수 산출 수행시간을 단축하였다. 양성평등 분야 이슈 발굴을 위한 모델을 NRC데이터정보시스템에 탑재하는 과업에서는 국내 뉴스 데이터를 분석
하여 아동돌봄, 노인돌봄, 성평등 노동환경, 다양한 가족, 성재생산 권리 5개의 세부 주제에 대하여 이슈 동향을 파악하고 양성평등 정책 이슈를 모니터링하는데 중점을 두었다. 이를 위해 이슈 키워드 분석과 연관어 분석, 감성 분석 등을 수행했고, 이슈 간 관계 분석을 위한 네트워크 차트를 만들었다. 다양한 데이터와 차트를 통하여 각 주제별 양성평등 정책 이슈를 제공하고, 이를 통해 양성평등 정책연구를 지원할 수 있는 기반을 마련하였다.
목차
제1장 서론제1절 연구 목적 및 추진전략
1. 연구 배경 및 목적
2. 연구 내용
제2절 연구 차별성과 추진 체계
1. 선행연구와 본 연구의 차별성
2. 연구 추진 체계
제2장 지역별 ICT 고용 전망모형 개발 고도화
제1절 연구 배경 및 필요성
1. 연구 배경
2. 연구 필요성
3. 연구 목적
제2절 고도화 방향 및 연구의 구조
제3절 비정형 데이터 기반 지수들의 비교 및 특징
1. 뉴스 데이터 기반 지수들의 특징 비교
2. ICT 고용지수
제4절 모형의 확장 및 전망 고도화
1. 모형의 설계
2. 표본 내 예측 및 평가
제5절 산업 비교: 제조업과 ICT 제조업
1. 제조업(C)의 지역별 고용 특징
2. ICT 제조업(C)의 지역별 고용 특징
3. 모형의 설계 및 표본 내 전망 결과
제6절 지역별 ICT 단기 고용 전망
1. 전망치 결합
2. 단기전망 및 지역별 비교
제7절 결론 및 정책 제언
제3장 인구변화에 대응한 지속가능한 양성평등정책 분야 이슈발굴 모형 고도화
제1절 서론
1. 연구목적
2. 연구방법
제2절 1차연도 개발모형 성과 및 개선사항
1. 개발 모형 요약 및 성과
가. 개발모형 개요
나. 개발모형 성과 분석
2. 개발 모형 개선사항 진단
3. 시스템 연계 방안
제3절 양성평등정책 이슈발굴 모형 개발 및 고도화
1. 분석방법
가. 이슈 모니터링 모형
나. 정책수요 예측 모형
다. 시각화 도구
2. 분석영역 및 키워드 재구성
3. 분석자료
가. 자료수집
나. 데이터 전처리
4. 데이터 수집 및 분류 결과
가. 분석자료 특성
제4절 이슈 모니터링 및 미래예측 분석
1. 이슈 모니터링 분석
가. 일가정 양립
나. 노인 돌봄
다. 성평등 노동환경
라. 다양한 가족
마. 성재생산 권리
바. 분석결과 종합 및 적정성 검토
2. 정책수요 예측 분석
가. 뉴스기사 대상 DMR 결과
나. 학술자료 대상 DMR 결과
다. DMR 분석결과 종합 및 적정성 평가
3. 분석결과 시각화
가. 워드 클라우드 분석
4. 개발모형 시스템 연계
가. 개발모형 시스템 연계 결과
제5절 결론 및 정책제언
1. 연구 개요 및 성과
2. 정책 제언
가. 한계 및 개선사항
나. 모형 고도화 방안
제4장 데이터 표준화에 관한 연구
제1절 서론
1. 연구 배경
2. 연구 목적
3. 연구 범위
제2절 선행연구 및 사례
1. 연구데이터 관련 연구들
2. 데이터 표준화 관련 연구들
3. 국가연구데이터플랫폼(DataON) 구축·운영 사례
4. 마이크로데이터 통합서비스(MDIS) 사례
제3절 표준화와 데이터 표준화
1. 표준화 정의
2. 데이터 표준화
3. 데이터 표준화 대상과 절차
제4절 연구데이터 현황분석
1. 연구데이터 정의
2. 연구데이터 분류
가. 데이터를 생산하는 방법에 따른 분류
나. 데이터를 생산하는 절차에 따른 분류
다. 데이터의 수집 주기에 따른 분류
라. 데이터의 수집 대상에 따른 분류
3. 연구데이터 특성
가. 조사계획 수립 단계의 특성
나. 조사표 접수·입력·오류식별·수정 단계
다. 집계·분석·활용 단계의 특성
라. 연구데이터 자체의 특성
4. 연구데이터 현황분석
가. 개요
나. 보유·수요 데이터 현황조사
다. 보유데이터 현황분석
라. 수요데이터 현황분석
제5절 공동 활용 대상 연구데이터 선정을 위한 기준(안)
1. 공동 활용의 개념
2. 공동 활용 대상 연구데이터 선정 기준(안)
가. 사전 판단기준
나. 적합성 판단기준(1차)
다. 제외 대상 판단기준(2차)
제6절 연구데이터의 공동 활용 방안들
1. 공동 활용을 위한 고려사항
가. 공동 활용 대상 데이터 환경
나. 데이터 관련 이해관계자(생산자·이용자·관리자) 환경
다. 법·제도적 환경
2. 공동 활용 방법과 최적(안)
가. 공동 활용 대상 연구데이터(60건)의 소재 정보에 대한 “메타데이터 형식 표준(안)”
나. 연구데이터의 저장·관리·제공에 관한 방법
3. 관계자의 역할과 책임
4. 소결
제7절 공동 활용 대상 연구데이터의 관리방안
1. 관리를 위한 연구데이터의 특성 분석
가. 마이크로데이터와 메타데이터(관리 대상)
나. 분류코드표의 개정 이력 관리
다. 마이크로데이터의 논리적 구조: 3차원 구조(3-Dimensional Data)
2. 연구데이터 특성을 고려한 데이터 관리 참조모델
가. 일반 데이터의 참조모델
나. 통계적 속성(조사) 연구데이터 관리를 위한 참조모델
3. 연구데이터 관리를 위한 데이터 거버넌스(Data Governance)의 도입
가. 데이터 거버넌스와 프레임워크(Framework)
나. 연구데이터의 공동 활용을 위한 데이터 관리방안
제8절 결론 및 향후 과제
1. 결론
가, 공동 활용 대상 연구데이터 선정 방법의 연구
나. 공동 활용 서비스 조직·방법·절차 등에 관한 연구
다. 연구데이터 관리 방안에 관한 연구
2. 향후 과제
제5장 NDIS 플랫폼 연계 연구
제1절 개요
1. 과제 정의
2. 과제 배경 및 목표
3. ICT 고용지수 모델 탑재 프로세스
제2절 ICT 고용지수 모델-형태소 분석기 탑재
1. Mecab
제3절 ICT 고용지수 모델-모듈화
1. 배치 모듈 프로세스
2. ICT 고용지수 디렉터리 구조
제4절 ICT 고용지수 모델-서비스 고도화
1. 속도 개선
2. 월 배치 프로세스
3. ICT 고용지수 서비스
제5절 양성평등 정책분야 이슈발굴 모델-데이터 수집 및 전처리
1. 솔루션 기능
2. 데이터 수집 및 전처리
제6절 양성평등 정책분야 이슈발굴 모델-분석 모델 개발
1. 월별 이슈키워드
2. 네트워크 차트
제7절 양성평등 정책분야 이슈발굴 모델-분석모델 결과
1. 월별 이슈키워드
제6장 결론
제1절 연구 결과
제2절 향후 과제