정보통신정책연구원

스캐터랩社에서 출시한 AI 챗봇 ‘이루다’는 20살 여자 대학생을 페르소나(Persona)로 채택한 인공지능 챗봇의 이름이다. 일상적인 대화를 주고받는 것이 가능한 오픈-도메인 챗봇(Open domain chatbot)으로 탄생한 이루다는 2020년 12월 출시 후 두 달도 지나지 않아 사용자들에게 욕설을 비롯해 인종·성차별주의, 극우적 발언을 쏟아냄으로써 사회적 가치를 훼손할 수 있다는 우려와 함께 다양한 층위의 논란을 점화시켰다. 더불어 스캐터랩社 측이 대화형 챗봇 ‘이루다’가 학습하는 과정에서 사용한 카카오톡 대화 데이터를 깃허브(Github)에 공개함으로써 개인정보 침해와 관련된 또 다른 문제점을 드러냈다. 이에 본 고는 이른바 ‘이루다 사태’를 데이터 과학의 시선에서 들여다보고자 한다. 우선 검색모델(Retrieval-based model)로서의 AI 챗봇 ‘이루다’가 만들어지기까지 사용된 대화용 데이터의 수집과 개인정보 보호를 위한 비정형 데이터 전 처리의 중요성을 살피고자 한다. 더불어, 이루다 학습에 사용된 알고리즘 및 거대모델에 내재된 개인정보 유출가능성의 문제를 진단해 본다.

{toc}

검색범위

검색기간

검색항목

정렬순서

KISDI AI Outlook

한국형 GPT-2를 이루지 못한 AI 챗봇 “이루다”

요약

목차

동일권호의 다른 논문

대표저자의 다른 논문

동일 주제별 연구자료