요약
스캐터랩社에서 출시한 AI 챗봇 ‘이루다’는 20살 여자 대학생을 페르소나(Persona)로 채택한 인공지능 챗봇의 이름이다. 일상적인 대화를 주고받는 것이 가능한 오픈-도메인 챗봇(Open domain chatbot)으로 탄생한 이루다는 2020년 12월 출시 후 두 달도 지나지 않아 사용자들에게 욕설을 비롯해 인종·성차별주의, 극우적 발언을 쏟아냄으로써 사회적 가치를 훼손할 수 있다는 우려와 함께 다양한 층위의 논란을 점화시켰다. 더불어 스캐터랩社 측이 대화형 챗봇 ‘이루다’가 학습하는 과정에서 사용한 카카오톡 대화 데이터를 깃허브(Github)에 공개함으로써 개인정보 침해와 관련된 또 다른 문제점을 드러냈다. 이에 본 고는 이른바 ‘이루다 사태’를 데이터 과학의 시선에서 들여다보고자 한다. 우선 검색모델(Retrieval-based model)로서의 AI 챗봇 ‘이루다’가 만들어지기까지 사용된 대화용 데이터의 수집과 개인정보 보호를 위한 비정형 데이터 전 처리의 중요성을 살피고자 한다. 더불어, 이루다 학습에 사용된 알고리즘 및 거대모델에 내재된 개인정보 유출가능성의 문제를 진단해 본다.
목차
{toc}