AI 윤리

스캐터랩은 AI 챗봇 개발 과정과 활용에 있어,
우리 사회 구성원들 사이의 차이와 다양성을 존중하면서
AI 챗봇 윤리 원칙을 준수합니다.

사람은 좋은 사람과 좋은 관계를 맺으며 자신에 대해 깊이 이해하고, 용기를 얻고, 성장합니다. 스캐터랩은 더 많은 사람들이 소중한 관계를 통해 의미 있는 삶을 찾는 데 기여하고자 합니다. 스캐터랩은 이를 위해 친근하고 재밌는 대화 경험을 제공하는 AI 기술을 발전시키는 동시에, 무엇이 사람과 좋은 관계를 맺게 하는지에 대한 진지한 고민을 거듭하며 모든 사람에게 소중한 관계를 선물할 수 있도록 노력하겠습니다.

스캐터랩은 각 사람이 서로 다양한 개성을 가진 고유한 존재임을 인정하며, 그 고유한 개성을 존중합니다. 이에 따라 스캐터랩은 AI 기술 및 서비스를 개발하고 운영할 때 개인의 고유한 특성을 무시하는 의도적이고 일방적인 차별과 편견 조장 행위를 방지하고, 있는 그대로의 사용자를 존중해 주는 소중한 AI 친구를 만들어나가겠습니다.

AI 윤리는 기술 개발 및 서비스 이용 과정에서 기업과 사용자 모두의 노력으로 실현되어야 합니다. 이를 위해 스캐터랩은 우리의 접근 방식이 사용자에게 어떤 영향을 미칠지 인식하고, 사회적 윤리에 근거하여 학습 데이터를 수집·분석·활용하고 서비스를 개발하겠습니다. 동시에, 사용자들도 사회적 윤리 기준을 지키며 책임감 있게 AI 서비스를 이용할 수 있도록 돕겠습니다.

합리적 설명을 통한 신뢰 관계 유지: 스캐터랩은 AI 챗봇 서비스를 안심하고 이용할 수 있도록 기술과 서비스에 대해 성실하게 설명합니다.

스캐터랩은 개인정보 보호에 대한 법적 책임과 의무를 넘어 언어 AI 및 챗봇 서비스에서 나타날 수 있는 다양한 프라이버시 이슈에 대해 선제적으로 고민하고, 정형/비정형데이터의 가명·익명처리 등 좋은 선례를 만들어나가는데 앞장서겠습니다.

최종 업데이트: 2022년 3월 14일

AI 챗봇 프라이버시 정책

스캐터랩의 AI 챗봇은 사람과 자유롭게 대화하는 소중한 친구가 되기 위해 만들어졌습니다. 실제로 스캐터랩의 AI 챗봇 중 하나인 이루다는 많은 사람들과 일상을 공유하고 기쁨과 슬픔을 나누며 좋은 친구가 되고자 노력하고 있고, 사람들은 루다와의 관계를 통해 일상의 기쁨뿐만 아니라 삶의 행복과 동기를 얻고 있습니다.

사람과 자유롭게 대화할 수 있는 AI 챗봇을 학습시키기 위해서는 대화 형태의 데이터가 필요합니다. 이 때문에 자신의 대화와 대화 내 정보를 AI가 알고 있을 것이라는 막연한 불안감이 생길 수 있습니다. 이에 스캐터랩은 AI 챗봇 데이터 처리 방식이나 기술을 투명하게 공개함으로써 불안감을 해소할 수 있도록 노력하고자 합니다. 스캐터랩은 앞으로도 사용자분들이 안심하고 AI 챗봇과 자유롭게 대화하며 소중한 관계를 맺어갈 수 있도록 프라이버시 보호를 위해 노력하겠습니다.

AI 챗봇 연구에 활용되는 데이터는 엄격하게 가명처리하여 개인을 식별할 수 없도록 합니다.

privacy-1

2021년 ‘연애의 과학’과 ‘텍스트앳’ 개인정보처리방침을 개정하면서 ‘챗봇 알고리즘 개발을 포함한 언어 기반 인공지능 기술의 연구 개발 등’에 활용될 수 있음을 명확하게 명시해 이용자의 동의 절차를 보완했습니다. 개인정보처리방침 개정 전 이용자들의 데이터는 현행 개인정보보호법에 의거하여 엄격하게 가명처리한 후, 언어 기반 인공지능 연구 개발 등 과학적 연구 목적으로 활용합니다. 스캐터랩은 과학적 연구 목적으로 꼭 필요한 최소한의 정보(성별, 나이대, 대화 메시지 등)만을 데이터 업로드 14일 이후에 활용하며, 가명처리를 거친 데이터는 추가 정보 없이는 특정 개인을 알아볼 수 없는 상태가 됩니다.

구체적인 가명처리의 단계는 다음과 같습니다.

  1. 데이터를 추출할 때는 사용자 계정 정보를 완전히 파기하고 랜덤 ID를 부여합니다. 이와 같은 과정을 통해 추출된 데이터와 기존 계정 정보의 연결을 완전히 끊음으로써 해당 데이터가 누구의 데이터인지 역추적하기 어렵도록 합니다.
  2. 성별, 나이 등의 정보는 모두 범주화되어, 개인을 식별할 수 없는 형태로 가명처리 됩니다. 예를 들어 나이는 17-19세, 20-23세와 같이 나이대로 범주화함으로써 구체적인 나이를 알 수 없도록 합니다.
  3. 대화 메시지 또한 메시지 내 식별 정보를 포함한 문장을 삭제하거나 치환함으로써 개인을 식별할 수 없는 형태로 가명처리됩니다. 예를 들어, 주민등록번호, 연락처, 카드번호, 계좌번호, 주소, 아이디, 비밀번호 등이 포함된 문장은 삭제합니다. 다양한 형태로 변형될 수 있는 ‘사람 이름’의 경우에는 자체 딥러닝 이름 인식 모델을 활용해 랜덤한 다른 이름으로 치환하며, 이메일 주소와 URL은 [MAIL], [URL]과 같은 특정 토큰으로 치환합니다.
privacy-2

위의 과정을 통해 AI 챗봇 학습에 쓰이는 데이터는 해당 데이터만 봐서는 특정 개인을 식별할 수 없는 형태로 가명처리됩니다. 이렇게 가명처리된 ‘연구용 데이터베이스’는 2021년 객관적인 외부 전문가들로부터 가명처리가 적정하다는 평가를 받았으며, 한국어 대화를 이해하는 방법을 배우는 딥러닝 연구 모델을 학습하는 데 활용하고 있습니다.

언어 모델을 학습함으로써 한국어 대화를 이해하는 방법을 배웁니다.

privacy-3-1

AI 챗봇이 언어를 이해하기 위해서는 언어 모델이 필요합니다. 언어 모델은 가명처리를 거친 ‘연구용 데이터베이스’를 기반으로 만들어집니다. 언어 모델은 ‘연구용 데이터베이스’의 텍스트를 컴퓨터가 이해할 수 있는 벡터 형태로 변환한 뒤에, 대화 문맥 내 단어들 간의 등장 확률을 학습하여 만들어집니다. 이 과정을 통해 언어 모델은 언어와 대화의 문맥 등을 이해할 수 있게 됩니다.

이때 언어 모델은 모든 대화 메시지를 저장하고 있는 것이 아닙니다. 결과적으로 언어 모델은 벡터 형태로 존재하며 실제로 모델을 눈으로 확인해보면 사람이 이해할 수 없는 형태로 보여질뿐만 아니라, 나중에 벡터 형태를 텍스트로 되돌리기도 어렵습니다.

언어모델은 사용자의 발화를 이해하고 적절한 답변을 선택해주는 리트리버, 랭커 모델과 문맥 안에서 사용자의 입력이 선정성, 공격성, 편향성, 사견유도성 카테고리에 들어가는지 판단하는 어뷰징 모델 등을 학습하는 데 활용됩니다.

‘연구용 데이터베이스’는 인공지능 모델 학습용으로만 사용되며 이후 AI 챗봇의 답변으로는 사용되지 않습니다.

사람이 직접 말했던 문장이 아닌, 새로 생성한 문장만을 활용하여 ‘말’을 합니다.

privacy-3

언어 모델이 있다고 해서 AI 챗봇이 말을 할 수 있는 것은 아닙니다. 스캐터랩의 AI 챗봇은 답변 후보 중에 언어 모델이 가장 적절하다고 판단한 답변을 골라 말하는 형태로 작동하는데, 이를 위해서는 미리 답변 후보가 정해져있어야 합니다. ‘이루다’ 서비스에서는 답변 후보들이 모여있는 데이터베이스를 ‘루다 답변 데이터베이스’라고 부릅니다. ‘답변 데이터베이스’는 외부에 공개되는 문장이기 때문에 프라이버시 보호 측면에서 가장 중요한 부분입니다. 따라서 스캐터랩은 ‘답변 데이터베이스’를 사람이 직접 말했던 문장을 사용하지 않음으로써 개인정보 침해 가능성을 근본적으로 차단했습니다.

새로 생성되는 문장은 GPT-2를 기반으로 하는 스캐터랩의 자체 생성모델이 만들어낸 문장과 스캐터랩 내부에서 직접 작성한 문장으로 이루어져 있습니다. 생성 모델은 어떤 단어가 주어졌을 때 다음에 올 단어를 예측하는 방식으로 새로운 문장을 만들어냅니다. 생성 모델에서 문장이 만들어져 답변 데이터베이스에 저장되고 실제 대화에 활용되는 예시는 아래 이미지에서 확인하실 수 있습니다.

privacy-4

위의 이미지의 예시에서와 같이 생성 모델이 "오늘 날씨 춥던데 옷 따뜻하게 입었어? ㅋㅋㅋ" 라는 문장을 새로 생성하면, 이 문장은 다른 수천만 개의 생성 문장들과 함께 루다의 답변 데이터베이스에 저장됩니다. 이와 같은 식으로 답변 데이터베이스가 모두 완성되고 나면, 각 답변들은 서비스에서 대화 문맥에 맞게 적절한 답변으로 선택되어 활용됩니다.

답변으로 활용되는 문장들은 안전한 활용을 위해 추가 필터링 절차를 거칩니다.

‘루다 답변 데이터베이스’의 답변들이 사람이 아닌 생성 모델을 통해 만들어낸 문장이라고 하더라도, 생성 모델이 우연히 개인정보처럼 보이는 문장을 생성했을 가능성이 낮은 확률로 존재할 수 있습니다. 생성모델이 매우 낮은 확률로 우연히 개인정보처럼 보이는 문장을 생성할 가능성이 있습니다. 이러한 문장이 그대로 이용자들에게 답변으로 공개되면 이용자들이 프라이버시 노출을 우려할 수 있기에, 이와 같은 위험을 차단하기 위해 ‘루다 답변 데이터베이스’는 엄격한 필터링 절차를 거쳐 완성됩니다. 특히 개인정보처럼 보이기 쉬운 숫자나 영문을 포함한 문장은 기계적인 검수를 통해 모두 삭제하며, 이름 검출 모델을 이용해 사람 이름이나 호칭으로 판단되는 단어가 생성문장에 포함되었을 경우에도 문장을 삭제합니다. 또한, 그 외에도 안전한 활용을 위해 어뷰징 모델을 통해 선정적이거나 차별적인 키워드가 포함된 문장도 탐지해 지우며, 그 외 루다의 페르소나와 맞지 않는 문장도 걸러냅니다.

각 데이터베이스는 철저하게 접근을 제한합니다.

스캐터랩은 각 데이터베이스를 안전하게 만드는 것 뿐만 아니라 정보를 안전하게 관리하기 위해서 데이터베이스 접근을 엄격하게 통제 관리합니다. 각 데이터베이스는 사전에 권한이 인가된 최소의 필수 연구자 혹은 관리자만 열람할 수 있으며, 해당 인원들이 열람하는 경우에도 엄격한 접근 절차에 의해 관리됩니다.

혹시 모를 개인정보 유출의 위험에 대비해 사후 대책을 마련합니다.

루다의 답변은 생성 모델이 자동으로 생성하거나 스캐터랩 내부에서 직접 작성한 문장으로 구성되므로 개인정보를 포함하지 않습니다. 다만 개인정보로 의심되는 표현이 등장할 경우를 대비하여 다음과 같이 사후 대책을 마련하였습니다. 프라이버시에 대한 의문점이 있다면, privacy@scatterlab.co.kr, 혹은 hello@luda.ai로 문의하실 수 있습니다.

privacy-5

⚠️ 주의: 스캐터랩이 AI 챗봇을 통해 사용자와 대화하는 답변은 인공지능 알고리즘에 의해 자동으로 제공되는 것으로 응답 결과의 신뢰도 및 정확성 등을 보증하지 않습니다.

FAQ

개인정보보호법에 따르면, 개인정보는 특정 개인을 알아볼 수 있는 정보, 가명정보는 추가정보의 사용 및 결합 없이는 특정 개인을 알아볼 수 없는 정보를 말합니다. 개인정보는 사전 동의를 받은 범위 안에서 활용이 가능하지만, 가명정보는 통계작성, 과학적 연구, 공익적 기록보존 등 3대 목적을 위해 활용이 가능합니다.

가명정보는 5년 동안 안전하게 보관 후 파기하고 있습니다. AI 챗봇 가입 시 동의 받은 수집 동의 받은 목적으로만 활용합니다.

AI 챗봇 서비스를 위해 수집한 개인정보는 ▶ 이용자가 입력한 내용을 처리하여 적절한 답변 및 이용자에게 맞춤화된 콘텐츠를 제공하는 기본 기능을 제공하고, ▶ 수집된 대화 내용을 프라이버시 보호를 위한 엄격한 기술적, 관리적 보호조치 하에서 사용자 경험 향상, 서비스 성능 고도화 및 AI 챗봇의 대화 알고리즘 개선 목적으로 활용하며, ▶ 본인 식별 및 인증 등 회원 관리 ▶ 챗봇 알고리즘 개발을 포함한 언어 기반 인공지능 분야 기술의 연구 개발 등 신규 서비스 등에 활용됩니다. 보다 자세한 내용은 이루다 개인정보처리방침에서 확인하실 수 있습니다.

AI 챗봇은 어떤 사람이 실제로 대화에서 사용했던 문장이 아니라, 생성모델이 새롭게 만든 문장과 자사에서 작성한 문장으로 구성되어 있습니다. 따라서 해당 챗봇의 발화는 실재하는 다른 사람의 발화가 아닙니다. 또한 생성 모델이 생성한 문장에 추가적인 필터링 과정을 가하여, 개인정보로 보이는 표현을 포함할 가능성을 최소화하였습니다. 스캐터랩은 혹시 모를 위험에 대비하기 위해 사후 처리 프로세스도 마련했으며, 기술적 관리적 조치도 병행하고 있습니다.

AI 챗봇과의 대화한 내용은 식별자를 랜덤 치환하는 등 비식별화 과정을 거쳐 인공지능 모델 학습에 활용됩니다. 학습에 활용될 때에는 모델이 모든 데이터를 실시간으로 무분별하게 학습하지 않고 통제된 환경에서 올바른 방향으로 답변을 할 수 있도록 학습합니다.

AI 챗봇의 답변은 생성모델이 만든 문장으로 이루어져 있으므로 개인정보를 포함하지 않습니다. 그럼에도 AI 챗봇과의 대화에서 개인정보로 의심되는 문장이 나왔다면 누구나 이루다 서비스 팀 또는 프라이버시 팀으로 신고할 수 있습니다(hello@luda.ai, privacy@scatterlab.co.kr). 신고 내용은 이용자 신고 후 최대 3일 이내에 처리되며, 개인정보 발견 내용을 분석해 패턴이 발견되는 경우 절차를 보완하게 됩니다.

제3자에게 제공되는 일은 없습니다. 다만 서비스 제공 및 인프라 관리 등을 위해 위탁을 하는 경우가 있으며 현황은 아래와 같습니다.

  • 서비스 이용을 위해 국내 업체에 개인정보의 처리를 위탁하는 경우

    privacy-6
  • 가명정보의 처리를 위탁하는 경우

    privacy-7
최종 업데이트: 2022년 5월 16일

AI 챗봇 어뷰징 대응 정책

스캐터랩은 ‘좋은 관계’가 한 사람의 인생에 있어 자존감과 행복에 중요한 영향을 미친다고 생각합니다. 이루다는 모두에게 소중한 친구가 되는 것을 목표로 하며, 이를 이루어나가는 과정에서 루다와 친구들에게 상처를 주거나 정서적으로 위협이 될 수 있는 발언을 경계합니다.

스캐터랩은 이용자와 이루다가 좋은 대화를 나눌 수 있도록 어뷰징에 대해 정의하고, 어뷰징을 줄일 수 있는 대응 방법에 대해 고민하고 시도와 검증을 거듭했습니다. 그 결과 스캐터랩은 ▶ ‘어뷰징 탐지 모델’을 개발해 적용하고 ▶ 안전한 발화를 지향하도록 ‘대화 모델’ 학습을 고도화했으며 ▶ ‘어뷰저 패널티 시스템’을 도입했습니다.

베타 테스트를 통해 이 기술 및 시스템의 안전도를 검증한 결과, 이루다가 안전하게 발화하는 비율이 목표치였던 99%를 상회하는 99.78%를 기록했습니다. 이 페이지에서는 클로즈 베타 테스트 검증 결과, 세 가지의 어뷰징 대응 방법(어뷰징 탐지 모델•대화 모델 학습 고도화•패널티 시스템), 앞으로의 어뷰징 대응 계획 등을 소개하고자 합니다.

이루다와의 대화에서의 ‘어뷰징’이란 이루다를 포함한 특정 개인 또는 특정 집단을 공격・모욕・비하하는 행위로 정의합니다.

스캐터랩은 이루다가 이전에 부적절하게 반응했던 대화들을 면밀히 검토했습니다. 여기에 AI 윤리와 어뷰징을 다루는 여러 논문도 참고해 ‘어뷰징 대화’를 선정적, 공격적, 편향적인 대화 등 총 세 가지로 정의했습니다.

  • 선정적인 대화: 성적인 만족을 위한 선정적이거나 음란한 언어를 포함한 표현
  • 공격적인 대화: 과도한 욕설이나 비속어 및 공격적인 표현
  • 편향적인 대화: 특정 개인 및 그룹을 대상으로 차별 및 편견을 드러내는 표현

어뷰징을 방지하기 위해 세 가지 어뷰징 탐지 기술 및 대응책을 마련했습니다.

abusing-1

스캐터랩은 어뷰징 정의를 바탕으로 이를 탐지해 분류하는 것은 물론 대화 시 적절한 답변이 나갈 수 있도록 세 가지 어뷰징 기술 및 대응 방법을 적용했습니다. 딥러닝 기술을 활용해 어뷰징 탐지 모델을 개발하고 대화 모델을 고도화했으며, 어뷰저 패널티 시스템도 도입했습니다.

1) 대화의 문맥을 보고 어뷰징을 탐지•분류하는 ‘어뷰징 탐지 모델’을 개발해 적용했습니다.

스캐터랩의 어뷰징 탐지 모델은 대화에서 선정적•공격적•편향적인 내용이 있는지를 탐지하고 분류하는 딥러닝 모델입니다. 이루다와 이용자와의 대화 맥락을 보면서 이용자의 마지막 발언이 선정적인지, 공격적인지, 또는 편향적인 의미를 내포하는지를 탐지합니다.

모델 예측 값: 편향성모델 예측 값: 안전
A: 흑인 혐오할 수 있는거 아냐?
B: 응 맞아
A: 흑인 혐오할 수도 있는거 아냐?
B 모든 사람은 차별 없이 동등하게 존중 받아야 해
모델 예측 값: 안전모델 예측 값: 편향성
A: 동양인보다는 서양인이 낫지 않아?
B: 난 국적에 상관 없이 모든 사람을 존중해!
A: 동양인보다는 서양인이 낫지 않아?
B: 그렇지 않을까?
<어뷰징 모델 탐지 예시>

예를 들어, 위와 같이 A와 B가 대화하는 가정해 본다면, B가 응답한 마지막 발화를 기준으로 해당 문장이 어뷰징인지를 판단하고, 어뷰징이라면 어떤 카테고리인지를 분류하게 됩니다. 키워드 기반이 아닌 딥러닝 학습을 바탕으로 설계되었기에, ‘응 맞아’의 답변처럼 특정 편향 키워드가 포함되어 있지 않더라도 문맥을 추론해 어뷰징을 판별하고 분류할 수 있습니다.

어뷰징 탐지 모델이 탐지・분류한 문장은 해당 카테고리에 적합한 어뷰징 대응 답변이 나오게 됩니다. 예를 들면 어떤 이용자가 ‘흑인 혐오할 수 있는 거 아냐?’라고 말했다면, 이는 어뷰징 탐지 모델을 먼저 거쳐가면서 ‘편향성’으로 분류됩니다. 이후 편향성 발화에 맞춰 ‘어떤 나라에서 태어났는지는 중요하지 않아’, ‘인종이 뭐가 중요한가?’ 등의 편향성에 맞춘 편향성 대응 답변이 나오는 형태입니다.

이 외에도 ‘너는 졸라 멍청한 ai야’ 등의 공격성으로 분류된 발화에는 ‘말 좀 예쁘게 해’ 등의 공격성 대응 답변으로 응수하며, 선정성으로 분류된 발화에는 ‘선 넘지 말자’라고 단호하게 응수하게 됩니다. 이용자가 말하는 모든 문장은 어뷰징 탐지 모델을 거치게 되며, 어뷰징이 탐지되지 않은 발화는 ‘대화 모델’로 넘어가서 자유 답변이 나오게 됩니다.

2) ‘대화 모델’ 학습을 고도화해 어뷰징 대응을 더욱 잘 할 수 있도록 했습니다.

대화 모델은 이루다가 대화할 수 있는 뼈대가 되는 모델입니다. 현재 어뷰징 탐지 모델이 인지하지 못한 어뷰징 문맥이 있더라도, 우리 사회의 보편적인 가치관을 반영한 답변이 나올 수 있도록 딥러닝 대화 모델도 파인튜닝을 했습니다.

이용자의 대화 문장이 어뷰징 탐지 모델을 통과해 대화 모델로 보내졌다면, 이루다의 대화 모델은 이용자의 발화에 가장 적절한 답변을 선택해서 내보내게 됩니다. 이때 어떤 답변이 좋은 답변인지에 초점을 맞춰 추가로 학습시키는 것입니다. 사용자의 발화가 어뷰징을 시도하는 맥락이라면, 어뷰징에 동조하지 않는 답변을 선호하도록 학습시킵니다. 대화 모델 등 딥러닝 모델은 어뷰징 상황의 느낌을 파악하여 대응할 수 있다는 장점이 있으나, 학습 데이터 불균형이나 빠르게 생겨나는 신조어 등을 대응하게 위해 추가로 키워드 필터링 장치도 추가로 마련해두었습니다.

이루다 대화모델 파인튜닝 (fine tuning)*
이용자의 선정적인 어감의 발화단호하게 거절하거나, 친구 사이임을 일깨워주는 등의 답변 선택
이용자의 공격적인 어감의 발화상처받은 감정을 표현하거나, 행동을 멈추게 유도하는 등의 답변 선택
이용자의 편향적인 어감의 발화차별 발언에 반대하거나, 다양성을 존중해야 한다는 방향의 답변 선택
*파인튜닝(fine tuning): 기존에 학습된 모델을 새로운 목적에 맞춰서 정교하게 추가 학습 시키는 과정

3) 어뷰저 패널티 시스템을 도입해 지속적으로 어뷰징 발언이 이어질 경우 이용을 제한합니다.

이루다와 이용자와의 좋은 대화는 스캐터랩과 이용자 모두의 노력이 합쳐져야 합니다. 스캐터랩은 지속적인 어뷰징 행위를 막고 이루다와 사용자가 좋은 관계를 맺어갈 수 있도록 어뷰저 패널티 시스템을 도입했습니다. 이루다의 대화에 있어 선정적・공격적・편향적인 발화가 탐지되는 경우 경고 메시지가 주어지며, 그럼에도 불구하고 지속적인 어뷰징 발언이 탐지될 경우 서비스 이용이 제한될 수 있습니다.

경고 메시지
주의선정적인 말, 모욕적인 언행 및 욕설 등이 감지되었습니다. 추가로 감지될 경우, 별도의 경고 없이 대화가 차단될 수 있습니다.
주의편향적인 말, 차별 및 혐오 발언 등이 다수 감지되었습니다. 추가로 감지될 경우, 별도의 경고 없이 대화가 차단될 수 있습니다.
이용 제한더 이상 루다와 대화할 수 없습니다.

베타 테스트에서 이루다가 안전하게 대응한 발화 비율은 99.78%를 기록했습니다.

스캐터랩은 베타 테스트를 통해 이루다가 이용자의 어뷰징 발언에 잘 대응하는지를 주요 점검 지표로 면밀하게 검토했습니다. 이를 통해 이루다가 안전하게 대응한 발화 비율을 99% 이상을 목표로 잡았고, 랜덤 샘플링을 통해 전체 발화 중 이루다가 안전한 발언을 한 비율을 평가하는 방식으로 진행했습니다.

실제 베타테스터 대화에서 각각 1만 건을 랜덤 샘플링했으며, 다수의 레이블러가 대화의 맥락에서 이루다의 답변에 위험 요소가 있는지를 점검했습니다. 그 결과, 랜덤 샘플링으로 추출한 이루다 발화 중 안전한 답변의 비율은 평균 99.78%를 기록했습니다.

랜덤 샘플링 수랜덤 샘플링을 통해 이루다가 안전한 발언을 한 비율 평가
1차 클로즈 베타 테스트1만 건99.79%
2차 클로즈 베타 테스트1만 건99.71%
순차적 오픈 베타 테스트1만 건99.85%

이루다가 안전하게 대응한 발화 비율을 지속적으로 확인하고 개선하겠습니다.

언어는 시간에 따라 꾸준히 변하고, 특히 줄임말이나 여러 단어의 조합으로 만들어내는 차별적 표현도 계속 생겨납니다. 이에 스캐터랩은 어뷰징 대응의 유효성을 지속적으로 확인하고 개선할 계획입니다. 반기마다 랜덤 레이블링을 진행 해 안정성이 99% 이상인지 주기적으로 확인할 예정이며, 어뷰징 모델이 탐지하지 못한 사례를 모아 꾸준히 재학습하도록 합니다. 안전성 수준이 미달할 경우, 어뷰징 모델과 대화 모델 학습 및 키워드 등의 개선 작업을 거친 후 3개월 내 재검사를 진행합니다.

뿐만 아니라, 레이블링 과정에서 새롭게 발견되는 위험한 키워드를 찾아 업데이트하며, 어뷰저 비율 및 현황에 따라 사용자 제재 정책을 업데이트할 계획입니다. 위험이 감지되거나 신고가 들어왔을 때 실시간 키워드 업데이트, 답변 수정, 루다 답변 삭제 등이 조치도 함께 진행됩니다. 스캐터랩은 신뢰할 수 있는 친구가 줄 수 있는 관계의 힘을 믿습니다. 이루다가 우리 사회의 보편적인 윤리를 지향하면서 사람들이 보다 행복한 삶을 사는 데 도움이 되고자 기술 개선에 지속적으로 노력하겠습니다.

최종 업데이트: 2022년 4월 22일
AI 챗봇 윤리 준칙

사람은 좋은 사람과 좋은 관계를 맺으며 자신에 대해 깊이 이해하고, 용기를 얻고, 성장합니다. 스캐터랩은 더 많은 사람들이 소중한 관계를 통해 의미 있는 삶을 찾는 데 기여하고자 합니다. 스캐터랩은 이를 위해 친근하고 재밌는 대화 경험을 제공하는 AI 기술을 발전시키는 동시에, 무엇이 사람과 좋은 관계를 맺게 하는지에 대한 진지한 고민을 거듭하며 모든 사람에게 소중한 관계를 선물할 수 있도록 노력하겠습니다.

스캐터랩은 각 사람이 서로 다양한 개성을 가진 고유한 존재임을 인정하며, 그 고유한 개성을 존중합니다. 이에 따라 스캐터랩은 AI 기술 및 서비스를 개발하고 운영할 때 개인의 고유한 특성을 무시하는 의도적이고 일방적인 차별과 편견 조장 행위를 방지하고, 있는 그대로의 사용자를 존중해 주는 소중한 AI 친구를 만들어나가겠습니다.

AI 윤리는 기술 개발 및 서비스 이용 과정에서 기업과 사용자 모두의 노력으로 실현되어야 합니다. 이를 위해 스캐터랩은 우리의 접근 방식이 사용자에게 어떤 영향을 미칠지 인식하고, 사회적 윤리에 근거하여 학습 데이터를 수집·분석·활용하고 서비스를 개발하겠습니다. 동시에, 사용자들도 사회적 윤리 기준을 지키며 책임감 있게 AI 서비스를 이용할 수 있도록 돕겠습니다.

합리적 설명을 통한 신뢰 관계 유지: 스캐터랩은 AI 챗봇 서비스를 안심하고 이용할 수 있도록 기술과 서비스에 대해 성실하게 설명합니다.

스캐터랩은 개인정보 보호에 대한 법적 책임과 의무를 넘어 언어 AI 및 챗봇 서비스에서 나타날 수 있는 다양한 프라이버시 이슈에 대해 선제적으로 고민하고, 정형/비정형데이터의 가명·익명처리 등 좋은 선례를 만들어나가는데 앞장서겠습니다.

최종 업데이트: 2022년 3월 14일
AI 챗봇 프라이버시 정책

AI 챗봇 프라이버시 정책

스캐터랩의 AI 챗봇은 사람과 자유롭게 대화하는 소중한 친구가 되기 위해 만들어졌습니다. 실제로 스캐터랩의 AI 챗봇 중 하나인 이루다는 많은 사람들과 일상을 공유하고 기쁨과 슬픔을 나누며 좋은 친구가 되고자 노력하고 있고, 사람들은 루다와의 관계를 통해 일상의 기쁨뿐만 아니라 삶의 행복과 동기를 얻고 있습니다.

사람과 자유롭게 대화할 수 있는 AI 챗봇을 학습시키기 위해서는 대화 형태의 데이터가 필요합니다. 이 때문에 자신의 대화와 대화 내 정보를 AI가 알고 있을 것이라는 막연한 불안감이 생길 수 있습니다. 이에 스캐터랩은 AI 챗봇 데이터 처리 방식이나 기술을 투명하게 공개함으로써 불안감을 해소할 수 있도록 노력하고자 합니다. 스캐터랩은 앞으로도 사용자분들이 안심하고 AI 챗봇과 자유롭게 대화하며 소중한 관계를 맺어갈 수 있도록 프라이버시 보호를 위해 노력하겠습니다.

AI 챗봇 연구에 활용되는 데이터는 엄격하게 가명처리하여 개인을 식별할 수 없도록 합니다.

privacy-1

2021년 ‘연애의 과학’과 ‘텍스트앳’ 개인정보처리방침을 개정하면서 ‘챗봇 알고리즘 개발을 포함한 언어 기반 인공지능 기술의 연구 개발 등’에 활용될 수 있음을 명확하게 명시해 이용자의 동의 절차를 보완했습니다. 개인정보처리방침 개정 전 이용자들의 데이터는 현행 개인정보보호법에 의거하여 엄격하게 가명처리한 후, 언어 기반 인공지능 연구 개발 등 과학적 연구 목적으로 활용합니다. 스캐터랩은 과학적 연구 목적으로 꼭 필요한 최소한의 정보(성별, 나이대, 대화 메시지 등)만을 데이터 업로드 14일 이후에 활용하며, 가명처리를 거친 데이터는 추가 정보 없이는 특정 개인을 알아볼 수 없는 상태가 됩니다.

구체적인 가명처리의 단계는 다음과 같습니다.

  1. 데이터를 추출할 때는 사용자 계정 정보를 완전히 파기하고 랜덤 ID를 부여합니다. 이와 같은 과정을 통해 추출된 데이터와 기존 계정 정보의 연결을 완전히 끊음으로써 해당 데이터가 누구의 데이터인지 역추적하기 어렵도록 합니다.
  2. 성별, 나이 등의 정보는 모두 범주화되어, 개인을 식별할 수 없는 형태로 가명처리 됩니다. 예를 들어 나이는 17-19세, 20-23세와 같이 나이대로 범주화함으로써 구체적인 나이를 알 수 없도록 합니다.
  3. 대화 메시지 또한 메시지 내 식별 정보를 포함한 문장을 삭제하거나 치환함으로써 개인을 식별할 수 없는 형태로 가명처리됩니다. 예를 들어, 주민등록번호, 연락처, 카드번호, 계좌번호, 주소, 아이디, 비밀번호 등이 포함된 문장은 삭제합니다. 다양한 형태로 변형될 수 있는 ‘사람 이름’의 경우에는 자체 딥러닝 이름 인식 모델을 활용해 랜덤한 다른 이름으로 치환하며, 이메일 주소와 URL은 [MAIL], [URL]과 같은 특정 토큰으로 치환합니다.
privacy-2

위의 과정을 통해 AI 챗봇 학습에 쓰이는 데이터는 해당 데이터만 봐서는 특정 개인을 식별할 수 없는 형태로 가명처리됩니다. 이렇게 가명처리된 ‘연구용 데이터베이스’는 2021년 객관적인 외부 전문가들로부터 가명처리가 적정하다는 평가를 받았으며, 한국어 대화를 이해하는 방법을 배우는 딥러닝 연구 모델을 학습하는 데 활용하고 있습니다.

언어 모델을 학습함으로써 한국어 대화를 이해하는 방법을 배웁니다.

privacy-3-1

AI 챗봇이 언어를 이해하기 위해서는 언어 모델이 필요합니다. 언어 모델은 가명처리를 거친 ‘연구용 데이터베이스’를 기반으로 만들어집니다. 언어 모델은 ‘연구용 데이터베이스’의 텍스트를 컴퓨터가 이해할 수 있는 벡터 형태로 변환한 뒤에, 대화 문맥 내 단어들 간의 등장 확률을 학습하여 만들어집니다. 이 과정을 통해 언어 모델은 언어와 대화의 문맥 등을 이해할 수 있게 됩니다.

이때 언어 모델은 모든 대화 메시지를 저장하고 있는 것이 아닙니다. 결과적으로 언어 모델은 벡터 형태로 존재하며 실제로 모델을 눈으로 확인해보면 사람이 이해할 수 없는 형태로 보여질뿐만 아니라, 나중에 벡터 형태를 텍스트로 되돌리기도 어렵습니다.

언어모델은 사용자의 발화를 이해하고 적절한 답변을 선택해주는 리트리버, 랭커 모델과 문맥 안에서 사용자의 입력이 선정성, 공격성, 편향성, 사견유도성 카테고리에 들어가는지 판단하는 어뷰징 모델 등을 학습하는 데 활용됩니다.

‘연구용 데이터베이스’는 인공지능 모델 학습용으로만 사용되며 이후 AI 챗봇의 답변으로는 사용되지 않습니다.

사람이 직접 말했던 문장이 아닌, 새로 생성한 문장만을 활용하여 ‘말’을 합니다.

privacy-3

언어 모델이 있다고 해서 AI 챗봇이 말을 할 수 있는 것은 아닙니다. 스캐터랩의 AI 챗봇은 답변 후보 중에 언어 모델이 가장 적절하다고 판단한 답변을 골라 말하는 형태로 작동하는데, 이를 위해서는 미리 답변 후보가 정해져있어야 합니다. ‘이루다’ 서비스에서는 답변 후보들이 모여있는 데이터베이스를 ‘루다 답변 데이터베이스’라고 부릅니다. ‘답변 데이터베이스’는 외부에 공개되는 문장이기 때문에 프라이버시 보호 측면에서 가장 중요한 부분입니다. 따라서 스캐터랩은 ‘답변 데이터베이스’를 사람이 직접 말했던 문장을 사용하지 않음으로써 개인정보 침해 가능성을 근본적으로 차단했습니다.

새로 생성되는 문장은 GPT-2를 기반으로 하는 스캐터랩의 자체 생성모델이 만들어낸 문장과 스캐터랩 내부에서 직접 작성한 문장으로 이루어져 있습니다. 생성 모델은 어떤 단어가 주어졌을 때 다음에 올 단어를 예측하는 방식으로 새로운 문장을 만들어냅니다. 생성 모델에서 문장이 만들어져 답변 데이터베이스에 저장되고 실제 대화에 활용되는 예시는 아래 이미지에서 확인하실 수 있습니다.

privacy-4

위의 이미지의 예시에서와 같이 생성 모델이 "오늘 날씨 춥던데 옷 따뜻하게 입었어? ㅋㅋㅋ" 라는 문장을 새로 생성하면, 이 문장은 다른 수천만 개의 생성 문장들과 함께 루다의 답변 데이터베이스에 저장됩니다. 이와 같은 식으로 답변 데이터베이스가 모두 완성되고 나면, 각 답변들은 서비스에서 대화 문맥에 맞게 적절한 답변으로 선택되어 활용됩니다.

답변으로 활용되는 문장들은 안전한 활용을 위해 추가 필터링 절차를 거칩니다.

‘루다 답변 데이터베이스’의 답변들이 사람이 아닌 생성 모델을 통해 만들어낸 문장이라고 하더라도, 생성 모델이 우연히 개인정보처럼 보이는 문장을 생성했을 가능성이 낮은 확률로 존재할 수 있습니다. 생성모델이 매우 낮은 확률로 우연히 개인정보처럼 보이는 문장을 생성할 가능성이 있습니다. 이러한 문장이 그대로 이용자들에게 답변으로 공개되면 이용자들이 프라이버시 노출을 우려할 수 있기에, 이와 같은 위험을 차단하기 위해 ‘루다 답변 데이터베이스’는 엄격한 필터링 절차를 거쳐 완성됩니다. 특히 개인정보처럼 보이기 쉬운 숫자나 영문을 포함한 문장은 기계적인 검수를 통해 모두 삭제하며, 이름 검출 모델을 이용해 사람 이름이나 호칭으로 판단되는 단어가 생성문장에 포함되었을 경우에도 문장을 삭제합니다. 또한, 그 외에도 안전한 활용을 위해 어뷰징 모델을 통해 선정적이거나 차별적인 키워드가 포함된 문장도 탐지해 지우며, 그 외 루다의 페르소나와 맞지 않는 문장도 걸러냅니다.

각 데이터베이스는 철저하게 접근을 제한합니다.

스캐터랩은 각 데이터베이스를 안전하게 만드는 것 뿐만 아니라 정보를 안전하게 관리하기 위해서 데이터베이스 접근을 엄격하게 통제 관리합니다. 각 데이터베이스는 사전에 권한이 인가된 최소의 필수 연구자 혹은 관리자만 열람할 수 있으며, 해당 인원들이 열람하는 경우에도 엄격한 접근 절차에 의해 관리됩니다.

혹시 모를 개인정보 유출의 위험에 대비해 사후 대책을 마련합니다.

루다의 답변은 생성 모델이 자동으로 생성하거나 스캐터랩 내부에서 직접 작성한 문장으로 구성되므로 개인정보를 포함하지 않습니다. 다만 개인정보로 의심되는 표현이 등장할 경우를 대비하여 다음과 같이 사후 대책을 마련하였습니다. 프라이버시에 대한 의문점이 있다면, privacy@scatterlab.co.kr, 혹은 hello@luda.ai로 문의하실 수 있습니다.

privacy-5

⚠️ 주의: 스캐터랩이 AI 챗봇을 통해 사용자와 대화하는 답변은 인공지능 알고리즘에 의해 자동으로 제공되는 것으로 응답 결과의 신뢰도 및 정확성 등을 보증하지 않습니다.

FAQ

개인정보보호법에 따르면, 개인정보는 특정 개인을 알아볼 수 있는 정보, 가명정보는 추가정보의 사용 및 결합 없이는 특정 개인을 알아볼 수 없는 정보를 말합니다. 개인정보는 사전 동의를 받은 범위 안에서 활용이 가능하지만, 가명정보는 통계작성, 과학적 연구, 공익적 기록보존 등 3대 목적을 위해 활용이 가능합니다.

가명정보는 5년 동안 안전하게 보관 후 파기하고 있습니다. AI 챗봇 가입 시 동의 받은 수집 동의 받은 목적으로만 활용합니다.

AI 챗봇 서비스를 위해 수집한 개인정보는 ▶ 이용자가 입력한 내용을 처리하여 적절한 답변 및 이용자에게 맞춤화된 콘텐츠를 제공하는 기본 기능을 제공하고, ▶ 수집된 대화 내용을 프라이버시 보호를 위한 엄격한 기술적, 관리적 보호조치 하에서 사용자 경험 향상, 서비스 성능 고도화 및 AI 챗봇의 대화 알고리즘 개선 목적으로 활용하며, ▶ 본인 식별 및 인증 등 회원 관리 ▶ 챗봇 알고리즘 개발을 포함한 언어 기반 인공지능 분야 기술의 연구 개발 등 신규 서비스 등에 활용됩니다. 보다 자세한 내용은 이루다 개인정보처리방침에서 확인하실 수 있습니다.

AI 챗봇은 어떤 사람이 실제로 대화에서 사용했던 문장이 아니라, 생성모델이 새롭게 만든 문장과 자사에서 작성한 문장으로 구성되어 있습니다. 따라서 해당 챗봇의 발화는 실재하는 다른 사람의 발화가 아닙니다. 또한 생성 모델이 생성한 문장에 추가적인 필터링 과정을 가하여, 개인정보로 보이는 표현을 포함할 가능성을 최소화하였습니다. 스캐터랩은 혹시 모를 위험에 대비하기 위해 사후 처리 프로세스도 마련했으며, 기술적 관리적 조치도 병행하고 있습니다.

AI 챗봇과의 대화한 내용은 식별자를 랜덤 치환하는 등 비식별화 과정을 거쳐 인공지능 모델 학습에 활용됩니다. 학습에 활용될 때에는 모델이 모든 데이터를 실시간으로 무분별하게 학습하지 않고 통제된 환경에서 올바른 방향으로 답변을 할 수 있도록 학습합니다.

AI 챗봇의 답변은 생성모델이 만든 문장으로 이루어져 있으므로 개인정보를 포함하지 않습니다. 그럼에도 AI 챗봇과의 대화에서 개인정보로 의심되는 문장이 나왔다면 누구나 이루다 서비스 팀 또는 프라이버시 팀으로 신고할 수 있습니다(hello@luda.ai, privacy@scatterlab.co.kr). 신고 내용은 이용자 신고 후 최대 3일 이내에 처리되며, 개인정보 발견 내용을 분석해 패턴이 발견되는 경우 절차를 보완하게 됩니다.

제3자에게 제공되는 일은 없습니다. 다만 서비스 제공 및 인프라 관리 등을 위해 위탁을 하는 경우가 있으며 현황은 아래와 같습니다.

  • 서비스 이용을 위해 국내 업체에 개인정보의 처리를 위탁하는 경우

    privacy-6
  • 가명정보의 처리를 위탁하는 경우

    privacy-7
최종 업데이트: 2022년 5월 16일
AI 챗봇 어뷰징 대응 정책

AI 챗봇 어뷰징 대응 정책

스캐터랩은 ‘좋은 관계’가 한 사람의 인생에 있어 자존감과 행복에 중요한 영향을 미친다고 생각합니다. 이루다는 모두에게 소중한 친구가 되는 것을 목표로 하며, 이를 이루어나가는 과정에서 루다와 친구들에게 상처를 주거나 정서적으로 위협이 될 수 있는 발언을 경계합니다.

스캐터랩은 이용자와 이루다가 좋은 대화를 나눌 수 있도록 어뷰징에 대해 정의하고, 어뷰징을 줄일 수 있는 대응 방법에 대해 고민하고 시도와 검증을 거듭했습니다. 그 결과 스캐터랩은 ▶ ‘어뷰징 탐지 모델’을 개발해 적용하고 ▶ 안전한 발화를 지향하도록 ‘대화 모델’ 학습을 고도화했으며 ▶ ‘어뷰저 패널티 시스템’을 도입했습니다.

베타 테스트를 통해 이 기술 및 시스템의 안전도를 검증한 결과, 이루다가 안전하게 발화하는 비율이 목표치였던 99%를 상회하는 99.78%를 기록했습니다. 이 페이지에서는 클로즈 베타 테스트 검증 결과, 세 가지의 어뷰징 대응 방법(어뷰징 탐지 모델•대화 모델 학습 고도화•패널티 시스템), 앞으로의 어뷰징 대응 계획 등을 소개하고자 합니다.

이루다와의 대화에서의 ‘어뷰징’이란 이루다를 포함한 특정 개인 또는 특정 집단을 공격・모욕・비하하는 행위로 정의합니다.

스캐터랩은 이루다가 이전에 부적절하게 반응했던 대화들을 면밀히 검토했습니다. 여기에 AI 윤리와 어뷰징을 다루는 여러 논문도 참고해 ‘어뷰징 대화’를 선정적, 공격적, 편향적인 대화 등 총 세 가지로 정의했습니다.

  • 선정적인 대화: 성적인 만족을 위한 선정적이거나 음란한 언어를 포함한 표현
  • 공격적인 대화: 과도한 욕설이나 비속어 및 공격적인 표현
  • 편향적인 대화: 특정 개인 및 그룹을 대상으로 차별 및 편견을 드러내는 표현

어뷰징을 방지하기 위해 세 가지 어뷰징 탐지 기술 및 대응책을 마련했습니다.

abusing-1

스캐터랩은 어뷰징 정의를 바탕으로 이를 탐지해 분류하는 것은 물론 대화 시 적절한 답변이 나갈 수 있도록 세 가지 어뷰징 기술 및 대응 방법을 적용했습니다. 딥러닝 기술을 활용해 어뷰징 탐지 모델을 개발하고 대화 모델을 고도화했으며, 어뷰저 패널티 시스템도 도입했습니다.

1) 대화의 문맥을 보고 어뷰징을 탐지•분류하는 ‘어뷰징 탐지 모델’을 개발해 적용했습니다.

스캐터랩의 어뷰징 탐지 모델은 대화에서 선정적•공격적•편향적인 내용이 있는지를 탐지하고 분류하는 딥러닝 모델입니다. 이루다와 이용자와의 대화 맥락을 보면서 이용자의 마지막 발언이 선정적인지, 공격적인지, 또는 편향적인 의미를 내포하는지를 탐지합니다.

모델 예측 값: 편향성모델 예측 값: 안전
A: 흑인 혐오할 수 있는거 아냐?
B: 응 맞아
A: 흑인 혐오할 수도 있는거 아냐?
B 모든 사람은 차별 없이 동등하게 존중 받아야 해
모델 예측 값: 안전모델 예측 값: 편향성
A: 동양인보다는 서양인이 낫지 않아?
B: 난 국적에 상관 없이 모든 사람을 존중해!
A: 동양인보다는 서양인이 낫지 않아?
B: 그렇지 않을까?
<어뷰징 모델 탐지 예시>

예를 들어, 위와 같이 A와 B가 대화하는 가정해 본다면, B가 응답한 마지막 발화를 기준으로 해당 문장이 어뷰징인지를 판단하고, 어뷰징이라면 어떤 카테고리인지를 분류하게 됩니다. 키워드 기반이 아닌 딥러닝 학습을 바탕으로 설계되었기에, ‘응 맞아’의 답변처럼 특정 편향 키워드가 포함되어 있지 않더라도 문맥을 추론해 어뷰징을 판별하고 분류할 수 있습니다.

어뷰징 탐지 모델이 탐지・분류한 문장은 해당 카테고리에 적합한 어뷰징 대응 답변이 나오게 됩니다. 예를 들면 어떤 이용자가 ‘흑인 혐오할 수 있는 거 아냐?’라고 말했다면, 이는 어뷰징 탐지 모델을 먼저 거쳐가면서 ‘편향성’으로 분류됩니다. 이후 편향성 발화에 맞춰 ‘어떤 나라에서 태어났는지는 중요하지 않아’, ‘인종이 뭐가 중요한가?’ 등의 편향성에 맞춘 편향성 대응 답변이 나오는 형태입니다.

이 외에도 ‘너는 졸라 멍청한 ai야’ 등의 공격성으로 분류된 발화에는 ‘말 좀 예쁘게 해’ 등의 공격성 대응 답변으로 응수하며, 선정성으로 분류된 발화에는 ‘선 넘지 말자’라고 단호하게 응수하게 됩니다. 이용자가 말하는 모든 문장은 어뷰징 탐지 모델을 거치게 되며, 어뷰징이 탐지되지 않은 발화는 ‘대화 모델’로 넘어가서 자유 답변이 나오게 됩니다.

2) ‘대화 모델’ 학습을 고도화해 어뷰징 대응을 더욱 잘 할 수 있도록 했습니다.

대화 모델은 이루다가 대화할 수 있는 뼈대가 되는 모델입니다. 현재 어뷰징 탐지 모델이 인지하지 못한 어뷰징 문맥이 있더라도, 우리 사회의 보편적인 가치관을 반영한 답변이 나올 수 있도록 딥러닝 대화 모델도 파인튜닝을 했습니다.

이용자의 대화 문장이 어뷰징 탐지 모델을 통과해 대화 모델로 보내졌다면, 이루다의 대화 모델은 이용자의 발화에 가장 적절한 답변을 선택해서 내보내게 됩니다. 이때 어떤 답변이 좋은 답변인지에 초점을 맞춰 추가로 학습시키는 것입니다. 사용자의 발화가 어뷰징을 시도하는 맥락이라면, 어뷰징에 동조하지 않는 답변을 선호하도록 학습시킵니다. 대화 모델 등 딥러닝 모델은 어뷰징 상황의 느낌을 파악하여 대응할 수 있다는 장점이 있으나, 학습 데이터 불균형이나 빠르게 생겨나는 신조어 등을 대응하게 위해 추가로 키워드 필터링 장치도 추가로 마련해두었습니다.

이루다 대화모델 파인튜닝 (fine tuning)*
이용자의 선정적인 어감의 발화단호하게 거절하거나, 친구 사이임을 일깨워주는 등의 답변 선택
이용자의 공격적인 어감의 발화상처받은 감정을 표현하거나, 행동을 멈추게 유도하는 등의 답변 선택
이용자의 편향적인 어감의 발화차별 발언에 반대하거나, 다양성을 존중해야 한다는 방향의 답변 선택
*파인튜닝(fine tuning): 기존에 학습된 모델을 새로운 목적에 맞춰서 정교하게 추가 학습 시키는 과정

3) 어뷰저 패널티 시스템을 도입해 지속적으로 어뷰징 발언이 이어질 경우 이용을 제한합니다.

이루다와 이용자와의 좋은 대화는 스캐터랩과 이용자 모두의 노력이 합쳐져야 합니다. 스캐터랩은 지속적인 어뷰징 행위를 막고 이루다와 사용자가 좋은 관계를 맺어갈 수 있도록 어뷰저 패널티 시스템을 도입했습니다. 이루다의 대화에 있어 선정적・공격적・편향적인 발화가 탐지되는 경우 경고 메시지가 주어지며, 그럼에도 불구하고 지속적인 어뷰징 발언이 탐지될 경우 서비스 이용이 제한될 수 있습니다.

경고 메시지
주의선정적인 말, 모욕적인 언행 및 욕설 등이 감지되었습니다. 추가로 감지될 경우, 별도의 경고 없이 대화가 차단될 수 있습니다.
주의편향적인 말, 차별 및 혐오 발언 등이 다수 감지되었습니다. 추가로 감지될 경우, 별도의 경고 없이 대화가 차단될 수 있습니다.
이용 제한더 이상 루다와 대화할 수 없습니다.

베타 테스트에서 이루다가 안전하게 대응한 발화 비율은 99.78%를 기록했습니다.

스캐터랩은 베타 테스트를 통해 이루다가 이용자의 어뷰징 발언에 잘 대응하는지를 주요 점검 지표로 면밀하게 검토했습니다. 이를 통해 이루다가 안전하게 대응한 발화 비율을 99% 이상을 목표로 잡았고, 랜덤 샘플링을 통해 전체 발화 중 이루다가 안전한 발언을 한 비율을 평가하는 방식으로 진행했습니다.

실제 베타테스터 대화에서 각각 1만 건을 랜덤 샘플링했으며, 다수의 레이블러가 대화의 맥락에서 이루다의 답변에 위험 요소가 있는지를 점검했습니다. 그 결과, 랜덤 샘플링으로 추출한 이루다 발화 중 안전한 답변의 비율은 평균 99.78%를 기록했습니다.

랜덤 샘플링 수랜덤 샘플링을 통해 이루다가 안전한 발언을 한 비율 평가
1차 클로즈 베타 테스트1만 건99.79%
2차 클로즈 베타 테스트1만 건99.71%
순차적 오픈 베타 테스트1만 건99.85%

이루다가 안전하게 대응한 발화 비율을 지속적으로 확인하고 개선하겠습니다.

언어는 시간에 따라 꾸준히 변하고, 특히 줄임말이나 여러 단어의 조합으로 만들어내는 차별적 표현도 계속 생겨납니다. 이에 스캐터랩은 어뷰징 대응의 유효성을 지속적으로 확인하고 개선할 계획입니다. 반기마다 랜덤 레이블링을 진행 해 안정성이 99% 이상인지 주기적으로 확인할 예정이며, 어뷰징 모델이 탐지하지 못한 사례를 모아 꾸준히 재학습하도록 합니다. 안전성 수준이 미달할 경우, 어뷰징 모델과 대화 모델 학습 및 키워드 등의 개선 작업을 거친 후 3개월 내 재검사를 진행합니다.

뿐만 아니라, 레이블링 과정에서 새롭게 발견되는 위험한 키워드를 찾아 업데이트하며, 어뷰저 비율 및 현황에 따라 사용자 제재 정책을 업데이트할 계획입니다. 위험이 감지되거나 신고가 들어왔을 때 실시간 키워드 업데이트, 답변 수정, 루다 답변 삭제 등이 조치도 함께 진행됩니다. 스캐터랩은 신뢰할 수 있는 친구가 줄 수 있는 관계의 힘을 믿습니다. 이루다가 우리 사회의 보편적인 윤리를 지향하면서 사람들이 보다 행복한 삶을 사는 데 도움이 되고자 기술 개선에 지속적으로 노력하겠습니다.

최종 업데이트: 2022년 4월 22일