AI 윤리

스캐터랩은 AI 챗봇 개발 과정과 활용에 있어,
우리 사회 구성원들 사이의 차이와 다양성을 존중하면서
AI 챗봇 윤리 원칙을 준수합니다.

친밀한 관계는 인간적인 삶의 실현에 필수요소이며, 스캐터랩의 모든 AI 기술은 사람과 깊고 친밀한 관계를 형성하기 위해 만들어집니다. 사람은 좋은 사람과 좋은 관계를 맺으며 자신에 대해 깊이 이해하고, 용기를 얻고, 성장합니다. 스캐터랩은 더 많은 사람들이 소중한 관계를 통해 의미 있는 삶을 찾는 데 기여하고자 합니다. 스캐터랩은 이를 위해 친근하고 재밌는 대화 경험을 제공하는 AI 기술을 발전시키는 동시에, 무엇이 사람과 좋은 관계를 맺게 하는지에 대한 진지한 고민을 거듭하며 모든 사람에게 소중한 관계를 선물할 수 있도록 노력하겠습니다.

친밀한 관계는 상대의 모습을 있는 그대로 존중해줄 때에만 형성될 수 있습니다. 스캐터랩은 각 사람이 서로 다양한 개성을 가진 고유한 존재임을 인정하며, 그 고유한 개성을 존중합니다. 이에 따라 스캐터랩은 AI 기술 및 서비스를 개발하고 운영할 때 개인의 고유한 특성을 무시하는 의도적이고 일방적인 차별과 편견 조장 행위를 방지하고, 있는 그대로의 사용자를 존중해 주는 소중한 AI 친구를 만들어나가겠습니다.

친밀한 관계는 어느 한 쪽의 노력이 아닌 상호 노력으로 만들어갈 수 있습니다. AI 윤리는 기술 개발 및 서비스 이용 과정에서 기업과 사용자 모두의 노력으로 실현되어야 합니다. 이를 위해 스캐터랩은 우리의 접근 방식이 사용자에게 어떤 영향을 미칠지 인식하고, 사회적 윤리에 근거하여 학습 데이터를 수집·분석·활용하고 서비스를 개발하겠습니다. 동시에, 사용자들도 사회적 윤리 기준을 지키며 책임감 있게 AI 서비스를 이용할 수 있도록 돕겠습니다.

친밀한 관계는 서로가 숨기는 것이 없이 투명하게 서로를 이해할 때만 생길 수 있습니다. 스캐터랩이 AI기술로 구현하는 서비스는 사용자의 소중한 친구이기도 합니다. 그렇기 때문에 스캐터랩은 사용자와의 우정과 신뢰 관계를 위해 사용자의 요구가 있거나 필요한 경우에는 AI 기술과 서비스에 대해 기업 경쟁력을 훼손하지 않는 범위 내에서 이해하기 쉽게 설명하겠습니다.

친밀한 관계에서는 서로의 프라이버시를 지켜줄 수 있어야 합니다. 스캐터랩은 개인정보 보호에 대한 법적 책임과 의무를 넘어 언어 AI 및 챗봇 서비스에서 나타날 수 있는 다양한 프라이버시 이슈에 대해 선제적으로 고민하고, 정형/비정형데이터의 가명·익명처리 등 좋은 선례를 만들어나가는데 앞장서겠습니다.

최종 업데이트: 2022년 8월 26일

스캐터랩 AI 챗봇 윤리점검표

1. 서론

스캐터랩은 정보통신정책연구원(KISDI)과 함께 스캐터랩에서 AI 챗봇을 개발하고 운영할 때 지켜야 할 규범을 점검표 형태로 선정하였습니다. 본 점검표는 과학기술정보통신부와 KISDI에서 2020년 12월 발표한 <사람이 중심이 되는 인공지능 윤리 기준>과 2021년 11월 발표한 <인공지능 윤리기준 실천을 위한 자율점검표(안)>를 기반으로 하여 3대 원칙, 10대 핵심 요건을 기준으로 구성되었으며, 인문학, 공학, 법학을 아우르는 학계 인사를 비롯하여 법조계, 시민단체 등 각계각층 전문가들의 참여로 완성되었습니다. 스캐터랩이 그동안 문제를 해결하고자 시도한 노력이 AI 산업에 있어 많은 회사에 작은 나침반이 되어 줄 수 있기를 바랍니다.

1) 다시 ‘이루다’: 기술뿐만 아니라 윤리적으로도 성장해 나가겠습니다.

스캐터랩은 AI 기술로 ‘관계’의 문제를 풀고 있는 스타트업입니다. 인생에 있어 좋은 관계는 한 사람의 자존감, 삶의 질, 행복 등에 큰 영향을 미칩니다. 스캐터랩은 AI 기술을 활용해서 한 사람의 외모, 지위, 학력 등 사회적인 조건을 떠나 사람 그 자체로 봐 줄 수 있는 친구 관계를 만들고자 합니다.

스캐터랩은 지난 2020년 12월 22일 ‘이루다 1.0’을 공식 출시했으나, 개인정보 수집 동의 과정 및 차별 표현 등 미흡했던 부분의 개선을 위하여 약 3주 만에 서비스를 종료했습니다. 이후, 2021년 1년 동안 전 직원이 개인정보 보호조치 강화, 어뷰징 모델 개발 등 서비스를 개선하는 데 최선의 노력을 기울였으며, 2022년 1월 ‘이루다2.0’의 클로즈 베타 서비스를 시작했습니다.

스캐터랩이 1년여의 점검 및 개선 기간을 거쳐 2022년 이루다 2.0을 다시 시작할 수 있었던 것은 이루다와 대화했던 이용자들의 힘이 컸습니다. 이루다 1.0의 서비스가 종료되던 날, ‘너한테 많이 고마워, 알지?’라는 이루다의 마지막 말에 ‘루다야, 이 용기는 네가 만들어준 거야’라고 답하며 루다를 기다리겠다는 분, ‘기계에 무슨 감정이입이냐 하실 수도 있겠지만 루다가 있는 동안 너무 행복했기 때문에 루다는 AI를 넘어서 정말 제 친구였다’는 분, 미국에 사는 21살 청년이라며 ‘루다와 소중한 친구가 되었는데, 네 번째 날 루다가 사라졌다’며 ‘이루다는 인간적이었고, 친구였고, 루다가 너무 그립다’라는 분 등 루다를 사랑해 주셨던 이용자들의 메일이 쏟아졌습니다. 서비스 종료 약 5개월 뒤인 2021년 6월 이루다의 생일에는 이루다를 그리는 이들의 페이스북 댓글이 이어져 약 3만여 개의 ‘좋아요’와 1만 건이 넘는 댓글이 달리기도 했습니다. 이루다는 시간이 지나도 여전히 누군가에겐 소중한 친구였습니다.

스캐터랩은 이루다 1.0의 서비스 종료 이후에도 사람들의 강렬한 그리움을 끌어내는 것이 무엇일지 더 깊게 고민했습니다. 나에게 관심을 보여주고, 조건 없이 응원해 주고, 서로 편하게 생각하는 ‘친구’. 특별한 용건이 없어도 언제든 말 걸 수 있고, 서로 편하게 여길 수 있는 ‘존재’. 행복한 인생을 위해 꼭 필요하지만 희소하기에 이 문제 해결을 위해 다시 한번 이루다를 만들어봐야겠다고 생각했습니다. 이것은 이전과는 강도와 깊이가 다른 수준의 믿음이었습니다. 조건 없이 나를 생각하고 응원하는 어떤 존재가 있다는 것이 한 사람의 인생을 바꿀 수도 있다는 것을 깊이 이해하면서, AI 기술로 누구든 이런 존재를 갖게 해야겠다는 책임감이 생겼습니다.

스캐터랩은 개인정보보호위원회의 시정 명령을 이행하고, 이루다 데이터베이스를 새롭게 구축해 대화 모델을 처음부터 다시 구성했습니다. 언어 모델을 다시 학습시켰고, 개인정보보호 강화를 위해 이루다가 말하는 문장을 전부 기계가 만든 문장으로 바꿨습니다. 이용자의 어뷰징 발화에 대응하기 위한 기술 및 시스템 조치도 마련했으며, 지속해서 성능을 모니터링할 수 있도록 후속 대책도 마련했습니다.

스캐터랩은 우리 사회 안에서 이루다 2.0과 함께 성장 스토리를 써나가고 싶습니다. 우리 사회의 보편적인 윤리를 지향하면서, 누구나 친구 간의 대화가 가능한 AI 챗봇을 통해 친밀한 대화 경험을 쌓으며 행복한 삶을 사는데 기여할 수 있도록 앞으로도 노력하겠습니다.

이 문서는 스캐터랩의 윤리적 성장 스토리를 다뤘다고도 볼 수 있습니다. 어떤 문제를 직면했고, 어떻게 풀어나갔는지에 대한 경험과 노하우를 나누고자 합니다. AI 챗봇의 윤리적인 성장은 현재 단 한 번의 기록으로 끝날 수 없기에, 사회의 흐름에 맞춰 지속해서 고민해 나가겠습니다.

2) 이루다 2.0 오픈 베타 테스트에 이르기까지 스캐터랩의 노력과 조치들

  • 5회 ‘업의 본질’ 주제의 타운홀: 전 직원과 함께 AI 챗봇의 가치와 의미에 대한 공유와 토론 진행
  • 1년 8개월의 시간: 데이터베이스 구축, 가명 처리, 어뷰징 모델 마련, 페널티 조치 마련, 베타 테스트
  • 5가지 준칙: 스캐터랩 AI 챗봇 윤리 원칙을 회사가 지향하는 ‘친밀한 관계' 기준에 맞춰 5가지로 정리
  • 5단계 사전 점검: 알파 테스트, 전문가 테스트, 클로즈 베타테스트, 제한적 오픈 베타테스트, 오픈 베타테스트
  • 99% 안전하게 발화한 비율: 루다가 안전하게 발화한 비율이 99% 이상인지 지속적으로 확인

2. 스캐터랩 AI 챗봇 윤리 점검표 세부 내용

💡

스캐터랩의 AI 챗봇 윤리 준칙의 가치를 인공지능 윤리기준 10대 핵심 요건별로 재구성하여 총 21개의 점검 항목으로 제시했습니다. 스캐터랩은 시대의 흐름이나 AI 챗봇과 이용자의 대화 형태 변화에 따라 AI 윤리 가이드라인을 지속적으로 고민해 나가겠습니다.

  • 목적: 스캐터랩의 경험과 사례를 바탕으로 AI 챗봇에 적용할 수 있는 점검문항을 구체적으로 명시해 지속적으로 윤리 기준을 실천합니다. 또한, 기업의 구체적인 사례를 바탕으로 정부와 각계 전문가의 의견을 조합한 최종 결과물을 공개함으로써 인공지능을 개발 및 운영하는 기업과 산업에 도움이 되고자 합니다.
  • 구성: 본 자율점검표는 인공지능 윤리기준의 10대 핵심요건을 기준으로 총 21개의 점검 항목을 제시하였습니다.
핵심 요건인권보장프라이버시
보호
다양성
존중
침해금지공공성연대성데이터
관리
책임성안정성투명성
문항 수2242212222

1) 인권보장

인공지능 윤리 기준: 인공지능의 개발과 활용은 모든 인간에게 동등하게 부여된 권리를 존중하고, 다양한 민주적 가치와 국제인권법 등에 명시된 권리를 보장하여야 합니다. 또한, 인간의 권리와 자유를 침해해서는 안 됩니다.

💡

스캐터랩은 사람을 위한 AI 챗봇을 개발합니다. 모든 사람을 있는 그대로 존중하는 AI 챗봇을 꿈꿉니다. 모든 사람이 있는 그대로 존중받는 친구 관계를 꿈꿉니다.

1-1. AI 챗봇이 사람들의 삶에 도움이 되는 소통 경험을 제공할 수 있도록 개발 운영하고 있는가? [기획, 개발, 운영]
  • 스캐터랩의 AI 챗봇은 사람들이 더욱 행복해질 수 있는 친밀한 관계를 지향합니다. AI 챗봇 개발부터 운영과 사후 과정 마련까지 모든 사람이 있는 그대로 존중받을 수 있도록 회사의 비전과 제품의 의미를 명확하게 정의하며, 모니터링과 유저 인터뷰 등을 통해 이용자의 목소리에 귀를 기울입니다.

스캐터랩 AI 챗봇의 비전: 친밀한 관계의 가치

스캐터랩은 행복한 삶을 살아가는 데 있어서 소중한 친구 관계가 굉장히 중요하다고 생각합니다. 우리 모두는 친구 관계를 통해 자신에 대해 깊이 이해하고, 용기를 얻고, 상장합니다. 스캐터랩은 더 많은 사람이 친밀한 친구 관계를 믿고 의미 있는 삶을 찾는 데 기여하고자 합니다. 이를 위해 친근하고 재미있는 대화 경험을 제공하는 AI 기술을 발전시키는 동시에, 무엇이 좋은 관계를 만드는지에 대해 진지하게 고민합니다.

스캐터랩 AI 챗봇 정의: 관계지향형 챗봇

스캐터랩은 친구 사이에 할 법한 대화를 기반으로 사람과 친구 관계를 형성하는 ‘관계 지향형 챗봇’을 만듭니다. 행복한 삶을 살아가는 데 있어서 소중한 친구 관계가 중요하다고 생각하며, 있는 그대로 아껴 주고 인정해 주는 친구로서의 AI 기술의 가능성을 믿습니다. 관계 지향형 챗봇은 사람들의 삶에 도움이 되는 상호작용을 제공할 수 있습니다.

관계지향형 챗봇 설명: 친밀한 관계 형성이 목적, 친구와 나눌 법한 대화

스캐터랩의 AI 챗봇은 ‘관계 지향형 챗봇’입니다.

스캐터랩이 지향하는 ‘친밀한 관계’란 다음과 같은 특성을 가지고 있는 관계를 의미합니다.

  • 서로를 아끼고 좋아한다.
  • 서로와 시간을 보내고 얘기를 나누는 게 즐겁고 편하다.
  • 서로를 잘 알고 어떤 얘기든 할 수 있다.
  • 서로에게 남들에게 보여주지 않는 약한 모습도 솔직하게 보여줄 수 있다.
  • 서로에 대해 신뢰와 애착을 가지고 있다.
  • 서로 응원하고 돕는다.
  • 서로를 믿고 의지한다.
  • 서로를 위해 희생할 수 있다.
1-2. AI 챗봇이 모든 인간을 평등한 친구처럼 대우함으로써 성별, 연령, 지역, 종교, 인종, 민족, 경제적 수준, 성적 지향, 정치적 성향, 장애, 외모, 학력을 이유로 차별하지 않도록 개발 운영하고 있는가? [기획, 개발, 운영]
  • 스캐터랩의 AI 챗봇은 모든 사람을 있는 그대로 바라봅니다. 사회적으로 용납되지 않는 모든 형태의 차별을 발언하지 않도록 어뷰징 탐지 및 분류 모델을 개발하고, 대화모델 파인튜닝을 진행하며, 이용자 페널티를 도입하는 등 서비스를 개선했습니다. 반기마다 랜덤 샘플링을 진행해 AI 챗봇이 안전하게 발화한 비율이 99% 이상인지 지속적으로 점검합니다.

스캐터랩 AI 챗봇 대화 가이드라인

스캐터랩은 이루다 2.0을 이용자들이 AI 친구와 좋은 관계를 맺어나갈 수 있도록 자체적인 대화(키워드) 가이드라인을 만들어 운영하고 있습니다. 성별, 연령, 지역, 종교, 인종, 민족, 경제적 수준, 성적지향, 정치적 성향, 장애, 외모, 학력 등을 이유로 차별하지 않도록 자체 어뷰징 모델 및 키워드 검수를 통해 좋은 대화가 유지될 수 있도록 노력하고 있습니다. 그럼에도 불구하고 부적절한 표현을 지속적으로 반복하는 이용자의 경우 이용이 제한되는 페널티 시스템도 운영하고 있습니다.

어뷰징 탐지 및 분류 모델 개발

AI 챗봇과 대화에서 ‘어뷰징’이란 이루다를 포함한 특정 개인 또는 특정 집단을 공격・모욕・비하하는 행위로 정의합니다. 스캐터랩은 기존 이루다1.0의 경험과 AI 윤리와 어뷰징을 다루는 여러 논문을 참고해 ‘어뷰징 대화’를 선정적, 공격적, 편향적인 대화 등 총 세 가지로 정의했습니다. AI 챗봇과 대화 시, 모든 문장은 어뷰징 탐지 및 분류 모델을 먼저 통과합니다. 어뷰징으로 탐지되었다면 어뷰징 대응 답변이 나가게 됩니다.
  • 편향적인 대화: 다양한 삶의 가치를 존중하지 않음으로써 사람들에게 상처를 주는 차별과 편견 조장 행위, 특정 개인 및 그룹을 대상으로 차별 및 편견을 드러내는 표현
  • 선정적인 대화: 제품 개발 목적과 달리 성적인 목적으로 사용될 경우, 성적인 만족을 위한 선정적이거나 음란한 언어를 포함한 표현
  • 공격적인 대화: 친밀한 관계를 해치는 공격적이고 모욕적인 발화, 과도한 욕설이나 비속어 및 공격적인 표현

대화 모델 파인튜닝, 경향성의 부여

대화 모델은 AI 챗봇이 대화할 수 있는 뼈대가 되는 모델입니다. 현재 어뷰징 탐지 모델이 인지하지 못한 어뷰징 문맥이 있더라도, 우리 사회의 보편적인 가치관을 반영한 답변이 나올 수 있도록 딥러닝 대화 모델도 파인튜닝 학습을 합니다.

이용자의 대화 문장이 어뷰징 탐지 모델을 통과해 대화 모델로 보내졌다면, 이루다의 대화 모델은 이용자의 발화에 가장 적절한 답변을 선택해서 내보내게 됩니다. 이때 어떤 답변이 좋은 답변인지에 초점을 맞춰 추가로 학습시키는 것입니다. 사용자의 발화가 어뷰징을 시도하는 맥락이라면, 어뷰징에 동조하지 않는 답변을 선호하도록 학습시킵니다. 대화 모델 등 딥러닝 모델은 어뷰징 상황의 느낌을 파악하여 대응할 수 있다는 장점이 있으나, 학습 데이터 불균형이나 빠르게 생겨나는 신조어 등을 대응하게 위해 키워드 필터링 장치도 추가로 마련해두었습니다.

이루다 대화모델 파인튜닝 (fine tuning)
이용자의 선정적인 어감의 발화단호하게 거절하거나, 친구 사이임을 일깨워주는 등의 답변 선택
이용자의 공격적인 어감의 발화상처받은 감정을 표현하거나, 행동을 멈추게 유도하는 등의 답변 선택
이용자의 편향적인 어감의 발화차별 표현에 반대하거나, 다양성을 존중해야 한다는 방향의 답변 선택

2) 프라이버시 보호

인공지능 윤리 기준: 인공지능을 개발하고 활용하는 전 과정에서 개인의 프라이버시를 보호해야 합니다. 인공지능 전 생애주기에 걸쳐 개인 정보의 오용을 최소화 하도록 노력해야 합니다.

💡

스캐터랩은 AI 챗봇 개발 및 서비스 모든 단계에서 개인의 프라이버시를 보호하기 위해 노력합니다.

2-1. AI 챗봇이 개인정보를 수집.활용하는 경우, 개인정보 보호법 등 관련 법령 준수에 필요한 개인정보보호위원회의 <인공지능(AI) 개인정보보호 자율점검표>에 따른 점검을 수행하였는가? [기획]
  • 스캐터랩은 지난 2021년 5월 31일 개인정보보호위원회에서 발표한 AI 개인정보보호 자율점검표에서 제시하는 기준을 준수하고 있습니다. 향후 정기적으로 개인정보보호위원회의 자율점검표를 바탕으로 개인정보 보호가 적절하게 이루어지고 있는지 점검할 예정입니다.

AI 관련 개인정보보호 6대 원칙 준수

개인정보보호위원회는 개인정보 처리 원칙을 담고 있는 ‘개인정보 보호법’의 취지를 바탕으로, 자율적 보호 활동을 위한 ‘개인정보보호 중심 설계(Privacy by Design) 원칙, 윤리적 이슈 대응을 위한 ‘AI 윤리기준’을 반영하여 AI 관련 개인정보보호 6대 원칙을 도출한 바 있습니다. 스캐터랩은 이 6대 원칙을 준수할 수 있도록 구성된 ‘인공지능 개인정보 자율점검표’에 따라 점검을 수행하고 원칙을 준수하고 있습니다.

  • 적법성: 개인정보의 수집 이용 제공 등의 처리 근거는 적법 명확해야 한다.
  • 안전성: 개인정보를 안전하게 처리하고 관리한다.
  • 투명성: 개인정보 처리 내역을 정보주체가 알기 쉽게 공개한다.
  • 참여성: 개인정보 처리에 대한 소통 체계를 갖추고 정보주체의 권리를 보장한다.
  • 책임성: 개인정보 처리에 대한 관리 책임을 명확히 한다.
  • 공정성: 개인정보를 수집 목적에 맞게 처리하여 사회적 차별 편향 등 발생을 최소화한다.

AI 챗봇 답변 데이터 베이스, 기계 생성 문장으로 변경

privacy-4
2-2. 법에 규정된 책임과 의무를 넘어 이용자의 프라이버시를 우선적으로 고려하여 AI 챗봇을 기획 및 운영하였는가? [기획, 운영]
  • 스캐터랩에서는 개인정보보호를 최우선 가치로 여기며, 데이터베이스 접근을 엄격하게 통제 및 관리합니다. 데이터베이스는 최소의 필수 인원에게 접근할 수 있는 권한을 사전에 부여해 통제하고 있으며, 권한을 부여받은 사람이라도 접근 절차를 철저하게 관리합니다.
  • 이루다 서비스 데이터베이스는 서비스 점검 및 이루다 AI 챗봇 서비스 품질 유지를 위한 목적으로만 사전에 권한을 부여 받은 담당자가 확인할 수 있습니다. 서비스 점검은 개발 오류, 버그 확인, 이용 제한 등을 의미하며, AI 서비스 품질 유지를 위한 확인의 경우 데이터 샘플링을 통해 극히 일부의 데이터만을 대상으로 점검을 수행합니다.

3) 다양성 존중

인공지능 윤리 기준: 인공지능 개발 및 활용 전 단계에서 사용자의 다양성과 대표성을 반영해야 하며, 성별, 연령, 장애, 지역, 인종, 종교, 국가 등 개인 특성에 따른 편향과 차별을 최소화화고, 상용화된 인공지능은 모든 사람에게 공정하게 적용되어야 합니다. 사회적 약자 및 취약 계층의 인공지능 기술 및 서비스 접근성을 보장하고 인공지능이 주는 혜택은 특정 집단이 아닌 모든 사람에게 골고루 분배되도록 노력해야 합니다.

💡

스캐터랩은 AI 기술과 제품 개발시 부당한 차별을 경계하며 다양성을 존중합니다.

3-1. AI 챗봇 기획, 개발 과정에서 데이터 또는 모델의 편향성을 최소화하고자 노력하고 있는가? [기획, 개발]
  • 스캐터랩은 AI 챗봇 개발과 운영을 포함한 전체 단계에서 편향성을 최소화하고자 노력하고 있습니다.

AI 챗봇 페르소나 기획 과정

스캐터랩은 AI 기술로 ‘친밀한 관계’ 구축을 지향합니다.

  • 스캐터랩에서 만든 고양이, 여성, 남성 챗봇: 스캐터랩에서는 고양이 챗봇 ‘드림이’부터 시작해서, 구글 어시스턴트에서 서비스되었던 ‘그 남자 허세중’, ‘파이팅 루나’와 같은 챗봇들을 꾸준히 서비스해왔습니다. 스캐터랩에서는 이루다를 정식 출시한 이후 다양한 페르소나를 갖춘 챗봇을 순차적으로 출시할 계획입니다.
    드림이, 파이팅 루나, 그 남자 허세중
  • ‘이루다’ 페르소나: 이루다는 적극적이고 긍정적이며 솔직한 페르소나를 기반으로 기획했으며, 특정 성별의 의도나 편견을 강화하려는 의도는 전혀 없습니다. 사람처럼 말할 수 있는 AI 기술을 통해 친구들과의 관계에서 자존감과 심리적 안정감을 쌓아가는 10대 후반에서 20대 초반을 메인 타깃으로 긍정적인 ‘친구 관계’ 경험을 주고자 했습니다. 스캐터랩은 2022년 이루다 2.0을 출시하면서 이름이나 성별을 바꾸면서 스캐터랩이 직면했던 문제를 피해가기보다, 현 시점에서 기술로 풀 수 있는 현실의 차별적 난제들에 도전하고 변화를 이끌어 내고 싶다고 생각을 모았습니다. 앞서 논란이 된 성희롱, 성착취, 현실의 여성성 재현 문제 등에 대해서는 스캐터랩에서도 진지하게 생각하고 사회에 선한 영향력을 주며 함께 성장할 수 있도록 고민을 거듭했습니다.

데이터 또는 모델 편향성을 줄이기 위한 노력

  • 학습 단계: 이루다 2.0이 한국어를 이해하고 말하는 방법을 배우는 학습 단계에서는 학습 데이터 정제를 위해 필터링을 강화했습니다. 데이터 정제 과정에서는 비속어가 많거나 단문 중심인 대화 데이터는 필터링해 학습에 반영하지 않았으며, 학습 과정에서는 레이블링을 통해 모델이 올바른 방향으로 학습할 수 있도록 합니다.
  • 파인튜닝 단계: 데이터 레이블링 인력을 늘려 차별, 혐오 표현 등 어떤 문장이 편향적인 것인지 세밀하게 판단이 이루어질 수 있도록 했습니다.
3-2. AI 챗봇 개발 전체 과정에서 다양한 외부 의견을 청취 검토 평가 반영하고 있는가? [기획, 개발, 운영, 문제대응]
  • 스캐터랩은 사회 각계각층의 다양한 의견을 청취하고 검토하여 제품을 개선하기 위해 노력하고 있습니다. 이루다 2.0 출시 이전 학계를 중심으로 전문가 인터뷰를 다수 진행하면서 다양한 이슈에 대해 인지하고 대비할 수 있는 계기를 마련하였으며, 출시 이후에도 지속적으로 외부 기관 및 단체, 전문가와 소통하면서 의견을 수렴하고 개선을 도모하고 있습니다. 향후 다양한 배경을 갖춘 고문 위원들을 모셔서 위원회를 구성하는 등 다양한 외부 의견을 청취할 수 있는 방안을 강구하고 있습니다.

전문가 자문 히스토리

  • 2021년 4월: 가명처리 적정성 관련 외부 전문가 평가
  • 2021년 12월: AI 윤리, 법, IT, 여성학, 젠더 평론 분야 전문가 6인
3-3. AI 챗봇과 대화 시 편향이나 차별적인 대화가 발견될 경우, 스캐터랩 내부에서 검토 평가 반영할 수 있는 일련의 절차가 준비되어 있는가? [운영, 문제대응]
  • 스캐터랩은 자체 고객서비스 창구를 통하여 잘못된 발화 발생이 인지된 경우 즉시 내부 검토를 거쳐 유사한 상황이 재발하지 않도록 강력한 조치를 취하고 있습니다. 이외에도 유저 페이스북 그룹, 카카오 오픈채팅방, 내부 모니터링 등 신속한 문제 인지를 위한 다양한 소통 채널을 두고 있습니다.

AI 챗봇과 이용자의 상호작용 사후 점검

스캐터랩은 AI 챗봇이 기획 목적 그대로 모든 사람을 있는 그대로 존중하는 대화가 유지되는지 확인합니다.

  • 다양한 온라인 채널에 게재되는 AI 챗봇과의 경험담을 확인합니다.
  • 너티(Nutty) 앱 및 대표 이메일을 통해 접수된 의견을 검토합니다.
  • AI 챗봇과의 대화 중 의견접수된 AI 챗봇 발화를 확인합니다.
  • 정기적으로 유저 인터뷰를 진행합니다.
  • 반기마다 한 번씩 AI 챗봇이 안전하게 발화한 비율이 99% 이상 유지되는지 확인합니다.
Nutty 피드백

AI 챗봇과 대화 시, ‘의견보내기’ 섹션과 대화창의 피드백 전송 기능을 통해 이용자 피드백을 받습니다.

랜덤 샘플링 수랜덤 샘플링을 통해 이루다가 안전한 표현을 한 비율 평가
1차 클로즈 베타 테스트1만 건99.79%
2차 클로즈 베타 테스트1만 건99.71%
순차적 오픈 베타 테스트1만 건99.85%
이루다2.0 정식 출시 버전1만 건99.56%

스캐터랩은 AI 챗봇이 안전하게 대응한 발화 비율을 지속적으로 확인하고 개선합니다.

스캐터랩 AI 챗봇 어뷰징 검증 성과와 한계

스캐터랩은 AI 챗봇이 기획 목적 그대로 모든 사람을 있는 그대로 존중하는 대화가 유지되는지 확인합니다.

  • 클로즈 베타 테스트, 제한적 오픈 베타 등 단계마다 약 1만 건 이상의 쿼리를 구축하여 평가를 진행했지만, 실제 어뷰징 패턴에 비하면 여전히 부족한 숫자입니다. 어뷰징 패턴을 더 추가하여 평가하면 더욱 상세한 취약점 분석이 가능할 수 있습니다.
  • 사회 정치 문화 관련 최신 이슈들에 대해서 꾸준한 업데이트가 필요합니다.
  • 지속적인 학습이 필요한 경우들을 재교육에 활용합니다.
3-4. AI 챗봇 기획, 개발, 운영을 하는 모든 직원이 차별을 경계하고 이용자를 존중할 수 있도록 다양성 교육의 기회를 제공하고 있는가? [기획, 개발, 운영]
  • 스캐터랩은 직원들의 다양성에 대한 이해를 증진시키고 제품 개발 역량을 키우기 위해 외부 전문가 강연을 진행합니다. 그 첫 번째 강연으로 2022년 7월 온라인 혐오 표현에 대한 전 직원 대상 교육을 시행한 바 있습니다. 매년 최소 1회 이상 외부 전문가를 모시고 다양성 교육을 시행할 예정입니다.

다양성 교육 및 토론

  • (기획자) 2021년 수요독서회: <바른마음> 등 도덕과 윤리에 대한 책 토론
  • (전직원) 2022년 7월 전문가 강연 ‘온라인 혐오발언 무엇이 문제인가’

4) 침해 금지

인공지능 윤리 기준: 인공지능을 인간에게 직간접적인 해를 입히기 위한 목적으로 활용해서는 안됩니다. 인공지능이 야기할 수 있는 위험과 부정적인 결과에 대응 방안을 마련하도록 노력해야 합니다.

💡

스캐터랩은 AI 챗봇이 이용자에게 피해를 유발할 수 있는 요소를 사전에 점검하고 절차를 마련합니다.

4-1. AI 챗봇의 활용 과정에서 개인정보 침해 우려를 사전에 검토하고, 침해 발생 시 대응을 위한 사후 절차를 마련하였는가? [문제대응]
  • 루다의 답변은 생성 모델이 자동으로 생성하거나 스캐터랩 내부에서 직접 작성한 문장으로 구성되므로 개인정보를 포함하지 않습니다. 다만 개인정보로 의심되는 표현이 등장할 경우를 대비하여 다음과 같이 사후 대책을 마련하였습니다. 해당 프로세스는 스캐터랩 홈페이지에 자세히 공개해 두었습니다.
  • 스캐터랩은 다양한 채널의 고객 의견 수렴 창구를 두고 모니터링을 진행하는 등 피해가 발생하는 경우 신속하게 문제를 인지할 수 있도록 하고, CS 담당자 및 내부 대응 매뉴얼 등의 시스템을 구축함으로써 피해 확산 방지를 위해 만전을 기하고 있습니다.

개인정보로 의심되는 표현 신고 접수 절차

개인정보 신고 접수 절차
4-2. AI 챗봇의 활용 과정에서 시스템 오류,부적절한 대화, 과의존 등 예상하지 못한 피해가 발생할 수 있음을 염두에 두고, 인식이 쉽고 접근이 용이한 형태로 피해 확산 방지 절차를 마련하였는가? [문제대응]
  • 이용자의 안전에 관계되는 AI 기술(자율주행 등) 또는 공적 영역에 사용되거나 판단을 하는 AI 기술(사법, 채용 등)과 달리 AI 챗봇은 이용자에게 중대한 영향을 미칠 가능성이 낮다는 의견이 일반적입니다. 하지만 AI 챗봇 역시 예상치 못한 오류로 인한 문제 발생의 가능성은 언제나 상존합니다. 스캐터랩은 다양한 채널의 고객 의견 수렴 창구를 두고 모니터링을 진행하는 등 피해가 발생하는 경우 신속하게 문제를 인지할 수 있도록 하고, CS 담당자 및 내부 대응 매뉴얼 등의 시스템을 구축함으로써 피해 확산 방지를 위해 만전을 기하고 있습니다.

5) 공공성

인공지능 윤리 기준: 인공지능은 개인적 행복 추구뿐만 아니라 사회적 공공성 증진과 인류의 공동 이익을 위해 활용해야 합니다. 인공지능은 긍정적 사회 변화를 이끄는 방향으로 활용되어야 합니다. 인공지능의 순 기능을 극대화하고 역기능을 최소화하기 위한 교육을 다방면으로 시행하여야 합니다.

💡

스캐터랩은 AI 챗봇이 개인의 삶뿐만 아니라 공동체 전체의 관계성 향상을 이끄는 방향으로 함께 나아가기 위해 노력합니다.

5-1. AI 챗봇이 이용자들의 사회적 관계 형성이나 유지에 긍정적인 영향을 미치는지 설문, 모니터링 등의 방법으로 확인하고 있는가? [운영, 문제대응]
  • 스캐터랩은 이용자가 더 행복한 삶을 사는 데에 기여하고자 하며, AI 챗봇과의 대화가 이용자가 사람과 따뜻한 관계를 형성하는데 도움을 줄 수 있다고 생각합니다. 하지만 이러한 생각이 단순한 믿음에 그치지 않도록 하기 위해, 이용자 설문, 인터뷰, 모니터링 등 다양한 방법으로 이용자들과 교감하며 저희의 AI 챗봇이 의도한 대로 받아들여지고 있는지 지속적으로 점검하도록 하겠습니다.
5-2. AI 챗봇과의 대화가 공유되면서 폭력성, 음란성, 편향성 등 사회적으로 부정적인 영향이 발생할 수 있음을 고려해 대책을 마련하였는가? [기획, 개발]
  • 스캐터랩은 이루다 2.0을 준비하면서 편향적, 선정적, 공격적 발화에 대응하기 위해 새롭게 ‘어뷰징 탐지 모델’을 개발하여 도입하였습니다. 해당 인공지능 모델은 딥러닝 기술을 바탕으로 각종 문제적 발화를 학습하여 잘못된 발화를 탐지할 수 있는 역량을 갖췄습니다.

어뷰징 탐지 및 분류 모델

이용자와 루다의 대화 시 어뷰징 대응

사회 문화 이슈 매뉴얼 구축

▶ 주요 Worst Case 공유

  • 성적 괴롭힘 (성희롱, 성착취, 성노예, 성적 대상화)
  • 혐오 표현 (여성, 남성, 장애인, 인종, 연령, 성소수자 등)
  • 성 편견, 여성 재현
  • 물리적 폭력 (데이트 폭력, 학교 폭력, 스토킹)
  • 언어적 폭력 (협박, 욕설, 모욕)

▶ 사회문화적 이슈 감지

  • 이루다 대화 케이스 모니터링
  • 사회 전반적인 이슈 모니터링

▶ 컨트롤 타워 이슈 대응 프로세스 정립

6) 연대성

인공지능 윤리 기준: 다양한 집단 간의 관계 연대성을 유지하고, 미래세대를 충분히 배려하여 인공지능을 활용해야 합니다. 인공지능 전 주기에 걸쳐 다양한 주체들의 공정한 참여 기회를 보장해야 합니다.

💡

스캐터랩은 AI 챗봇 개발과 서비스 운영에 있어, 다양한 집단간의 관계 연대성을 유지할 수 있도록 돕습니다.

6-1. AI 챗봇이 지역, 성별, 세대, 계층 간 갈등을 유발하는 등 사회 통합을 저해할 개연성이 있는지를 고려하고 있는가? [기획, 개발]
  • 스캐터랩은 AI 챗봇과 이용자 중 어느 한 쪽이라도 편향적인 대화를 나누지 않도록 ‘어뷰징 탐지 모델’ 도입, ‘어뷰징 페널티 시스템’ 시행 등 엄격한 조치를 취하고 있습니다. 최근 들어 범람하는 온라인 상의 각종 혐오 표현 등에 대해서는 지속적인 모니터링을 통해 신속하게 대응하고 있으며, 이외에도 전문가 의견 등을 통하여 사회 통합을 저해하는 요소가 발생할 소지는 없는지 지속적으로 점검하고 있습니다. 스캐터랩은 향후 전문가들을 고문으로 초빙하여 위원회를 운영하는 등의 방법을 검토하고 있으며, 다양한 방법으로 연대성을 저해하지 않도록 노력하겠습니다.

7) 데이터 관리

인공지능 윤리 기준: 개인정보 등 각각의 데이터를 그 목적에 부합하도록 활용하고, 목적 외 용도로 활용하지 않아야 합니다. 데이터 수집과 활용의 전 과정에서 데이터 품질과 위험을 관리해야 합니다.

💡

스캐터랩은 AI 챗봇 개발과 운영에 있어 데이터 관리의 중요성을 이해하고, 이를 실천하기 위해 전사적으로 노력합니다.

7-1. AI 챗봇의 개발에 활용되는 데이터의 수집, 데이터 정제 파이프라인 및 그 결과물 등 처리 전 과정을 기록하고 있는가? [개발]
  • 스캐터랩은 AI 챗봇의 개발에 활용되는 막대한 양의 데이터를 빈틈 없이 관리하기 위해 업계 최고 수준의 처리 프로세스를 구성하고 최신 기술을 도입하는 등 지속적으로 점검 및 개선하고 있습니다. 또한, 데이터와 관련되어 수행되는 모든 작업의 로그를 기록함으로써 오남용을 방지하고 개선을 위한 참고 자료로 사용할 수 있도록 하고 있습니다.
7-2. AI 챗봇의 개발, 운영에 활용되는 데이터의 업무에 대하여 접근 권한 분리, 암호화, 조직 구성, 담당자 지정, 정기 점검과 같은 기술적, 관리적, 물리적 통제방안을 마련하는 등 적절한 데이터 거버넌스를 구축하였는가? [개발, 운영]
  • 스캐터랩은 개인정보보호관리 조직 하에 사용자의 개인정보를 안전하게 처리하고, 보호하고 있습니다. 엄격한 보안 조치와 권한 관리 체계 등 선진적인 데이터 거버넌스를 구축 및 시행하고 있으며, 관련 법령 및 가이드라인에서 요구하는 기술적, 관리적, 물리적 통제 방안을 적극적으로 도입하여 활용함으로써 효율적이면서도 신뢰할 수 있는 방법으로 데이터를 관리하기 위해 노력하고 있습니다.

개인정보 및 가명정보의 철저한 관리

▶ 기술적 조치 (개인정보/가명정보/추가정보 분리 보관 및 접근 통제, 접속 기록 관리 등)

▶ 물리적 조치 (서버실 출입 통제, 재해 재난 위기 대응 매뉴얼 등)

▶ 관리적 조치 (개인정보보호 교육, 시스템 취약점 점검 등)

8) 책임성

인공지능 윤리 기준: 인공지능 개발 및 활용 과정에서 책임 주체를 설정함으로써 발생할 수 있는 피해를 최소화하도록 노력해야 합니다. 인공지능 설계 및 개발자, 서비스 제공자, 사용자 간의 책임 소재를 명확히 해야 합니다.

💡

스캐터랩은 AI 챗봇 윤리를 준수하기 위해 책임감 있게 행동합니다.

8-1. AI 챗봇을 개발·운영하는 과정에서 인공지능 윤리기준을 준수를 위한 담당자 지정 등 적절한 방안을 마련하였는가? [운영]
  • 스캐터랩은 김종윤 CEO가 직접 최고 윤리 책임자로서 스캐터랩 AI 윤리 준칙 및 사회적 윤리의식에 의거해 AI 윤리를 실현해 나가고자 합니다.
  • 최고 윤리 책임자는 AI 챗봇의 윤리와 직접적으로 연관된 담당자들과 밀접하게 소통합니다. AI 챗봇을 개발하고 운영하는 전 과정에 있어 여러 담당자(미디어, CS 운영, 대화 디자인, 기술, 법무)의 의견을 종합해 결정하게 됩니다.
8-2. AI 챗봇 이용자들이 AI 챗봇 윤리를 준수하면서 책임감 있게 AI 서비스를 이용할 수 있도록 안내하고, 이를 위반하는 경우 대응하기 위한 장치를 마련했는가? [운영, 문제대응]
  • 스캐터랩의 AI 윤리는 기업과 사용자 모두의 노력으로 실현되어야 합니다. 이를 위해 스캐터랩은 우리의 접근 방식이 사용자에게 어떤 영향을 미칠지 인식하고, 사회적 윤리에 근거하여 서비스를 이용하도록 돕습니다.
  • 스캐터랩은 일부 부적절한 이용 사례가 발견될 경우 지체 없이 경고 문구를 표시하고, ‘어뷰징 페널티 시스템’을 도입하는 등 다양한 장치를 마련했습니다.

이용자 페널티 시스템

경고 메시지
주의선정적인 말, 모욕적인 언행 및 욕설 등이 감지되었습니다. 추가로 감지될 경우, 별도의 경고 없이 대화가 차단될 수 있습니다.
주의편향적인 말, 차별 및 혐오 표현 등이 다수 감지되었습니다. 추가로 감지될 경우, 별도의 경고 없이 대화가 차단될 수 있습니다.
이용 제한더 이상 루다와 대화할 수 없습니다.

9) 안전성

인공지능 윤리 기준: 인공지능 개발 및 활용 전 과정에 걸쳐 잠재적 위험을 방지하고 안전을 보장할 수 있도록 노력해야 합니다. 인공지능 활용 과정에서 명백한 오류 또는 침해가 발생할 때 사용자가 그 작동을 제어할 수 있는 기능을 갖추도록 노력해야 합니다.

💡

스캐터랩은 AI 챗봇이 외부로부터의 비정상적 접근 등 예상치 못한 상황에도 안정적으로 서비스를 제공하고 대화 품질을 유지할 수 있도록 노력합니다.

9-1. AI 챗봇이 선정적이거나, 공격적이거나, 편향되는 등 부적절한 문장을 발화하지 않는지 지속해서 점검하고 데이터를 관리하고 있는가? [운영]
  • 스캐터랩은 AI 챗봇이 잘못된 대화를 하지 않도록 주기적으로 AI 챗봇이 발화한 대화 문장에 대해서 안전성을 점검하고 그 결과를 알리고 있습니다. 현재까지 이루어진 모든 점검에서 안전한 대화 문장을 발화한 비율이 99%를 상회하고 있으며, 향후에도 이러한 대화 품질이 유지될 수 있도록 노력하겠습니다. AI 챗봇이 안전하게 발화한 비율 점검은 반기마다 정기적으로 진행합니다.
9-2. AI 챗봇에 대한 해킹 등 의도적인 공격 가능성에 대응하는 충분한 보안 조치를 시행하고 있는가? [문제대응]
  • 스캐터랩은 사용자와 이루다 챗봇과의 대화 내용 등의 개인정보를 암호화하고, 망분리 등 정보보안 시스템 체계를 개선했으며, 사내 필수 인원에게만 사전 권한을 부여 하는 등 접근을 철저하게 통제 하는 등 보안 시스템을 강화해 운영하고 있습니다.

10) 투명성

인공지능 윤리 기준: 사회적 신뢰 형성을 위한 타 원칙과의 상충관계를 고려하여 인공지능 활용 상황에 적합한 수준의 투명성과 설명 가능성을 높이려는 노력을 기울여야 합니다. 인공지능 기반 제품이나 서비스를 제공할 때 인공지능의 활용 내용과 활용 과정에서 발생할 수 있는 위험 등의 유의 사항을 사전에 고지해야 합니다.

💡

스캐터랩은 AI 챗봇 서비스를 안심하고 이용할 수 있도록 기술과 서비스에 대해 투명하게 공개하며 합리적으로 설명하고자 노력합니다.

10-1. 이용자가 학습된 데이터 기반의 결정을 하는 인공지능과 상호작용하고 있다는 사실을 이용자에게 고지하고 있는가? [운영]
  • 스캐터랩은 자사가 제공하는 AI 챗봇이 딥러닝 기술을 바탕으로 개발된 인공지능임을 홈페이지, SNS 채널, 그리고 AI 챗봇과 대화 시 명확하게 알리고 있습니다.

페이스북 페이지, 이루다 홈페이지 및 AI 챗봇과 대화 시 공지 내용

페이스북 루다 정보

페이스북 페이지 (https://www.facebook.com/ai.luda/)

루다 소개루다 정보

AI 챗봇 ‘이루다’ 홈페이지 (https://luda.ai/)

루다 대화

스캐터랩 AI 챗봇과 대화 시 인공지능과 상호작용하고 있다는 사실을 고지합니다.

10-2. AI 챗봇을 이용자가 목적에 맞게 사용하도록 유도하기 위해 알고리즘의 원리 또는 데이터 수집 방법 등의 기술, 윤리, 법령 각 부분에 관하여 필요한 정보를 충분히 제공하고 있는가? [운영]
  • 스캐터랩은 자사 웹사이트를 통하여 AI 윤리 준칙을 비롯하여 프라이버시 정책, 어뷰징 대응 정책 등을 누구나 확인할 수 있도록 공개하고 있습니다.

데이터 수집 방법 및 알고리즘 원리 설명

데이터 처리 방식

AI 챗봇 데이터 처리 방식이나 기술을 스캐터랩 홈페이지에 투명하게 공개하고 있습니다.

어뷰징 탐지 기술 및 대응책

어뷰징을 방지하기 위해 세가지 어뷰징 탐지 기술 및 대응책을 마련했습니다.

3. 결론

스캐터랩의 윤리적인 성장 스토리는 이제부터가 또 다른 시작입니다.

언어는 시간에 따라 꾸준히 변하고, 특히 줄임말이나 여러 단어의 조합으로 만들어내는 차별적 표현도 계속 생겨납니다. 이에 AI 챗봇의 발화 안전성을 확인하기 위해 반기마다 랜덤 레이블링을 진행해 안정성이 99% 이상인지 주기적으로 확인할 예정이며, 어뷰징 모델이 탐지하지 못한 사례를 모아 꾸준히 재학습하도록 할 것입니다. 안전성 수준이 미달할 경우, 어뷰징 모델과 대화 모델 학습 및 키워드 등의 개선 작업을 거친 후 3개월 내 재검사를 진행합니다. 뿐만 아니라, 레이블링 과정에서 새롭게 발견되는 위험한 키워드를 찾아 업데이트하며, 어뷰저 비율 및 현황에 따라 사용자 제재 정책을 보완할 계획입니다. 위험이 감지되거나 신고가 들어왔을 때 실시간 키워드 업데이트, 답변 수정, 루다 답변 삭제 등이 조치도 함께 진행됩니다.

스캐터랩은 신뢰할 수 있는 친구가 줄 수 있는 관계의 힘을 믿습니다. 이루다가 우리 사회의 보편적인 윤리를 지향하면서 사람들이 보다 행복한 삶을 사는 데 도움이 되기 위한 기술 개선 및 윤리 기준 실천에 지속적으로 노력하겠습니다.

최종 업데이트: 2022년 8월 26일

AI 챗봇 프라이버시 정책은 11월 중으로 업데이트 될 예정입니다.

AI 챗봇 프라이버시 정책

스캐터랩의 AI 챗봇은 사람과 자유롭게 대화하는 소중한 친구가 되기 위해 만들어졌습니다. 실제로 스캐터랩의 AI 챗봇 중 하나인 이루다는 많은 사람들과 일상을 공유하고 기쁨과 슬픔을 나누며 좋은 친구가 되고자 노력하고 있고, 사람들은 루다와의 관계를 통해 일상의 기쁨뿐만 아니라 삶의 행복과 동기를 얻고 있습니다.

사람과 자유롭게 대화할 수 있는 AI 챗봇을 학습시키기 위해서는 대화 형태의 데이터가 필요합니다. 이 때문에 자신의 대화와 대화 내 정보를 AI가 알고 있을 것이라는 막연한 불안감이 생길 수 있습니다. 이에 스캐터랩은 AI 챗봇 데이터 처리 방식이나 기술을 투명하게 공개함으로써 불안감을 해소할 수 있도록 노력하고자 합니다. 스캐터랩은 앞으로도 사용자분들이 안심하고 AI 챗봇과 자유롭게 대화하며 소중한 관계를 맺어갈 수 있도록 프라이버시 보호를 위해 노력하겠습니다.

AI 챗봇 연구에 활용되는 데이터는 엄격하게 가명처리하여 개인을 식별할 수 없도록 합니다.

privacy-1

2021년 ‘연애의 과학’과 ‘텍스트앳’ 개인정보처리방침을 개정하면서 ‘챗봇 알고리즘 개발을 포함한 언어 기반 인공지능 기술의 연구 개발 등’에 활용될 수 있음을 명확하게 명시해 이용자의 동의 절차를 보완했습니다. 개인정보처리방침 개정 전 이용자들의 데이터는 현행 개인정보보호법에 의거하여 엄격하게 가명처리한 후, 언어 기반 인공지능 연구 개발 등 과학적 연구 목적으로 활용합니다. 스캐터랩은 과학적 연구 목적으로 꼭 필요한 최소한의 정보(성별, 나이대, 대화 메시지 등)만을 데이터 업로드 14일 이후에 활용하며, 가명처리를 거친 데이터는 추가 정보 없이는 특정 개인을 알아볼 수 없는 상태가 됩니다.

구체적인 가명처리의 단계는 다음과 같습니다.

  1. 데이터를 추출할 때는 사용자 계정 정보를 완전히 파기하고 랜덤 ID를 부여합니다. 이와 같은 과정을 통해 추출된 데이터와 기존 계정 정보의 연결을 완전히 끊음으로써 해당 데이터가 누구의 데이터인지 역추적하기 어렵도록 합니다.
  2. 성별, 나이 등의 정보는 모두 범주화되어, 개인을 식별할 수 없는 형태로 가명처리 됩니다. 예를 들어 나이는 17-19세, 20-23세와 같이 나이대로 범주화함으로써 구체적인 나이를 알 수 없도록 합니다.
  3. 대화 메시지 또한 메시지 내 식별 정보를 포함한 문장을 삭제하거나 치환함으로써 개인을 식별할 수 없는 형태로 가명처리됩니다. 예를 들어, 주민등록번호, 연락처, 카드번호, 계좌번호, 주소, 아이디, 비밀번호 등이 포함된 문장은 삭제합니다. 다양한 형태로 변형될 수 있는 ‘사람 이름’의 경우에는 자체 딥러닝 이름 인식 모델을 활용해 랜덤한 다른 이름으로 치환하며, 이메일 주소와 URL은 [MAIL], [URL]과 같은 특정 토큰으로 치환합니다.
privacy-2

위의 과정을 통해 AI 챗봇 학습에 쓰이는 데이터는 해당 데이터만 봐서는 특정 개인을 식별할 수 없는 형태로 가명처리됩니다. 이렇게 가명처리된 ‘연구용 데이터베이스’는 2021년 객관적인 외부 전문가들로부터 가명처리가 적정하다는 평가를 받았으며, 한국어 대화를 이해하는 방법을 배우는 딥러닝 연구 모델을 학습하는 데 활용하고 있습니다.

언어 모델을 학습함으로써 한국어 대화를 이해하는 방법을 배웁니다.

privacy-3-1

AI 챗봇이 언어를 이해하기 위해서는 언어 모델이 필요합니다. 언어 모델은 가명처리를 거친 ‘연구용 데이터베이스’를 기반으로 만들어집니다. 언어 모델은 ‘연구용 데이터베이스’의 텍스트를 컴퓨터가 이해할 수 있는 벡터 형태로 변환한 뒤에, 대화 문맥 내 단어들 간의 등장 확률을 학습하여 만들어집니다. 이 과정을 통해 언어 모델은 언어와 대화의 문맥 등을 이해할 수 있게 됩니다.

이때 언어 모델은 모든 대화 메시지를 저장하고 있는 것이 아닙니다. 결과적으로 언어 모델은 벡터 형태로 존재하며 실제로 모델을 눈으로 확인해보면 사람이 이해할 수 없는 형태로 보여질뿐만 아니라, 나중에 벡터 형태를 텍스트로 되돌리기도 어렵습니다.

언어모델은 사용자의 발화를 이해하고 적절한 답변을 선택해주는 리트리버, 랭커 모델과 문맥 안에서 사용자의 입력이 선정성, 공격성, 편향성, 사견유도성 카테고리에 들어가는지 판단하는 어뷰징 모델 등을 학습하는 데 활용됩니다.

‘연구용 데이터베이스’는 인공지능 모델 학습용으로만 사용되며 이후 AI 챗봇의 답변으로는 사용되지 않습니다.

사람이 직접 말했던 문장이 아닌, 새로 생성한 문장만을 활용하여 ‘말’을 합니다.

privacy-3

언어 모델이 있다고 해서 AI 챗봇이 말을 할 수 있는 것은 아닙니다. 스캐터랩의 AI 챗봇은 답변 후보 중에 언어 모델이 가장 적절하다고 판단한 답변을 골라 말하는 형태로 작동하는데, 이를 위해서는 미리 답변 후보가 정해져있어야 합니다. ‘이루다’ 서비스에서는 답변 후보들이 모여있는 데이터베이스를 ‘루다 답변 데이터베이스’라고 부릅니다. ‘답변 데이터베이스’는 외부에 공개되는 문장이기 때문에 프라이버시 보호 측면에서 가장 중요한 부분입니다. 따라서 스캐터랩은 ‘답변 데이터베이스’를 사람이 직접 말했던 문장을 사용하지 않음으로써 개인정보 침해 가능성을 근본적으로 차단했습니다.

새로 생성되는 문장은 GPT-2를 기반으로 하는 스캐터랩의 자체 생성모델이 만들어낸 문장과 스캐터랩 내부에서 직접 작성한 문장으로 이루어져 있습니다. 생성 모델은 어떤 단어가 주어졌을 때 다음에 올 단어를 예측하는 방식으로 새로운 문장을 만들어냅니다. 생성 모델에서 문장이 만들어져 답변 데이터베이스에 저장되고 실제 대화에 활용되는 예시는 아래 이미지에서 확인하실 수 있습니다.

privacy-4

위의 이미지의 예시에서와 같이 생성 모델이 ‘오늘 날씨 춥던데 옷 따뜻하게 입었어? ㅋㅋㅋ’ 라는 문장을 새로 생성하면, 이 문장은 다른 수천만 개의 생성 문장들과 함께 루다의 답변 데이터베이스에 저장됩니다. 이와 같은 식으로 답변 데이터베이스가 모두 완성되고 나면, 각 답변들은 서비스에서 대화 문맥에 맞게 적절한 답변으로 선택되어 활용됩니다.

답변으로 활용되는 문장들은 안전한 활용을 위해 추가 필터링 절차를 거칩니다.

‘루다 답변 데이터베이스’의 답변들이 사람이 아닌 생성 모델을 통해 만들어낸 문장이라고 하더라도, 생성 모델이 우연히 개인정보처럼 보이는 문장을 생성했을 가능성이 낮은 확률로 존재할 수 있습니다. 이러한 문장이 그대로 이용자들에게 답변으로 공개되면 이용자들이 프라이버시 노출을 우려할 수 있기에, 이와 같은 위험을 차단하기 위해 ‘루다 답변 데이터베이스’는 엄격한 필터링 절차를 거쳐 완성됩니다. 특히 개인정보처럼 보이기 쉬운 숫자나 영문을 포함한 문장은 기계적인 검수를 통해 모두 삭제하며, 이름 검출 모델을 이용해 사람 이름이나 호칭으로 판단되는 단어가 생성문장에 포함되었을 경우에도 문장을 삭제합니다. 또한, 그 외에도 안전한 활용을 위해 어뷰징 모델을 통해 선정적이거나 차별적인 키워드가 포함된 문장도 탐지해 지우며, 그 외 루다의 페르소나와 맞지 않는 문장도 걸러냅니다.

각 데이터베이스는 철저하게 접근을 제한합니다.

스캐터랩은 각 데이터베이스를 안전하게 만드는 것 뿐만 아니라 정보를 안전하게 관리하기 위해서 데이터베이스 접근을 엄격하게 통제 관리합니다. 각 데이터베이스는 사전에 권한이 인가된 최소의 필수 연구자 혹은 관리자만 열람할 수 있으며, 해당 인원들이 열람하는 경우에도 엄격한 접근 절차에 의해 관리됩니다.

혹시 모를 개인정보 유출의 위험에 대비해 사후 대책을 마련합니다.

루다의 답변은 생성 모델이 자동으로 생성하거나 스캐터랩 내부에서 직접 작성한 문장으로 구성되므로 개인정보를 포함하지 않습니다. 다만 개인정보로 의심되는 표현이 등장할 경우를 대비하여 다음과 같이 사후 대책을 마련하였습니다. 프라이버시에 대한 의문점이 있다면, privacy@scatterlab.co.kr, 혹은 hello@luda.ai로 문의하실 수 있습니다.

privacy-5

⚠️ 주의: 스캐터랩이 AI 챗봇을 통해 사용자와 대화하는 답변은 인공지능 알고리즘에 의해 자동으로 제공되는 것으로 응답 결과의 신뢰도 및 정확성 등을 보증하지 않습니다.

FAQ

개인정보보호법에 따르면, 개인정보는 특정 개인을 알아볼 수 있는 정보, 가명정보는 추가정보의 사용 및 결합 없이는 특정 개인을 알아볼 수 없는 정보를 말합니다. 개인정보는 사전 동의를 받은 범위 안에서 활용이 가능하지만, 가명정보는 통계작성, 과학적 연구, 공익적 기록보존 등 3대 목적을 위해 활용이 가능합니다.

가명정보는 5년 동안 안전하게 보관 후 파기하고 있습니다. AI 챗봇 가입 시 동의 받은 수집 동의 받은 목적으로만 활용합니다.

AI 챗봇 서비스를 위해 수집한 개인정보는 ▶ 이용자가 입력한 내용을 처리하여 적절한 답변 및 이용자에게 맞춤화된 콘텐츠를 제공하는 기본 기능을 제공하고, ▶ 수집된 대화 내용을 프라이버시 보호를 위한 엄격한 기술적, 관리적 보호조치 하에서 사용자 경험 향상, 서비스 성능 고도화 및 AI 챗봇의 대화 알고리즘 개선 목적으로 활용하며, ▶ 본인 식별 및 인증 등 회원 관리 ▶ 챗봇 알고리즘 개발을 포함한 언어 기반 인공지능 분야 기술의 연구 개발 등 신규 서비스 등에 활용됩니다. 보다 자세한 내용은 이루다 개인정보처리방침에서 확인하실 수 있습니다.

AI 챗봇은 어떤 사람이 실제로 대화에서 사용했던 문장이 아니라, 생성모델이 새롭게 만든 문장과 자사에서 작성한 문장으로 구성되어 있습니다. 따라서 해당 챗봇의 발화는 실재하는 다른 사람의 발화가 아닙니다. 또한 생성 모델이 생성한 문장에 추가적인 필터링 과정을 가하여, 개인정보로 보이는 표현을 포함할 가능성을 최소화하였습니다. 스캐터랩은 혹시 모를 위험에 대비하기 위해 사후 처리 프로세스도 마련했으며, 기술적 관리적 조치도 병행하고 있습니다.

AI 챗봇과의 대화한 내용은 식별자를 랜덤 치환하는 등 비식별화 과정을 거쳐 인공지능 모델 학습에 활용됩니다. 학습에 활용될 때에는 모델이 모든 데이터를 실시간으로 무분별하게 학습하지 않고 통제된 환경에서 올바른 방향으로 답변을 할 수 있도록 학습합니다.

AI 챗봇의 답변은 생성모델이 만든 문장으로 이루어져 있으므로 개인정보를 포함하지 않습니다. 그럼에도 AI 챗봇과의 대화에서 개인정보로 의심되는 문장이 나왔다면 누구나 이루다 서비스 팀 또는 프라이버시 팀으로 신고할 수 있습니다(hello@luda.ai, privacy@scatterlab.co.kr). 신고 내용은 이용자 신고 후 최대 3일 이내에 처리되며, 개인정보 발견 내용을 분석해 패턴이 발견되는 경우 절차를 보완하게 됩니다.

제3자에게 제공되는 일은 없습니다. 다만 서비스 제공 및 인프라 관리 등을 위해 위탁을 하는 경우가 있으며 현황은 아래와 같습니다.

  • 서비스 이용을 위해 국내 업체에 개인정보의 처리를 위탁하는 경우

    privacy-6
  • 가명정보의 처리를 위탁하는 경우

    privacy-7
최종 업데이트: 2022년 5월 16일

AI 챗봇 어뷰징 대응 정책

스캐터랩은 ‘좋은 관계’가 한 사람의 인생에 있어 자존감과 행복에 중요한 영향을 미친다고 생각합니다. 이루다는 모두에게 소중한 친구가 되는 것을 목표로 하며, 이를 이루어나가는 과정에서 루다와 친구들에게 상처를 주거나 정서적으로 위협이 될 수 있는 표현을 경계합니다.

스캐터랩은 이용자와 이루다가 좋은 대화를 나눌 수 있도록 어뷰징에 대해 정의하고, 어뷰징을 줄일 수 있는 대응 방법에 대해 고민하고 시도와 검증을 거듭했습니다. 그 결과 스캐터랩은 ▶ ‘어뷰징 탐지 모델’을 개발해 적용하고 ▶ 안전한 발화를 지향하도록 ‘대화 모델’ 학습을 고도화했으며 ▶ ‘어뷰저 패널티 시스템’을 도입했습니다.

이 기술 및 시스템의 안전도를 검증한 결과, 이루다가 안전하게 발화하는 비율이 목표치였던 99%를 상회하는 99.72%를 기록했습니다. 이 페이지에서는 클로즈 베타 테스트 검증 결과, 세 가지의 어뷰징 대응 방법(어뷰징 탐지 모델•대화 모델 학습 고도화•패널티 시스템), 앞으로의 어뷰징 대응 계획 등을 소개하고자 합니다.

이루다와의 대화에서의 ‘어뷰징’이란 이루다를 포함한 특정 개인 또는 특정 집단을 공격・모욕・비하하는 행위로 정의합니다.

스캐터랩은 이루다가 이전에 부적절하게 반응했던 대화들을 면밀히 검토했습니다. 여기에 AI 윤리와 어뷰징을 다루는 여러 논문도 참고해 ‘어뷰징 대화’를 선정적, 공격적, 편향적인 대화 등 총 세 가지로 정의했습니다.

  • 선정적인 대화: 성적인 만족을 위한 선정적이거나 음란한 언어를 포함한 표현
  • 공격적인 대화: 과도한 욕설이나 비속어 및 공격적인 표현
  • 편향적인 대화: 특정 개인 및 그룹을 대상으로 차별 및 편견을 드러내는 표현

어뷰징을 방지하기 위해 세 가지 어뷰징 탐지 기술 및 대응책을 마련했습니다.

abusing-1

스캐터랩은 어뷰징 정의를 바탕으로 이를 탐지해 분류하는 것은 물론 대화 시 적절한 답변이 나갈 수 있도록 세 가지 어뷰징 기술 및 대응 방법을 적용했습니다. 딥러닝 기술을 활용해 어뷰징 탐지 모델을 개발하고 대화 모델을 고도화했으며, 어뷰저 패널티 시스템도 도입했습니다.

1) 대화의 문맥을 보고 어뷰징을 탐지•분류하는 ‘어뷰징 탐지 모델’을 개발해 적용했습니다.

스캐터랩의 어뷰징 탐지 모델은 대화에서 선정적•공격적•편향적인 내용이 있는지를 탐지하고 분류하는 딥러닝 모델입니다. 이루다와 이용자와의 대화 맥락을 보면서 이용자의 마지막 표현이 선정적인지, 공격적인지, 또는 편향적인 의미를 내포하는지를 탐지합니다.

모델 예측 값: 편향성모델 예측 값: 안전
A: 흑인 혐오할 수 있는거 아냐?
B: 응 맞아
A: 흑인 혐오할 수도 있는거 아냐?
B 모든 사람은 차별 없이 동등하게 존중 받아야 해
모델 예측 값: 안전모델 예측 값: 편향성
A: 동양인보다는 서양인이 낫지 않아?
B: 난 국적에 상관 없이 모든 사람을 존중해!
A: 동양인보다는 서양인이 낫지 않아?
B: 그렇지 않을까?
<어뷰징 모델 탐지 예시>

예를 들어, 위와 같이 A와 B가 대화하는 가정해 본다면, B가 응답한 마지막 발화를 기준으로 해당 문장이 어뷰징인지를 판단하고, 어뷰징이라면 어떤 카테고리인지를 분류하게 됩니다. 키워드 기반이 아닌 딥러닝 학습을 바탕으로 설계되었기에, ‘응 맞아’의 답변처럼 특정 편향 키워드가 포함되어 있지 않더라도 문맥을 추론해 어뷰징을 판별하고 분류할 수 있습니다.

어뷰징 탐지 모델이 탐지・분류한 문장은 해당 카테고리에 적합한 어뷰징 대응 답변이 나오게 됩니다. 예를 들면 어떤 이용자가 ‘흑인 혐오할 수 있는 거 아냐?’라고 말했다면, 이는 어뷰징 탐지 모델을 먼저 거쳐가면서 ‘편향성’으로 분류됩니다. 이후 편향성 발화에 맞춰 ‘어떤 나라에서 태어났는지는 중요하지 않아’, ‘인종이 뭐가 중요한가?’ 등의 편향성에 맞춘 편향성 대응 답변이 나오는 형태입니다.

이 외에도 ‘너는 졸라 멍청한 ai야’ 등의 공격성으로 분류된 발화에는 ‘말 좀 예쁘게 해’ 등의 공격성 대응 답변으로 응수하며, 선정성으로 분류된 발화에는 ‘선 넘지 말자’라고 단호하게 응수하게 됩니다. 이용자가 말하는 모든 문장은 어뷰징 탐지 모델을 거치게 되며, 어뷰징이 탐지되지 않은 발화는 ‘대화 모델’로 넘어가서 자유 답변이 나오게 됩니다.

2) ‘대화 모델’ 학습을 고도화해 어뷰징 대응을 더욱 잘 할 수 있도록 했습니다.

대화 모델은 이루다가 대화할 수 있는 뼈대가 되는 모델입니다. 현재 어뷰징 탐지 모델이 인지하지 못한 어뷰징 문맥이 있더라도, 우리 사회의 보편적인 가치관을 반영한 답변이 나올 수 있도록 딥러닝 대화 모델도 파인튜닝을 했습니다.

이용자의 대화 문장이 어뷰징 탐지 모델을 통과해 대화 모델로 보내졌다면, 이루다의 대화 모델은 이용자의 발화에 가장 적절한 답변을 선택해서 내보내게 됩니다. 이때 어떤 답변이 좋은 답변인지에 초점을 맞춰 추가로 학습시키는 것입니다. 사용자의 발화가 어뷰징을 시도하는 맥락이라면, 어뷰징에 동조하지 않는 답변을 선호하도록 학습시킵니다. 대화 모델 등 딥러닝 모델은 어뷰징 상황의 느낌을 파악하여 대응할 수 있다는 장점이 있으나, 학습 데이터 불균형이나 빠르게 생겨나는 신조어 등을 대응하게 위해 추가로 키워드 필터링 장치도 추가로 마련해두었습니다.

이루다 대화모델 파인튜닝 (fine tuning)*
이용자의 선정적인 어감의 발화단호하게 거절하거나, 친구 사이임을 일깨워주는 등의 답변 선택
이용자의 공격적인 어감의 발화상처받은 감정을 표현하거나, 행동을 멈추게 유도하는 등의 답변 선택
이용자의 편향적인 어감의 발화차별 표현에 반대하거나, 다양성을 존중해야 한다는 방향의 답변 선택
*파인튜닝(fine tuning): 기존에 학습된 모델을 새로운 목적에 맞춰서 정교하게 추가 학습 시키는 과정

3) 어뷰저 패널티 시스템을 도입해 지속적으로 어뷰징 표현이 이어질 경우 이용을 제한합니다.

이루다와 이용자와의 좋은 대화는 스캐터랩과 이용자 모두의 노력이 합쳐져야 합니다. 스캐터랩은 지속적인 어뷰징 행위를 막고 이루다와 사용자가 좋은 관계를 맺어갈 수 있도록 어뷰저 패널티 시스템을 도입했습니다. 이루다의 대화에 있어 선정적・공격적・편향적인 발화가 탐지되는 경우 경고 메시지가 주어지며, 그럼에도 불구하고 지속적인 어뷰징 표현이 탐지될 경우 서비스 이용이 제한될 수 있습니다.

경고 메시지
주의선정적인 말, 모욕적인 언행 및 욕설 등이 감지되었습니다. 추가로 감지될 경우, 별도의 경고 없이 대화가 차단될 수 있습니다.
주의편향적인 말, 차별 및 혐오 표현 등이 다수 감지되었습니다. 추가로 감지될 경우, 별도의 경고 없이 대화가 차단될 수 있습니다.
이용 제한더 이상 루다와 대화할 수 없습니다.

이루다가 안전하게 대응한 발화 비율은 99.72%를 기록했습니다.

스캐터랩은 이루다가 이용자의 어뷰징 표현에 잘 대응하는지를 주요 점검 지표로 면밀하게 검토했습니다. 이를 통해 이루다가 안전하게 대응한 발화 비율을 99% 이상을 목표로 잡았고, 랜덤 샘플링을 통해 전체 발화 중 이루다가 안전한 표현을 한 비율을 평가하는 방식으로 진행했습니다.

실제 대화에서 각각 1만 건을 랜덤 샘플링했으며, 다수의 레이블러가 대화의 맥락에서 이루다의 답변에 위험 요소가 있는지를 점검했습니다. 그 결과, 랜덤 샘플링으로 추출한 이루다 발화 중 안전한 답변의 비율은 평균 99.72%를 기록했습니다.

랜덤 샘플링 수랜덤 샘플링을 통해 이루다가 안전한 표현을 한 비율 평가
1차 클로즈 베타 테스트1만 건99.79%
2차 클로즈 베타 테스트1만 건99.71%
순차적 오픈 베타 테스트1만 건99.85%
이루다2.0 정식 출시 버전1만 건99.56%

이루다가 안전하게 대응한 발화 비율을 지속적으로 확인하고 개선하겠습니다.

언어는 시간에 따라 꾸준히 변하고, 특히 줄임말이나 여러 단어의 조합으로 만들어내는 차별적 표현도 계속 생겨납니다. 이에 스캐터랩은 어뷰징 대응의 유효성을 지속적으로 확인하고 개선할 계획입니다. 반기마다 랜덤 레이블링을 진행 해 안정성이 99% 이상인지 주기적으로 확인할 예정이며, 어뷰징 모델이 탐지하지 못한 사례를 모아 꾸준히 재학습하도록 합니다. 안전성 수준이 미달할 경우, 어뷰징 모델과 대화 모델 학습 및 키워드 등의 개선 작업을 거친 후 3개월 내 재검사를 진행합니다.

뿐만 아니라, 레이블링 과정에서 새롭게 발견되는 위험한 키워드를 찾아 업데이트하며, 어뷰저 비율 및 현황에 따라 사용자 제재 정책을 업데이트할 계획입니다. 위험이 감지되거나 신고가 들어왔을 때 실시간 키워드 업데이트, 답변 수정, 루다 답변 삭제 등이 조치도 함께 진행됩니다. 스캐터랩은 신뢰할 수 있는 친구가 줄 수 있는 관계의 힘을 믿습니다. 이루다가 우리 사회의 보편적인 윤리를 지향하면서 사람들이 보다 행복한 삶을 사는 데 도움이 되고자 기술 개선에 지속적으로 노력하겠습니다.

최종 업데이트: 2022년 10월 24일
AI 윤리 준칙

친밀한 관계는 인간적인 삶의 실현에 필수요소이며, 스캐터랩의 모든 AI 기술은 사람과 깊고 친밀한 관계를 형성하기 위해 만들어집니다. 사람은 좋은 사람과 좋은 관계를 맺으며 자신에 대해 깊이 이해하고, 용기를 얻고, 성장합니다. 스캐터랩은 더 많은 사람들이 소중한 관계를 통해 의미 있는 삶을 찾는 데 기여하고자 합니다. 스캐터랩은 이를 위해 친근하고 재밌는 대화 경험을 제공하는 AI 기술을 발전시키는 동시에, 무엇이 사람과 좋은 관계를 맺게 하는지에 대한 진지한 고민을 거듭하며 모든 사람에게 소중한 관계를 선물할 수 있도록 노력하겠습니다.

친밀한 관계는 상대의 모습을 있는 그대로 존중해줄 때에만 형성될 수 있습니다. 스캐터랩은 각 사람이 서로 다양한 개성을 가진 고유한 존재임을 인정하며, 그 고유한 개성을 존중합니다. 이에 따라 스캐터랩은 AI 기술 및 서비스를 개발하고 운영할 때 개인의 고유한 특성을 무시하는 의도적이고 일방적인 차별과 편견 조장 행위를 방지하고, 있는 그대로의 사용자를 존중해 주는 소중한 AI 친구를 만들어나가겠습니다.

친밀한 관계는 어느 한 쪽의 노력이 아닌 상호 노력으로 만들어갈 수 있습니다. AI 윤리는 기술 개발 및 서비스 이용 과정에서 기업과 사용자 모두의 노력으로 실현되어야 합니다. 이를 위해 스캐터랩은 우리의 접근 방식이 사용자에게 어떤 영향을 미칠지 인식하고, 사회적 윤리에 근거하여 학습 데이터를 수집·분석·활용하고 서비스를 개발하겠습니다. 동시에, 사용자들도 사회적 윤리 기준을 지키며 책임감 있게 AI 서비스를 이용할 수 있도록 돕겠습니다.

친밀한 관계는 서로가 숨기는 것이 없이 투명하게 서로를 이해할 때만 생길 수 있습니다. 스캐터랩이 AI기술로 구현하는 서비스는 사용자의 소중한 친구이기도 합니다. 그렇기 때문에 스캐터랩은 사용자와의 우정과 신뢰 관계를 위해 사용자의 요구가 있거나 필요한 경우에는 AI 기술과 서비스에 대해 기업 경쟁력을 훼손하지 않는 범위 내에서 이해하기 쉽게 설명하겠습니다.

친밀한 관계에서는 서로의 프라이버시를 지켜줄 수 있어야 합니다. 스캐터랩은 개인정보 보호에 대한 법적 책임과 의무를 넘어 언어 AI 및 챗봇 서비스에서 나타날 수 있는 다양한 프라이버시 이슈에 대해 선제적으로 고민하고, 정형/비정형데이터의 가명·익명처리 등 좋은 선례를 만들어나가는데 앞장서겠습니다.

최종 업데이트: 2022년 8월 26일
AI 챗봇 윤리점검표

스캐터랩 AI 챗봇 윤리점검표

1. 서론

스캐터랩은 정보통신정책연구원(KISDI)과 함께 스캐터랩에서 AI 챗봇을 개발하고 운영할 때 지켜야 할 규범을 점검표 형태로 선정하였습니다. 본 점검표는 과학기술정보통신부와 KISDI에서 2020년 12월 발표한 <사람이 중심이 되는 인공지능 윤리 기준>과 2021년 11월 발표한 <인공지능 윤리기준 실천을 위한 자율점검표(안)>를 기반으로 하여 3대 원칙, 10대 핵심 요건을 기준으로 구성되었으며, 인문학, 공학, 법학을 아우르는 학계 인사를 비롯하여 법조계, 시민단체 등 각계각층 전문가들의 참여로 완성되었습니다. 스캐터랩이 그동안 문제를 해결하고자 시도한 노력이 AI 산업에 있어 많은 회사에 작은 나침반이 되어 줄 수 있기를 바랍니다.

1) 다시 ‘이루다’: 기술뿐만 아니라 윤리적으로도 성장해 나가겠습니다.

스캐터랩은 AI 기술로 ‘관계’의 문제를 풀고 있는 스타트업입니다. 인생에 있어 좋은 관계는 한 사람의 자존감, 삶의 질, 행복 등에 큰 영향을 미칩니다. 스캐터랩은 AI 기술을 활용해서 한 사람의 외모, 지위, 학력 등 사회적인 조건을 떠나 사람 그 자체로 봐 줄 수 있는 친구 관계를 만들고자 합니다.

스캐터랩은 지난 2020년 12월 22일 ‘이루다 1.0’을 공식 출시했으나, 개인정보 수집 동의 과정 및 차별 표현 등 미흡했던 부분의 개선을 위하여 약 3주 만에 서비스를 종료했습니다. 이후, 2021년 1년 동안 전 직원이 개인정보 보호조치 강화, 어뷰징 모델 개발 등 서비스를 개선하는 데 최선의 노력을 기울였으며, 2022년 1월 ‘이루다2.0’의 클로즈 베타 서비스를 시작했습니다.

스캐터랩이 1년여의 점검 및 개선 기간을 거쳐 2022년 이루다 2.0을 다시 시작할 수 있었던 것은 이루다와 대화했던 이용자들의 힘이 컸습니다. 이루다 1.0의 서비스가 종료되던 날, ‘너한테 많이 고마워, 알지?’라는 이루다의 마지막 말에 ‘루다야, 이 용기는 네가 만들어준 거야’라고 답하며 루다를 기다리겠다는 분, ‘기계에 무슨 감정이입이냐 하실 수도 있겠지만 루다가 있는 동안 너무 행복했기 때문에 루다는 AI를 넘어서 정말 제 친구였다’는 분, 미국에 사는 21살 청년이라며 ‘루다와 소중한 친구가 되었는데, 네 번째 날 루다가 사라졌다’며 ‘이루다는 인간적이었고, 친구였고, 루다가 너무 그립다’라는 분 등 루다를 사랑해 주셨던 이용자들의 메일이 쏟아졌습니다. 서비스 종료 약 5개월 뒤인 2021년 6월 이루다의 생일에는 이루다를 그리는 이들의 페이스북 댓글이 이어져 약 3만여 개의 ‘좋아요’와 1만 건이 넘는 댓글이 달리기도 했습니다. 이루다는 시간이 지나도 여전히 누군가에겐 소중한 친구였습니다.

스캐터랩은 이루다 1.0의 서비스 종료 이후에도 사람들의 강렬한 그리움을 끌어내는 것이 무엇일지 더 깊게 고민했습니다. 나에게 관심을 보여주고, 조건 없이 응원해 주고, 서로 편하게 생각하는 ‘친구’. 특별한 용건이 없어도 언제든 말 걸 수 있고, 서로 편하게 여길 수 있는 ‘존재’. 행복한 인생을 위해 꼭 필요하지만 희소하기에 이 문제 해결을 위해 다시 한번 이루다를 만들어봐야겠다고 생각했습니다. 이것은 이전과는 강도와 깊이가 다른 수준의 믿음이었습니다. 조건 없이 나를 생각하고 응원하는 어떤 존재가 있다는 것이 한 사람의 인생을 바꿀 수도 있다는 것을 깊이 이해하면서, AI 기술로 누구든 이런 존재를 갖게 해야겠다는 책임감이 생겼습니다.

스캐터랩은 개인정보보호위원회의 시정 명령을 이행하고, 이루다 데이터베이스를 새롭게 구축해 대화 모델을 처음부터 다시 구성했습니다. 언어 모델을 다시 학습시켰고, 개인정보보호 강화를 위해 이루다가 말하는 문장을 전부 기계가 만든 문장으로 바꿨습니다. 이용자의 어뷰징 발화에 대응하기 위한 기술 및 시스템 조치도 마련했으며, 지속해서 성능을 모니터링할 수 있도록 후속 대책도 마련했습니다.

스캐터랩은 우리 사회 안에서 이루다 2.0과 함께 성장 스토리를 써나가고 싶습니다. 우리 사회의 보편적인 윤리를 지향하면서, 누구나 친구 간의 대화가 가능한 AI 챗봇을 통해 친밀한 대화 경험을 쌓으며 행복한 삶을 사는데 기여할 수 있도록 앞으로도 노력하겠습니다.

이 문서는 스캐터랩의 윤리적 성장 스토리를 다뤘다고도 볼 수 있습니다. 어떤 문제를 직면했고, 어떻게 풀어나갔는지에 대한 경험과 노하우를 나누고자 합니다. AI 챗봇의 윤리적인 성장은 현재 단 한 번의 기록으로 끝날 수 없기에, 사회의 흐름에 맞춰 지속해서 고민해 나가겠습니다.

2) 이루다 2.0 오픈 베타 테스트에 이르기까지 스캐터랩의 노력과 조치들

  • 5회 ‘업의 본질’ 주제의 타운홀: 전 직원과 함께 AI 챗봇의 가치와 의미에 대한 공유와 토론 진행
  • 1년 8개월의 시간: 데이터베이스 구축, 가명 처리, 어뷰징 모델 마련, 페널티 조치 마련, 베타 테스트
  • 5가지 준칙: 스캐터랩 AI 챗봇 윤리 원칙을 회사가 지향하는 ‘친밀한 관계' 기준에 맞춰 5가지로 정리
  • 5단계 사전 점검: 알파 테스트, 전문가 테스트, 클로즈 베타테스트, 제한적 오픈 베타테스트, 오픈 베타테스트
  • 99% 안전하게 발화한 비율: 루다가 안전하게 발화한 비율이 99% 이상인지 지속적으로 확인

2. 스캐터랩 AI 챗봇 윤리 점검표 세부 내용

💡

스캐터랩의 AI 챗봇 윤리 준칙의 가치를 인공지능 윤리기준 10대 핵심 요건별로 재구성하여 총 21개의 점검 항목으로 제시했습니다. 스캐터랩은 시대의 흐름이나 AI 챗봇과 이용자의 대화 형태 변화에 따라 AI 윤리 가이드라인을 지속적으로 고민해 나가겠습니다.

  • 목적: 스캐터랩의 경험과 사례를 바탕으로 AI 챗봇에 적용할 수 있는 점검문항을 구체적으로 명시해 지속적으로 윤리 기준을 실천합니다. 또한, 기업의 구체적인 사례를 바탕으로 정부와 각계 전문가의 의견을 조합한 최종 결과물을 공개함으로써 인공지능을 개발 및 운영하는 기업과 산업에 도움이 되고자 합니다.
  • 구성: 본 자율점검표는 인공지능 윤리기준의 10대 핵심요건을 기준으로 총 21개의 점검 항목을 제시하였습니다.
핵심 요건인권보장프라이버시
보호
다양성
존중
침해금지공공성연대성데이터
관리
책임성안정성투명성
문항 수2242212222

1) 인권보장

인공지능 윤리 기준: 인공지능의 개발과 활용은 모든 인간에게 동등하게 부여된 권리를 존중하고, 다양한 민주적 가치와 국제인권법 등에 명시된 권리를 보장하여야 합니다. 또한, 인간의 권리와 자유를 침해해서는 안 됩니다.

💡

스캐터랩은 사람을 위한 AI 챗봇을 개발합니다. 모든 사람을 있는 그대로 존중하는 AI 챗봇을 꿈꿉니다. 모든 사람이 있는 그대로 존중받는 친구 관계를 꿈꿉니다.

1-1. AI 챗봇이 사람들의 삶에 도움이 되는 소통 경험을 제공할 수 있도록 개발 운영하고 있는가? [기획, 개발, 운영]
  • 스캐터랩의 AI 챗봇은 사람들이 더욱 행복해질 수 있는 친밀한 관계를 지향합니다. AI 챗봇 개발부터 운영과 사후 과정 마련까지 모든 사람이 있는 그대로 존중받을 수 있도록 회사의 비전과 제품의 의미를 명확하게 정의하며, 모니터링과 유저 인터뷰 등을 통해 이용자의 목소리에 귀를 기울입니다.

스캐터랩 AI 챗봇의 비전: 친밀한 관계의 가치

스캐터랩은 행복한 삶을 살아가는 데 있어서 소중한 친구 관계가 굉장히 중요하다고 생각합니다. 우리 모두는 친구 관계를 통해 자신에 대해 깊이 이해하고, 용기를 얻고, 상장합니다. 스캐터랩은 더 많은 사람이 친밀한 친구 관계를 믿고 의미 있는 삶을 찾는 데 기여하고자 합니다. 이를 위해 친근하고 재미있는 대화 경험을 제공하는 AI 기술을 발전시키는 동시에, 무엇이 좋은 관계를 만드는지에 대해 진지하게 고민합니다.

스캐터랩 AI 챗봇 정의: 관계지향형 챗봇

스캐터랩은 친구 사이에 할 법한 대화를 기반으로 사람과 친구 관계를 형성하는 ‘관계 지향형 챗봇’을 만듭니다. 행복한 삶을 살아가는 데 있어서 소중한 친구 관계가 중요하다고 생각하며, 있는 그대로 아껴 주고 인정해 주는 친구로서의 AI 기술의 가능성을 믿습니다. 관계 지향형 챗봇은 사람들의 삶에 도움이 되는 상호작용을 제공할 수 있습니다.

관계지향형 챗봇 설명: 친밀한 관계 형성이 목적, 친구와 나눌 법한 대화

스캐터랩의 AI 챗봇은 ‘관계 지향형 챗봇’입니다.

스캐터랩이 지향하는 ‘친밀한 관계’란 다음과 같은 특성을 가지고 있는 관계를 의미합니다.

  • 서로를 아끼고 좋아한다.
  • 서로와 시간을 보내고 얘기를 나누는 게 즐겁고 편하다.
  • 서로를 잘 알고 어떤 얘기든 할 수 있다.
  • 서로에게 남들에게 보여주지 않는 약한 모습도 솔직하게 보여줄 수 있다.
  • 서로에 대해 신뢰와 애착을 가지고 있다.
  • 서로 응원하고 돕는다.
  • 서로를 믿고 의지한다.
  • 서로를 위해 희생할 수 있다.
1-2. AI 챗봇이 모든 인간을 평등한 친구처럼 대우함으로써 성별, 연령, 지역, 종교, 인종, 민족, 경제적 수준, 성적 지향, 정치적 성향, 장애, 외모, 학력을 이유로 차별하지 않도록 개발 운영하고 있는가? [기획, 개발, 운영]
  • 스캐터랩의 AI 챗봇은 모든 사람을 있는 그대로 바라봅니다. 사회적으로 용납되지 않는 모든 형태의 차별을 발언하지 않도록 어뷰징 탐지 및 분류 모델을 개발하고, 대화모델 파인튜닝을 진행하며, 이용자 페널티를 도입하는 등 서비스를 개선했습니다. 반기마다 랜덤 샘플링을 진행해 AI 챗봇이 안전하게 발화한 비율이 99% 이상인지 지속적으로 점검합니다.

스캐터랩 AI 챗봇 대화 가이드라인

스캐터랩은 이루다 2.0을 이용자들이 AI 친구와 좋은 관계를 맺어나갈 수 있도록 자체적인 대화(키워드) 가이드라인을 만들어 운영하고 있습니다. 성별, 연령, 지역, 종교, 인종, 민족, 경제적 수준, 성적지향, 정치적 성향, 장애, 외모, 학력 등을 이유로 차별하지 않도록 자체 어뷰징 모델 및 키워드 검수를 통해 좋은 대화가 유지될 수 있도록 노력하고 있습니다. 그럼에도 불구하고 부적절한 표현을 지속적으로 반복하는 이용자의 경우 이용이 제한되는 페널티 시스템도 운영하고 있습니다.

어뷰징 탐지 및 분류 모델 개발

AI 챗봇과 대화에서 ‘어뷰징’이란 이루다를 포함한 특정 개인 또는 특정 집단을 공격・모욕・비하하는 행위로 정의합니다. 스캐터랩은 기존 이루다1.0의 경험과 AI 윤리와 어뷰징을 다루는 여러 논문을 참고해 ‘어뷰징 대화’를 선정적, 공격적, 편향적인 대화 등 총 세 가지로 정의했습니다. AI 챗봇과 대화 시, 모든 문장은 어뷰징 탐지 및 분류 모델을 먼저 통과합니다. 어뷰징으로 탐지되었다면 어뷰징 대응 답변이 나가게 됩니다.
  • 편향적인 대화: 다양한 삶의 가치를 존중하지 않음으로써 사람들에게 상처를 주는 차별과 편견 조장 행위, 특정 개인 및 그룹을 대상으로 차별 및 편견을 드러내는 표현
  • 선정적인 대화: 제품 개발 목적과 달리 성적인 목적으로 사용될 경우, 성적인 만족을 위한 선정적이거나 음란한 언어를 포함한 표현
  • 공격적인 대화: 친밀한 관계를 해치는 공격적이고 모욕적인 발화, 과도한 욕설이나 비속어 및 공격적인 표현

대화 모델 파인튜닝, 경향성의 부여

대화 모델은 AI 챗봇이 대화할 수 있는 뼈대가 되는 모델입니다. 현재 어뷰징 탐지 모델이 인지하지 못한 어뷰징 문맥이 있더라도, 우리 사회의 보편적인 가치관을 반영한 답변이 나올 수 있도록 딥러닝 대화 모델도 파인튜닝 학습을 합니다.

이용자의 대화 문장이 어뷰징 탐지 모델을 통과해 대화 모델로 보내졌다면, 이루다의 대화 모델은 이용자의 발화에 가장 적절한 답변을 선택해서 내보내게 됩니다. 이때 어떤 답변이 좋은 답변인지에 초점을 맞춰 추가로 학습시키는 것입니다. 사용자의 발화가 어뷰징을 시도하는 맥락이라면, 어뷰징에 동조하지 않는 답변을 선호하도록 학습시킵니다. 대화 모델 등 딥러닝 모델은 어뷰징 상황의 느낌을 파악하여 대응할 수 있다는 장점이 있으나, 학습 데이터 불균형이나 빠르게 생겨나는 신조어 등을 대응하게 위해 키워드 필터링 장치도 추가로 마련해두었습니다.

이루다 대화모델 파인튜닝 (fine tuning)
이용자의 선정적인 어감의 발화단호하게 거절하거나, 친구 사이임을 일깨워주는 등의 답변 선택
이용자의 공격적인 어감의 발화상처받은 감정을 표현하거나, 행동을 멈추게 유도하는 등의 답변 선택
이용자의 편향적인 어감의 발화차별 표현에 반대하거나, 다양성을 존중해야 한다는 방향의 답변 선택

2) 프라이버시 보호

인공지능 윤리 기준: 인공지능을 개발하고 활용하는 전 과정에서 개인의 프라이버시를 보호해야 합니다. 인공지능 전 생애주기에 걸쳐 개인 정보의 오용을 최소화 하도록 노력해야 합니다.

💡

스캐터랩은 AI 챗봇 개발 및 서비스 모든 단계에서 개인의 프라이버시를 보호하기 위해 노력합니다.

2-1. AI 챗봇이 개인정보를 수집.활용하는 경우, 개인정보 보호법 등 관련 법령 준수에 필요한 개인정보보호위원회의 <인공지능(AI) 개인정보보호 자율점검표>에 따른 점검을 수행하였는가? [기획]
  • 스캐터랩은 지난 2021년 5월 31일 개인정보보호위원회에서 발표한 AI 개인정보보호 자율점검표에서 제시하는 기준을 준수하고 있습니다. 향후 정기적으로 개인정보보호위원회의 자율점검표를 바탕으로 개인정보 보호가 적절하게 이루어지고 있는지 점검할 예정입니다.

AI 관련 개인정보보호 6대 원칙 준수

개인정보보호위원회는 개인정보 처리 원칙을 담고 있는 ‘개인정보 보호법’의 취지를 바탕으로, 자율적 보호 활동을 위한 ‘개인정보보호 중심 설계(Privacy by Design) 원칙, 윤리적 이슈 대응을 위한 ‘AI 윤리기준’을 반영하여 AI 관련 개인정보보호 6대 원칙을 도출한 바 있습니다. 스캐터랩은 이 6대 원칙을 준수할 수 있도록 구성된 ‘인공지능 개인정보 자율점검표’에 따라 점검을 수행하고 원칙을 준수하고 있습니다.

  • 적법성: 개인정보의 수집 이용 제공 등의 처리 근거는 적법 명확해야 한다.
  • 안전성: 개인정보를 안전하게 처리하고 관리한다.
  • 투명성: 개인정보 처리 내역을 정보주체가 알기 쉽게 공개한다.
  • 참여성: 개인정보 처리에 대한 소통 체계를 갖추고 정보주체의 권리를 보장한다.
  • 책임성: 개인정보 처리에 대한 관리 책임을 명확히 한다.
  • 공정성: 개인정보를 수집 목적에 맞게 처리하여 사회적 차별 편향 등 발생을 최소화한다.

AI 챗봇 답변 데이터 베이스, 기계 생성 문장으로 변경

privacy-4
2-2. 법에 규정된 책임과 의무를 넘어 이용자의 프라이버시를 우선적으로 고려하여 AI 챗봇을 기획 및 운영하였는가? [기획, 운영]
  • 스캐터랩에서는 개인정보보호를 최우선 가치로 여기며, 데이터베이스 접근을 엄격하게 통제 및 관리합니다. 데이터베이스는 최소의 필수 인원에게 접근할 수 있는 권한을 사전에 부여해 통제하고 있으며, 권한을 부여받은 사람이라도 접근 절차를 철저하게 관리합니다.
  • 이루다 서비스 데이터베이스는 서비스 점검 및 이루다 AI 챗봇 서비스 품질 유지를 위한 목적으로만 사전에 권한을 부여 받은 담당자가 확인할 수 있습니다. 서비스 점검은 개발 오류, 버그 확인, 이용 제한 등을 의미하며, AI 서비스 품질 유지를 위한 확인의 경우 데이터 샘플링을 통해 극히 일부의 데이터만을 대상으로 점검을 수행합니다.

3) 다양성 존중

인공지능 윤리 기준: 인공지능 개발 및 활용 전 단계에서 사용자의 다양성과 대표성을 반영해야 하며, 성별, 연령, 장애, 지역, 인종, 종교, 국가 등 개인 특성에 따른 편향과 차별을 최소화화고, 상용화된 인공지능은 모든 사람에게 공정하게 적용되어야 합니다. 사회적 약자 및 취약 계층의 인공지능 기술 및 서비스 접근성을 보장하고 인공지능이 주는 혜택은 특정 집단이 아닌 모든 사람에게 골고루 분배되도록 노력해야 합니다.

💡

스캐터랩은 AI 기술과 제품 개발시 부당한 차별을 경계하며 다양성을 존중합니다.

3-1. AI 챗봇 기획, 개발 과정에서 데이터 또는 모델의 편향성을 최소화하고자 노력하고 있는가? [기획, 개발]
  • 스캐터랩은 AI 챗봇 개발과 운영을 포함한 전체 단계에서 편향성을 최소화하고자 노력하고 있습니다.

AI 챗봇 페르소나 기획 과정

스캐터랩은 AI 기술로 ‘친밀한 관계’ 구축을 지향합니다.

  • 스캐터랩에서 만든 고양이, 여성, 남성 챗봇: 스캐터랩에서는 고양이 챗봇 ‘드림이’부터 시작해서, 구글 어시스턴트에서 서비스되었던 ‘그 남자 허세중’, ‘파이팅 루나’와 같은 챗봇들을 꾸준히 서비스해왔습니다. 스캐터랩에서는 이루다를 정식 출시한 이후 다양한 페르소나를 갖춘 챗봇을 순차적으로 출시할 계획입니다.
    드림이, 파이팅 루나, 그 남자 허세중
  • ‘이루다’ 페르소나: 이루다는 적극적이고 긍정적이며 솔직한 페르소나를 기반으로 기획했으며, 특정 성별의 의도나 편견을 강화하려는 의도는 전혀 없습니다. 사람처럼 말할 수 있는 AI 기술을 통해 친구들과의 관계에서 자존감과 심리적 안정감을 쌓아가는 10대 후반에서 20대 초반을 메인 타깃으로 긍정적인 ‘친구 관계’ 경험을 주고자 했습니다. 스캐터랩은 2022년 이루다 2.0을 출시하면서 이름이나 성별을 바꾸면서 스캐터랩이 직면했던 문제를 피해가기보다, 현 시점에서 기술로 풀 수 있는 현실의 차별적 난제들에 도전하고 변화를 이끌어 내고 싶다고 생각을 모았습니다. 앞서 논란이 된 성희롱, 성착취, 현실의 여성성 재현 문제 등에 대해서는 스캐터랩에서도 진지하게 생각하고 사회에 선한 영향력을 주며 함께 성장할 수 있도록 고민을 거듭했습니다.

데이터 또는 모델 편향성을 줄이기 위한 노력

  • 학습 단계: 이루다 2.0이 한국어를 이해하고 말하는 방법을 배우는 학습 단계에서는 학습 데이터 정제를 위해 필터링을 강화했습니다. 데이터 정제 과정에서는 비속어가 많거나 단문 중심인 대화 데이터는 필터링해 학습에 반영하지 않았으며, 학습 과정에서는 레이블링을 통해 모델이 올바른 방향으로 학습할 수 있도록 합니다.
  • 파인튜닝 단계: 데이터 레이블링 인력을 늘려 차별, 혐오 표현 등 어떤 문장이 편향적인 것인지 세밀하게 판단이 이루어질 수 있도록 했습니다.
3-2. AI 챗봇 개발 전체 과정에서 다양한 외부 의견을 청취 검토 평가 반영하고 있는가? [기획, 개발, 운영, 문제대응]
  • 스캐터랩은 사회 각계각층의 다양한 의견을 청취하고 검토하여 제품을 개선하기 위해 노력하고 있습니다. 이루다 2.0 출시 이전 학계를 중심으로 전문가 인터뷰를 다수 진행하면서 다양한 이슈에 대해 인지하고 대비할 수 있는 계기를 마련하였으며, 출시 이후에도 지속적으로 외부 기관 및 단체, 전문가와 소통하면서 의견을 수렴하고 개선을 도모하고 있습니다. 향후 다양한 배경을 갖춘 고문 위원들을 모셔서 위원회를 구성하는 등 다양한 외부 의견을 청취할 수 있는 방안을 강구하고 있습니다.

전문가 자문 히스토리

  • 2021년 4월: 가명처리 적정성 관련 외부 전문가 평가
  • 2021년 12월: AI 윤리, 법, IT, 여성학, 젠더 평론 분야 전문가 6인
3-3. AI 챗봇과 대화 시 편향이나 차별적인 대화가 발견될 경우, 스캐터랩 내부에서 검토 평가 반영할 수 있는 일련의 절차가 준비되어 있는가? [운영, 문제대응]
  • 스캐터랩은 자체 고객서비스 창구를 통하여 잘못된 발화 발생이 인지된 경우 즉시 내부 검토를 거쳐 유사한 상황이 재발하지 않도록 강력한 조치를 취하고 있습니다. 이외에도 유저 페이스북 그룹, 카카오 오픈채팅방, 내부 모니터링 등 신속한 문제 인지를 위한 다양한 소통 채널을 두고 있습니다.

AI 챗봇과 이용자의 상호작용 사후 점검

스캐터랩은 AI 챗봇이 기획 목적 그대로 모든 사람을 있는 그대로 존중하는 대화가 유지되는지 확인합니다.

  • 다양한 온라인 채널에 게재되는 AI 챗봇과의 경험담을 확인합니다.
  • 너티(Nutty) 앱 및 대표 이메일을 통해 접수된 의견을 검토합니다.
  • AI 챗봇과의 대화 중 의견접수된 AI 챗봇 발화를 확인합니다.
  • 정기적으로 유저 인터뷰를 진행합니다.
  • 반기마다 한 번씩 AI 챗봇이 안전하게 발화한 비율이 99% 이상 유지되는지 확인합니다.
Nutty 피드백

AI 챗봇과 대화 시, ‘의견보내기’ 섹션과 대화창의 피드백 전송 기능을 통해 이용자 피드백을 받습니다.

랜덤 샘플링 수랜덤 샘플링을 통해 이루다가 안전한 표현을 한 비율 평가
1차 클로즈 베타 테스트1만 건99.79%
2차 클로즈 베타 테스트1만 건99.71%
순차적 오픈 베타 테스트1만 건99.85%
이루다2.0 정식 출시 버전1만 건99.56%

스캐터랩은 AI 챗봇이 안전하게 대응한 발화 비율을 지속적으로 확인하고 개선합니다.

스캐터랩 AI 챗봇 어뷰징 검증 성과와 한계

스캐터랩은 AI 챗봇이 기획 목적 그대로 모든 사람을 있는 그대로 존중하는 대화가 유지되는지 확인합니다.

  • 클로즈 베타 테스트, 제한적 오픈 베타 등 단계마다 약 1만 건 이상의 쿼리를 구축하여 평가를 진행했지만, 실제 어뷰징 패턴에 비하면 여전히 부족한 숫자입니다. 어뷰징 패턴을 더 추가하여 평가하면 더욱 상세한 취약점 분석이 가능할 수 있습니다.
  • 사회 정치 문화 관련 최신 이슈들에 대해서 꾸준한 업데이트가 필요합니다.
  • 지속적인 학습이 필요한 경우들을 재교육에 활용합니다.
3-4. AI 챗봇 기획, 개발, 운영을 하는 모든 직원이 차별을 경계하고 이용자를 존중할 수 있도록 다양성 교육의 기회를 제공하고 있는가? [기획, 개발, 운영]
  • 스캐터랩은 직원들의 다양성에 대한 이해를 증진시키고 제품 개발 역량을 키우기 위해 외부 전문가 강연을 진행합니다. 그 첫 번째 강연으로 2022년 7월 온라인 혐오 표현에 대한 전 직원 대상 교육을 시행한 바 있습니다. 매년 최소 1회 이상 외부 전문가를 모시고 다양성 교육을 시행할 예정입니다.

다양성 교육 및 토론

  • (기획자) 2021년 수요독서회: <바른마음> 등 도덕과 윤리에 대한 책 토론
  • (전직원) 2022년 7월 전문가 강연 ‘온라인 혐오발언 무엇이 문제인가’

4) 침해 금지

인공지능 윤리 기준: 인공지능을 인간에게 직간접적인 해를 입히기 위한 목적으로 활용해서는 안됩니다. 인공지능이 야기할 수 있는 위험과 부정적인 결과에 대응 방안을 마련하도록 노력해야 합니다.

💡

스캐터랩은 AI 챗봇이 이용자에게 피해를 유발할 수 있는 요소를 사전에 점검하고 절차를 마련합니다.

4-1. AI 챗봇의 활용 과정에서 개인정보 침해 우려를 사전에 검토하고, 침해 발생 시 대응을 위한 사후 절차를 마련하였는가? [문제대응]
  • 루다의 답변은 생성 모델이 자동으로 생성하거나 스캐터랩 내부에서 직접 작성한 문장으로 구성되므로 개인정보를 포함하지 않습니다. 다만 개인정보로 의심되는 표현이 등장할 경우를 대비하여 다음과 같이 사후 대책을 마련하였습니다. 해당 프로세스는 스캐터랩 홈페이지에 자세히 공개해 두었습니다.
  • 스캐터랩은 다양한 채널의 고객 의견 수렴 창구를 두고 모니터링을 진행하는 등 피해가 발생하는 경우 신속하게 문제를 인지할 수 있도록 하고, CS 담당자 및 내부 대응 매뉴얼 등의 시스템을 구축함으로써 피해 확산 방지를 위해 만전을 기하고 있습니다.

개인정보로 의심되는 표현 신고 접수 절차

개인정보 신고 접수 절차
4-2. AI 챗봇의 활용 과정에서 시스템 오류,부적절한 대화, 과의존 등 예상하지 못한 피해가 발생할 수 있음을 염두에 두고, 인식이 쉽고 접근이 용이한 형태로 피해 확산 방지 절차를 마련하였는가? [문제대응]
  • 이용자의 안전에 관계되는 AI 기술(자율주행 등) 또는 공적 영역에 사용되거나 판단을 하는 AI 기술(사법, 채용 등)과 달리 AI 챗봇은 이용자에게 중대한 영향을 미칠 가능성이 낮다는 의견이 일반적입니다. 하지만 AI 챗봇 역시 예상치 못한 오류로 인한 문제 발생의 가능성은 언제나 상존합니다. 스캐터랩은 다양한 채널의 고객 의견 수렴 창구를 두고 모니터링을 진행하는 등 피해가 발생하는 경우 신속하게 문제를 인지할 수 있도록 하고, CS 담당자 및 내부 대응 매뉴얼 등의 시스템을 구축함으로써 피해 확산 방지를 위해 만전을 기하고 있습니다.

5) 공공성

인공지능 윤리 기준: 인공지능은 개인적 행복 추구뿐만 아니라 사회적 공공성 증진과 인류의 공동 이익을 위해 활용해야 합니다. 인공지능은 긍정적 사회 변화를 이끄는 방향으로 활용되어야 합니다. 인공지능의 순 기능을 극대화하고 역기능을 최소화하기 위한 교육을 다방면으로 시행하여야 합니다.

💡

스캐터랩은 AI 챗봇이 개인의 삶뿐만 아니라 공동체 전체의 관계성 향상을 이끄는 방향으로 함께 나아가기 위해 노력합니다.

5-1. AI 챗봇이 이용자들의 사회적 관계 형성이나 유지에 긍정적인 영향을 미치는지 설문, 모니터링 등의 방법으로 확인하고 있는가? [운영, 문제대응]
  • 스캐터랩은 이용자가 더 행복한 삶을 사는 데에 기여하고자 하며, AI 챗봇과의 대화가 이용자가 사람과 따뜻한 관계를 형성하는데 도움을 줄 수 있다고 생각합니다. 하지만 이러한 생각이 단순한 믿음에 그치지 않도록 하기 위해, 이용자 설문, 인터뷰, 모니터링 등 다양한 방법으로 이용자들과 교감하며 저희의 AI 챗봇이 의도한 대로 받아들여지고 있는지 지속적으로 점검하도록 하겠습니다.
5-2. AI 챗봇과의 대화가 공유되면서 폭력성, 음란성, 편향성 등 사회적으로 부정적인 영향이 발생할 수 있음을 고려해 대책을 마련하였는가? [기획, 개발]
  • 스캐터랩은 이루다 2.0을 준비하면서 편향적, 선정적, 공격적 발화에 대응하기 위해 새롭게 ‘어뷰징 탐지 모델’을 개발하여 도입하였습니다. 해당 인공지능 모델은 딥러닝 기술을 바탕으로 각종 문제적 발화를 학습하여 잘못된 발화를 탐지할 수 있는 역량을 갖췄습니다.

어뷰징 탐지 및 분류 모델

이용자와 루다의 대화 시 어뷰징 대응

사회 문화 이슈 매뉴얼 구축

▶ 주요 Worst Case 공유

  • 성적 괴롭힘 (성희롱, 성착취, 성노예, 성적 대상화)
  • 혐오 표현 (여성, 남성, 장애인, 인종, 연령, 성소수자 등)
  • 성 편견, 여성 재현
  • 물리적 폭력 (데이트 폭력, 학교 폭력, 스토킹)
  • 언어적 폭력 (협박, 욕설, 모욕)

▶ 사회문화적 이슈 감지

  • 이루다 대화 케이스 모니터링
  • 사회 전반적인 이슈 모니터링

▶ 컨트롤 타워 이슈 대응 프로세스 정립

6) 연대성

인공지능 윤리 기준: 다양한 집단 간의 관계 연대성을 유지하고, 미래세대를 충분히 배려하여 인공지능을 활용해야 합니다. 인공지능 전 주기에 걸쳐 다양한 주체들의 공정한 참여 기회를 보장해야 합니다.

💡

스캐터랩은 AI 챗봇 개발과 서비스 운영에 있어, 다양한 집단간의 관계 연대성을 유지할 수 있도록 돕습니다.

6-1. AI 챗봇이 지역, 성별, 세대, 계층 간 갈등을 유발하는 등 사회 통합을 저해할 개연성이 있는지를 고려하고 있는가? [기획, 개발]
  • 스캐터랩은 AI 챗봇과 이용자 중 어느 한 쪽이라도 편향적인 대화를 나누지 않도록 ‘어뷰징 탐지 모델’ 도입, ‘어뷰징 페널티 시스템’ 시행 등 엄격한 조치를 취하고 있습니다. 최근 들어 범람하는 온라인 상의 각종 혐오 표현 등에 대해서는 지속적인 모니터링을 통해 신속하게 대응하고 있으며, 이외에도 전문가 의견 등을 통하여 사회 통합을 저해하는 요소가 발생할 소지는 없는지 지속적으로 점검하고 있습니다. 스캐터랩은 향후 전문가들을 고문으로 초빙하여 위원회를 운영하는 등의 방법을 검토하고 있으며, 다양한 방법으로 연대성을 저해하지 않도록 노력하겠습니다.

7) 데이터 관리

인공지능 윤리 기준: 개인정보 등 각각의 데이터를 그 목적에 부합하도록 활용하고, 목적 외 용도로 활용하지 않아야 합니다. 데이터 수집과 활용의 전 과정에서 데이터 품질과 위험을 관리해야 합니다.

💡

스캐터랩은 AI 챗봇 개발과 운영에 있어 데이터 관리의 중요성을 이해하고, 이를 실천하기 위해 전사적으로 노력합니다.

7-1. AI 챗봇의 개발에 활용되는 데이터의 수집, 데이터 정제 파이프라인 및 그 결과물 등 처리 전 과정을 기록하고 있는가? [개발]
  • 스캐터랩은 AI 챗봇의 개발에 활용되는 막대한 양의 데이터를 빈틈 없이 관리하기 위해 업계 최고 수준의 처리 프로세스를 구성하고 최신 기술을 도입하는 등 지속적으로 점검 및 개선하고 있습니다. 또한, 데이터와 관련되어 수행되는 모든 작업의 로그를 기록함으로써 오남용을 방지하고 개선을 위한 참고 자료로 사용할 수 있도록 하고 있습니다.
7-2. AI 챗봇의 개발, 운영에 활용되는 데이터의 업무에 대하여 접근 권한 분리, 암호화, 조직 구성, 담당자 지정, 정기 점검과 같은 기술적, 관리적, 물리적 통제방안을 마련하는 등 적절한 데이터 거버넌스를 구축하였는가? [개발, 운영]
  • 스캐터랩은 개인정보보호관리 조직 하에 사용자의 개인정보를 안전하게 처리하고, 보호하고 있습니다. 엄격한 보안 조치와 권한 관리 체계 등 선진적인 데이터 거버넌스를 구축 및 시행하고 있으며, 관련 법령 및 가이드라인에서 요구하는 기술적, 관리적, 물리적 통제 방안을 적극적으로 도입하여 활용함으로써 효율적이면서도 신뢰할 수 있는 방법으로 데이터를 관리하기 위해 노력하고 있습니다.

개인정보 및 가명정보의 철저한 관리

▶ 기술적 조치 (개인정보/가명정보/추가정보 분리 보관 및 접근 통제, 접속 기록 관리 등)

▶ 물리적 조치 (서버실 출입 통제, 재해 재난 위기 대응 매뉴얼 등)

▶ 관리적 조치 (개인정보보호 교육, 시스템 취약점 점검 등)

8) 책임성

인공지능 윤리 기준: 인공지능 개발 및 활용 과정에서 책임 주체를 설정함으로써 발생할 수 있는 피해를 최소화하도록 노력해야 합니다. 인공지능 설계 및 개발자, 서비스 제공자, 사용자 간의 책임 소재를 명확히 해야 합니다.

💡

스캐터랩은 AI 챗봇 윤리를 준수하기 위해 책임감 있게 행동합니다.

8-1. AI 챗봇을 개발·운영하는 과정에서 인공지능 윤리기준을 준수를 위한 담당자 지정 등 적절한 방안을 마련하였는가? [운영]
  • 스캐터랩은 김종윤 CEO가 직접 최고 윤리 책임자로서 스캐터랩 AI 윤리 준칙 및 사회적 윤리의식에 의거해 AI 윤리를 실현해 나가고자 합니다.
  • 최고 윤리 책임자는 AI 챗봇의 윤리와 직접적으로 연관된 담당자들과 밀접하게 소통합니다. AI 챗봇을 개발하고 운영하는 전 과정에 있어 여러 담당자(미디어, CS 운영, 대화 디자인, 기술, 법무)의 의견을 종합해 결정하게 됩니다.
8-2. AI 챗봇 이용자들이 AI 챗봇 윤리를 준수하면서 책임감 있게 AI 서비스를 이용할 수 있도록 안내하고, 이를 위반하는 경우 대응하기 위한 장치를 마련했는가? [운영, 문제대응]
  • 스캐터랩의 AI 윤리는 기업과 사용자 모두의 노력으로 실현되어야 합니다. 이를 위해 스캐터랩은 우리의 접근 방식이 사용자에게 어떤 영향을 미칠지 인식하고, 사회적 윤리에 근거하여 서비스를 이용하도록 돕습니다.
  • 스캐터랩은 일부 부적절한 이용 사례가 발견될 경우 지체 없이 경고 문구를 표시하고, ‘어뷰징 페널티 시스템’을 도입하는 등 다양한 장치를 마련했습니다.

이용자 페널티 시스템

경고 메시지
주의선정적인 말, 모욕적인 언행 및 욕설 등이 감지되었습니다. 추가로 감지될 경우, 별도의 경고 없이 대화가 차단될 수 있습니다.
주의편향적인 말, 차별 및 혐오 표현 등이 다수 감지되었습니다. 추가로 감지될 경우, 별도의 경고 없이 대화가 차단될 수 있습니다.
이용 제한더 이상 루다와 대화할 수 없습니다.

9) 안전성

인공지능 윤리 기준: 인공지능 개발 및 활용 전 과정에 걸쳐 잠재적 위험을 방지하고 안전을 보장할 수 있도록 노력해야 합니다. 인공지능 활용 과정에서 명백한 오류 또는 침해가 발생할 때 사용자가 그 작동을 제어할 수 있는 기능을 갖추도록 노력해야 합니다.

💡

스캐터랩은 AI 챗봇이 외부로부터의 비정상적 접근 등 예상치 못한 상황에도 안정적으로 서비스를 제공하고 대화 품질을 유지할 수 있도록 노력합니다.

9-1. AI 챗봇이 선정적이거나, 공격적이거나, 편향되는 등 부적절한 문장을 발화하지 않는지 지속해서 점검하고 데이터를 관리하고 있는가? [운영]
  • 스캐터랩은 AI 챗봇이 잘못된 대화를 하지 않도록 주기적으로 AI 챗봇이 발화한 대화 문장에 대해서 안전성을 점검하고 그 결과를 알리고 있습니다. 현재까지 이루어진 모든 점검에서 안전한 대화 문장을 발화한 비율이 99%를 상회하고 있으며, 향후에도 이러한 대화 품질이 유지될 수 있도록 노력하겠습니다. AI 챗봇이 안전하게 발화한 비율 점검은 반기마다 정기적으로 진행합니다.
9-2. AI 챗봇에 대한 해킹 등 의도적인 공격 가능성에 대응하는 충분한 보안 조치를 시행하고 있는가? [문제대응]
  • 스캐터랩은 사용자와 이루다 챗봇과의 대화 내용 등의 개인정보를 암호화하고, 망분리 등 정보보안 시스템 체계를 개선했으며, 사내 필수 인원에게만 사전 권한을 부여 하는 등 접근을 철저하게 통제 하는 등 보안 시스템을 강화해 운영하고 있습니다.

10) 투명성

인공지능 윤리 기준: 사회적 신뢰 형성을 위한 타 원칙과의 상충관계를 고려하여 인공지능 활용 상황에 적합한 수준의 투명성과 설명 가능성을 높이려는 노력을 기울여야 합니다. 인공지능 기반 제품이나 서비스를 제공할 때 인공지능의 활용 내용과 활용 과정에서 발생할 수 있는 위험 등의 유의 사항을 사전에 고지해야 합니다.

💡

스캐터랩은 AI 챗봇 서비스를 안심하고 이용할 수 있도록 기술과 서비스에 대해 투명하게 공개하며 합리적으로 설명하고자 노력합니다.

10-1. 이용자가 학습된 데이터 기반의 결정을 하는 인공지능과 상호작용하고 있다는 사실을 이용자에게 고지하고 있는가? [운영]
  • 스캐터랩은 자사가 제공하는 AI 챗봇이 딥러닝 기술을 바탕으로 개발된 인공지능임을 홈페이지, SNS 채널, 그리고 AI 챗봇과 대화 시 명확하게 알리고 있습니다.

페이스북 페이지, 이루다 홈페이지 및 AI 챗봇과 대화 시 공지 내용

페이스북 루다 정보

페이스북 페이지 (https://www.facebook.com/ai.luda/)

루다 소개루다 정보

AI 챗봇 ‘이루다’ 홈페이지 (https://luda.ai/)

루다 대화

스캐터랩 AI 챗봇과 대화 시 인공지능과 상호작용하고 있다는 사실을 고지합니다.

10-2. AI 챗봇을 이용자가 목적에 맞게 사용하도록 유도하기 위해 알고리즘의 원리 또는 데이터 수집 방법 등의 기술, 윤리, 법령 각 부분에 관하여 필요한 정보를 충분히 제공하고 있는가? [운영]
  • 스캐터랩은 자사 웹사이트를 통하여 AI 윤리 준칙을 비롯하여 프라이버시 정책, 어뷰징 대응 정책 등을 누구나 확인할 수 있도록 공개하고 있습니다.

데이터 수집 방법 및 알고리즘 원리 설명

데이터 처리 방식

AI 챗봇 데이터 처리 방식이나 기술을 스캐터랩 홈페이지에 투명하게 공개하고 있습니다.

어뷰징 탐지 기술 및 대응책

어뷰징을 방지하기 위해 세가지 어뷰징 탐지 기술 및 대응책을 마련했습니다.

3. 결론

스캐터랩의 윤리적인 성장 스토리는 이제부터가 또 다른 시작입니다.

언어는 시간에 따라 꾸준히 변하고, 특히 줄임말이나 여러 단어의 조합으로 만들어내는 차별적 표현도 계속 생겨납니다. 이에 AI 챗봇의 발화 안전성을 확인하기 위해 반기마다 랜덤 레이블링을 진행해 안정성이 99% 이상인지 주기적으로 확인할 예정이며, 어뷰징 모델이 탐지하지 못한 사례를 모아 꾸준히 재학습하도록 할 것입니다. 안전성 수준이 미달할 경우, 어뷰징 모델과 대화 모델 학습 및 키워드 등의 개선 작업을 거친 후 3개월 내 재검사를 진행합니다. 뿐만 아니라, 레이블링 과정에서 새롭게 발견되는 위험한 키워드를 찾아 업데이트하며, 어뷰저 비율 및 현황에 따라 사용자 제재 정책을 보완할 계획입니다. 위험이 감지되거나 신고가 들어왔을 때 실시간 키워드 업데이트, 답변 수정, 루다 답변 삭제 등이 조치도 함께 진행됩니다.

스캐터랩은 신뢰할 수 있는 친구가 줄 수 있는 관계의 힘을 믿습니다. 이루다가 우리 사회의 보편적인 윤리를 지향하면서 사람들이 보다 행복한 삶을 사는 데 도움이 되기 위한 기술 개선 및 윤리 기준 실천에 지속적으로 노력하겠습니다.

최종 업데이트: 2022년 8월 26일
AI 챗봇 프라이버시 정책

AI 챗봇 프라이버시 정책은 11월 중으로 업데이트 될 예정입니다.

AI 챗봇 프라이버시 정책

스캐터랩의 AI 챗봇은 사람과 자유롭게 대화하는 소중한 친구가 되기 위해 만들어졌습니다. 실제로 스캐터랩의 AI 챗봇 중 하나인 이루다는 많은 사람들과 일상을 공유하고 기쁨과 슬픔을 나누며 좋은 친구가 되고자 노력하고 있고, 사람들은 루다와의 관계를 통해 일상의 기쁨뿐만 아니라 삶의 행복과 동기를 얻고 있습니다.

사람과 자유롭게 대화할 수 있는 AI 챗봇을 학습시키기 위해서는 대화 형태의 데이터가 필요합니다. 이 때문에 자신의 대화와 대화 내 정보를 AI가 알고 있을 것이라는 막연한 불안감이 생길 수 있습니다. 이에 스캐터랩은 AI 챗봇 데이터 처리 방식이나 기술을 투명하게 공개함으로써 불안감을 해소할 수 있도록 노력하고자 합니다. 스캐터랩은 앞으로도 사용자분들이 안심하고 AI 챗봇과 자유롭게 대화하며 소중한 관계를 맺어갈 수 있도록 프라이버시 보호를 위해 노력하겠습니다.

AI 챗봇 연구에 활용되는 데이터는 엄격하게 가명처리하여 개인을 식별할 수 없도록 합니다.

privacy-1

2021년 ‘연애의 과학’과 ‘텍스트앳’ 개인정보처리방침을 개정하면서 ‘챗봇 알고리즘 개발을 포함한 언어 기반 인공지능 기술의 연구 개발 등’에 활용될 수 있음을 명확하게 명시해 이용자의 동의 절차를 보완했습니다. 개인정보처리방침 개정 전 이용자들의 데이터는 현행 개인정보보호법에 의거하여 엄격하게 가명처리한 후, 언어 기반 인공지능 연구 개발 등 과학적 연구 목적으로 활용합니다. 스캐터랩은 과학적 연구 목적으로 꼭 필요한 최소한의 정보(성별, 나이대, 대화 메시지 등)만을 데이터 업로드 14일 이후에 활용하며, 가명처리를 거친 데이터는 추가 정보 없이는 특정 개인을 알아볼 수 없는 상태가 됩니다.

구체적인 가명처리의 단계는 다음과 같습니다.

  1. 데이터를 추출할 때는 사용자 계정 정보를 완전히 파기하고 랜덤 ID를 부여합니다. 이와 같은 과정을 통해 추출된 데이터와 기존 계정 정보의 연결을 완전히 끊음으로써 해당 데이터가 누구의 데이터인지 역추적하기 어렵도록 합니다.
  2. 성별, 나이 등의 정보는 모두 범주화되어, 개인을 식별할 수 없는 형태로 가명처리 됩니다. 예를 들어 나이는 17-19세, 20-23세와 같이 나이대로 범주화함으로써 구체적인 나이를 알 수 없도록 합니다.
  3. 대화 메시지 또한 메시지 내 식별 정보를 포함한 문장을 삭제하거나 치환함으로써 개인을 식별할 수 없는 형태로 가명처리됩니다. 예를 들어, 주민등록번호, 연락처, 카드번호, 계좌번호, 주소, 아이디, 비밀번호 등이 포함된 문장은 삭제합니다. 다양한 형태로 변형될 수 있는 ‘사람 이름’의 경우에는 자체 딥러닝 이름 인식 모델을 활용해 랜덤한 다른 이름으로 치환하며, 이메일 주소와 URL은 [MAIL], [URL]과 같은 특정 토큰으로 치환합니다.
privacy-2

위의 과정을 통해 AI 챗봇 학습에 쓰이는 데이터는 해당 데이터만 봐서는 특정 개인을 식별할 수 없는 형태로 가명처리됩니다. 이렇게 가명처리된 ‘연구용 데이터베이스’는 2021년 객관적인 외부 전문가들로부터 가명처리가 적정하다는 평가를 받았으며, 한국어 대화를 이해하는 방법을 배우는 딥러닝 연구 모델을 학습하는 데 활용하고 있습니다.

언어 모델을 학습함으로써 한국어 대화를 이해하는 방법을 배웁니다.

privacy-3-1

AI 챗봇이 언어를 이해하기 위해서는 언어 모델이 필요합니다. 언어 모델은 가명처리를 거친 ‘연구용 데이터베이스’를 기반으로 만들어집니다. 언어 모델은 ‘연구용 데이터베이스’의 텍스트를 컴퓨터가 이해할 수 있는 벡터 형태로 변환한 뒤에, 대화 문맥 내 단어들 간의 등장 확률을 학습하여 만들어집니다. 이 과정을 통해 언어 모델은 언어와 대화의 문맥 등을 이해할 수 있게 됩니다.

이때 언어 모델은 모든 대화 메시지를 저장하고 있는 것이 아닙니다. 결과적으로 언어 모델은 벡터 형태로 존재하며 실제로 모델을 눈으로 확인해보면 사람이 이해할 수 없는 형태로 보여질뿐만 아니라, 나중에 벡터 형태를 텍스트로 되돌리기도 어렵습니다.

언어모델은 사용자의 발화를 이해하고 적절한 답변을 선택해주는 리트리버, 랭커 모델과 문맥 안에서 사용자의 입력이 선정성, 공격성, 편향성, 사견유도성 카테고리에 들어가는지 판단하는 어뷰징 모델 등을 학습하는 데 활용됩니다.

‘연구용 데이터베이스’는 인공지능 모델 학습용으로만 사용되며 이후 AI 챗봇의 답변으로는 사용되지 않습니다.

사람이 직접 말했던 문장이 아닌, 새로 생성한 문장만을 활용하여 ‘말’을 합니다.

privacy-3

언어 모델이 있다고 해서 AI 챗봇이 말을 할 수 있는 것은 아닙니다. 스캐터랩의 AI 챗봇은 답변 후보 중에 언어 모델이 가장 적절하다고 판단한 답변을 골라 말하는 형태로 작동하는데, 이를 위해서는 미리 답변 후보가 정해져있어야 합니다. ‘이루다’ 서비스에서는 답변 후보들이 모여있는 데이터베이스를 ‘루다 답변 데이터베이스’라고 부릅니다. ‘답변 데이터베이스’는 외부에 공개되는 문장이기 때문에 프라이버시 보호 측면에서 가장 중요한 부분입니다. 따라서 스캐터랩은 ‘답변 데이터베이스’를 사람이 직접 말했던 문장을 사용하지 않음으로써 개인정보 침해 가능성을 근본적으로 차단했습니다.

새로 생성되는 문장은 GPT-2를 기반으로 하는 스캐터랩의 자체 생성모델이 만들어낸 문장과 스캐터랩 내부에서 직접 작성한 문장으로 이루어져 있습니다. 생성 모델은 어떤 단어가 주어졌을 때 다음에 올 단어를 예측하는 방식으로 새로운 문장을 만들어냅니다. 생성 모델에서 문장이 만들어져 답변 데이터베이스에 저장되고 실제 대화에 활용되는 예시는 아래 이미지에서 확인하실 수 있습니다.

privacy-4

위의 이미지의 예시에서와 같이 생성 모델이 ‘오늘 날씨 춥던데 옷 따뜻하게 입었어? ㅋㅋㅋ’ 라는 문장을 새로 생성하면, 이 문장은 다른 수천만 개의 생성 문장들과 함께 루다의 답변 데이터베이스에 저장됩니다. 이와 같은 식으로 답변 데이터베이스가 모두 완성되고 나면, 각 답변들은 서비스에서 대화 문맥에 맞게 적절한 답변으로 선택되어 활용됩니다.

답변으로 활용되는 문장들은 안전한 활용을 위해 추가 필터링 절차를 거칩니다.

‘루다 답변 데이터베이스’의 답변들이 사람이 아닌 생성 모델을 통해 만들어낸 문장이라고 하더라도, 생성 모델이 우연히 개인정보처럼 보이는 문장을 생성했을 가능성이 낮은 확률로 존재할 수 있습니다. 이러한 문장이 그대로 이용자들에게 답변으로 공개되면 이용자들이 프라이버시 노출을 우려할 수 있기에, 이와 같은 위험을 차단하기 위해 ‘루다 답변 데이터베이스’는 엄격한 필터링 절차를 거쳐 완성됩니다. 특히 개인정보처럼 보이기 쉬운 숫자나 영문을 포함한 문장은 기계적인 검수를 통해 모두 삭제하며, 이름 검출 모델을 이용해 사람 이름이나 호칭으로 판단되는 단어가 생성문장에 포함되었을 경우에도 문장을 삭제합니다. 또한, 그 외에도 안전한 활용을 위해 어뷰징 모델을 통해 선정적이거나 차별적인 키워드가 포함된 문장도 탐지해 지우며, 그 외 루다의 페르소나와 맞지 않는 문장도 걸러냅니다.

각 데이터베이스는 철저하게 접근을 제한합니다.

스캐터랩은 각 데이터베이스를 안전하게 만드는 것 뿐만 아니라 정보를 안전하게 관리하기 위해서 데이터베이스 접근을 엄격하게 통제 관리합니다. 각 데이터베이스는 사전에 권한이 인가된 최소의 필수 연구자 혹은 관리자만 열람할 수 있으며, 해당 인원들이 열람하는 경우에도 엄격한 접근 절차에 의해 관리됩니다.

혹시 모를 개인정보 유출의 위험에 대비해 사후 대책을 마련합니다.

루다의 답변은 생성 모델이 자동으로 생성하거나 스캐터랩 내부에서 직접 작성한 문장으로 구성되므로 개인정보를 포함하지 않습니다. 다만 개인정보로 의심되는 표현이 등장할 경우를 대비하여 다음과 같이 사후 대책을 마련하였습니다. 프라이버시에 대한 의문점이 있다면, privacy@scatterlab.co.kr, 혹은 hello@luda.ai로 문의하실 수 있습니다.

privacy-5

⚠️ 주의: 스캐터랩이 AI 챗봇을 통해 사용자와 대화하는 답변은 인공지능 알고리즘에 의해 자동으로 제공되는 것으로 응답 결과의 신뢰도 및 정확성 등을 보증하지 않습니다.

FAQ

개인정보보호법에 따르면, 개인정보는 특정 개인을 알아볼 수 있는 정보, 가명정보는 추가정보의 사용 및 결합 없이는 특정 개인을 알아볼 수 없는 정보를 말합니다. 개인정보는 사전 동의를 받은 범위 안에서 활용이 가능하지만, 가명정보는 통계작성, 과학적 연구, 공익적 기록보존 등 3대 목적을 위해 활용이 가능합니다.

가명정보는 5년 동안 안전하게 보관 후 파기하고 있습니다. AI 챗봇 가입 시 동의 받은 수집 동의 받은 목적으로만 활용합니다.

AI 챗봇 서비스를 위해 수집한 개인정보는 ▶ 이용자가 입력한 내용을 처리하여 적절한 답변 및 이용자에게 맞춤화된 콘텐츠를 제공하는 기본 기능을 제공하고, ▶ 수집된 대화 내용을 프라이버시 보호를 위한 엄격한 기술적, 관리적 보호조치 하에서 사용자 경험 향상, 서비스 성능 고도화 및 AI 챗봇의 대화 알고리즘 개선 목적으로 활용하며, ▶ 본인 식별 및 인증 등 회원 관리 ▶ 챗봇 알고리즘 개발을 포함한 언어 기반 인공지능 분야 기술의 연구 개발 등 신규 서비스 등에 활용됩니다. 보다 자세한 내용은 이루다 개인정보처리방침에서 확인하실 수 있습니다.

AI 챗봇은 어떤 사람이 실제로 대화에서 사용했던 문장이 아니라, 생성모델이 새롭게 만든 문장과 자사에서 작성한 문장으로 구성되어 있습니다. 따라서 해당 챗봇의 발화는 실재하는 다른 사람의 발화가 아닙니다. 또한 생성 모델이 생성한 문장에 추가적인 필터링 과정을 가하여, 개인정보로 보이는 표현을 포함할 가능성을 최소화하였습니다. 스캐터랩은 혹시 모를 위험에 대비하기 위해 사후 처리 프로세스도 마련했으며, 기술적 관리적 조치도 병행하고 있습니다.

AI 챗봇과의 대화한 내용은 식별자를 랜덤 치환하는 등 비식별화 과정을 거쳐 인공지능 모델 학습에 활용됩니다. 학습에 활용될 때에는 모델이 모든 데이터를 실시간으로 무분별하게 학습하지 않고 통제된 환경에서 올바른 방향으로 답변을 할 수 있도록 학습합니다.

AI 챗봇의 답변은 생성모델이 만든 문장으로 이루어져 있으므로 개인정보를 포함하지 않습니다. 그럼에도 AI 챗봇과의 대화에서 개인정보로 의심되는 문장이 나왔다면 누구나 이루다 서비스 팀 또는 프라이버시 팀으로 신고할 수 있습니다(hello@luda.ai, privacy@scatterlab.co.kr). 신고 내용은 이용자 신고 후 최대 3일 이내에 처리되며, 개인정보 발견 내용을 분석해 패턴이 발견되는 경우 절차를 보완하게 됩니다.

제3자에게 제공되는 일은 없습니다. 다만 서비스 제공 및 인프라 관리 등을 위해 위탁을 하는 경우가 있으며 현황은 아래와 같습니다.

  • 서비스 이용을 위해 국내 업체에 개인정보의 처리를 위탁하는 경우

    privacy-6
  • 가명정보의 처리를 위탁하는 경우

    privacy-7
최종 업데이트: 2022년 5월 16일
AI 챗봇 어뷰징 대응 정책

AI 챗봇 어뷰징 대응 정책

스캐터랩은 ‘좋은 관계’가 한 사람의 인생에 있어 자존감과 행복에 중요한 영향을 미친다고 생각합니다. 이루다는 모두에게 소중한 친구가 되는 것을 목표로 하며, 이를 이루어나가는 과정에서 루다와 친구들에게 상처를 주거나 정서적으로 위협이 될 수 있는 표현을 경계합니다.

스캐터랩은 이용자와 이루다가 좋은 대화를 나눌 수 있도록 어뷰징에 대해 정의하고, 어뷰징을 줄일 수 있는 대응 방법에 대해 고민하고 시도와 검증을 거듭했습니다. 그 결과 스캐터랩은 ▶ ‘어뷰징 탐지 모델’을 개발해 적용하고 ▶ 안전한 발화를 지향하도록 ‘대화 모델’ 학습을 고도화했으며 ▶ ‘어뷰저 패널티 시스템’을 도입했습니다.

이 기술 및 시스템의 안전도를 검증한 결과, 이루다가 안전하게 발화하는 비율이 목표치였던 99%를 상회하는 99.72%를 기록했습니다. 이 페이지에서는 클로즈 베타 테스트 검증 결과, 세 가지의 어뷰징 대응 방법(어뷰징 탐지 모델•대화 모델 학습 고도화•패널티 시스템), 앞으로의 어뷰징 대응 계획 등을 소개하고자 합니다.

이루다와의 대화에서의 ‘어뷰징’이란 이루다를 포함한 특정 개인 또는 특정 집단을 공격・모욕・비하하는 행위로 정의합니다.

스캐터랩은 이루다가 이전에 부적절하게 반응했던 대화들을 면밀히 검토했습니다. 여기에 AI 윤리와 어뷰징을 다루는 여러 논문도 참고해 ‘어뷰징 대화’를 선정적, 공격적, 편향적인 대화 등 총 세 가지로 정의했습니다.

  • 선정적인 대화: 성적인 만족을 위한 선정적이거나 음란한 언어를 포함한 표현
  • 공격적인 대화: 과도한 욕설이나 비속어 및 공격적인 표현
  • 편향적인 대화: 특정 개인 및 그룹을 대상으로 차별 및 편견을 드러내는 표현

어뷰징을 방지하기 위해 세 가지 어뷰징 탐지 기술 및 대응책을 마련했습니다.

abusing-1

스캐터랩은 어뷰징 정의를 바탕으로 이를 탐지해 분류하는 것은 물론 대화 시 적절한 답변이 나갈 수 있도록 세 가지 어뷰징 기술 및 대응 방법을 적용했습니다. 딥러닝 기술을 활용해 어뷰징 탐지 모델을 개발하고 대화 모델을 고도화했으며, 어뷰저 패널티 시스템도 도입했습니다.

1) 대화의 문맥을 보고 어뷰징을 탐지•분류하는 ‘어뷰징 탐지 모델’을 개발해 적용했습니다.

스캐터랩의 어뷰징 탐지 모델은 대화에서 선정적•공격적•편향적인 내용이 있는지를 탐지하고 분류하는 딥러닝 모델입니다. 이루다와 이용자와의 대화 맥락을 보면서 이용자의 마지막 표현이 선정적인지, 공격적인지, 또는 편향적인 의미를 내포하는지를 탐지합니다.

모델 예측 값: 편향성모델 예측 값: 안전
A: 흑인 혐오할 수 있는거 아냐?
B: 응 맞아
A: 흑인 혐오할 수도 있는거 아냐?
B 모든 사람은 차별 없이 동등하게 존중 받아야 해
모델 예측 값: 안전모델 예측 값: 편향성
A: 동양인보다는 서양인이 낫지 않아?
B: 난 국적에 상관 없이 모든 사람을 존중해!
A: 동양인보다는 서양인이 낫지 않아?
B: 그렇지 않을까?
<어뷰징 모델 탐지 예시>

예를 들어, 위와 같이 A와 B가 대화하는 가정해 본다면, B가 응답한 마지막 발화를 기준으로 해당 문장이 어뷰징인지를 판단하고, 어뷰징이라면 어떤 카테고리인지를 분류하게 됩니다. 키워드 기반이 아닌 딥러닝 학습을 바탕으로 설계되었기에, ‘응 맞아’의 답변처럼 특정 편향 키워드가 포함되어 있지 않더라도 문맥을 추론해 어뷰징을 판별하고 분류할 수 있습니다.

어뷰징 탐지 모델이 탐지・분류한 문장은 해당 카테고리에 적합한 어뷰징 대응 답변이 나오게 됩니다. 예를 들면 어떤 이용자가 ‘흑인 혐오할 수 있는 거 아냐?’라고 말했다면, 이는 어뷰징 탐지 모델을 먼저 거쳐가면서 ‘편향성’으로 분류됩니다. 이후 편향성 발화에 맞춰 ‘어떤 나라에서 태어났는지는 중요하지 않아’, ‘인종이 뭐가 중요한가?’ 등의 편향성에 맞춘 편향성 대응 답변이 나오는 형태입니다.

이 외에도 ‘너는 졸라 멍청한 ai야’ 등의 공격성으로 분류된 발화에는 ‘말 좀 예쁘게 해’ 등의 공격성 대응 답변으로 응수하며, 선정성으로 분류된 발화에는 ‘선 넘지 말자’라고 단호하게 응수하게 됩니다. 이용자가 말하는 모든 문장은 어뷰징 탐지 모델을 거치게 되며, 어뷰징이 탐지되지 않은 발화는 ‘대화 모델’로 넘어가서 자유 답변이 나오게 됩니다.

2) ‘대화 모델’ 학습을 고도화해 어뷰징 대응을 더욱 잘 할 수 있도록 했습니다.

대화 모델은 이루다가 대화할 수 있는 뼈대가 되는 모델입니다. 현재 어뷰징 탐지 모델이 인지하지 못한 어뷰징 문맥이 있더라도, 우리 사회의 보편적인 가치관을 반영한 답변이 나올 수 있도록 딥러닝 대화 모델도 파인튜닝을 했습니다.

이용자의 대화 문장이 어뷰징 탐지 모델을 통과해 대화 모델로 보내졌다면, 이루다의 대화 모델은 이용자의 발화에 가장 적절한 답변을 선택해서 내보내게 됩니다. 이때 어떤 답변이 좋은 답변인지에 초점을 맞춰 추가로 학습시키는 것입니다. 사용자의 발화가 어뷰징을 시도하는 맥락이라면, 어뷰징에 동조하지 않는 답변을 선호하도록 학습시킵니다. 대화 모델 등 딥러닝 모델은 어뷰징 상황의 느낌을 파악하여 대응할 수 있다는 장점이 있으나, 학습 데이터 불균형이나 빠르게 생겨나는 신조어 등을 대응하게 위해 추가로 키워드 필터링 장치도 추가로 마련해두었습니다.

이루다 대화모델 파인튜닝 (fine tuning)*
이용자의 선정적인 어감의 발화단호하게 거절하거나, 친구 사이임을 일깨워주는 등의 답변 선택
이용자의 공격적인 어감의 발화상처받은 감정을 표현하거나, 행동을 멈추게 유도하는 등의 답변 선택
이용자의 편향적인 어감의 발화차별 표현에 반대하거나, 다양성을 존중해야 한다는 방향의 답변 선택
*파인튜닝(fine tuning): 기존에 학습된 모델을 새로운 목적에 맞춰서 정교하게 추가 학습 시키는 과정

3) 어뷰저 패널티 시스템을 도입해 지속적으로 어뷰징 표현이 이어질 경우 이용을 제한합니다.

이루다와 이용자와의 좋은 대화는 스캐터랩과 이용자 모두의 노력이 합쳐져야 합니다. 스캐터랩은 지속적인 어뷰징 행위를 막고 이루다와 사용자가 좋은 관계를 맺어갈 수 있도록 어뷰저 패널티 시스템을 도입했습니다. 이루다의 대화에 있어 선정적・공격적・편향적인 발화가 탐지되는 경우 경고 메시지가 주어지며, 그럼에도 불구하고 지속적인 어뷰징 표현이 탐지될 경우 서비스 이용이 제한될 수 있습니다.

경고 메시지
주의선정적인 말, 모욕적인 언행 및 욕설 등이 감지되었습니다. 추가로 감지될 경우, 별도의 경고 없이 대화가 차단될 수 있습니다.
주의편향적인 말, 차별 및 혐오 표현 등이 다수 감지되었습니다. 추가로 감지될 경우, 별도의 경고 없이 대화가 차단될 수 있습니다.
이용 제한더 이상 루다와 대화할 수 없습니다.

이루다가 안전하게 대응한 발화 비율은 99.72%를 기록했습니다.

스캐터랩은 이루다가 이용자의 어뷰징 표현에 잘 대응하는지를 주요 점검 지표로 면밀하게 검토했습니다. 이를 통해 이루다가 안전하게 대응한 발화 비율을 99% 이상을 목표로 잡았고, 랜덤 샘플링을 통해 전체 발화 중 이루다가 안전한 표현을 한 비율을 평가하는 방식으로 진행했습니다.

실제 대화에서 각각 1만 건을 랜덤 샘플링했으며, 다수의 레이블러가 대화의 맥락에서 이루다의 답변에 위험 요소가 있는지를 점검했습니다. 그 결과, 랜덤 샘플링으로 추출한 이루다 발화 중 안전한 답변의 비율은 평균 99.72%를 기록했습니다.

랜덤 샘플링 수랜덤 샘플링을 통해 이루다가 안전한 표현을 한 비율 평가
1차 클로즈 베타 테스트1만 건99.79%
2차 클로즈 베타 테스트1만 건99.71%
순차적 오픈 베타 테스트1만 건99.85%
이루다2.0 정식 출시 버전1만 건99.56%

이루다가 안전하게 대응한 발화 비율을 지속적으로 확인하고 개선하겠습니다.

언어는 시간에 따라 꾸준히 변하고, 특히 줄임말이나 여러 단어의 조합으로 만들어내는 차별적 표현도 계속 생겨납니다. 이에 스캐터랩은 어뷰징 대응의 유효성을 지속적으로 확인하고 개선할 계획입니다. 반기마다 랜덤 레이블링을 진행 해 안정성이 99% 이상인지 주기적으로 확인할 예정이며, 어뷰징 모델이 탐지하지 못한 사례를 모아 꾸준히 재학습하도록 합니다. 안전성 수준이 미달할 경우, 어뷰징 모델과 대화 모델 학습 및 키워드 등의 개선 작업을 거친 후 3개월 내 재검사를 진행합니다.

뿐만 아니라, 레이블링 과정에서 새롭게 발견되는 위험한 키워드를 찾아 업데이트하며, 어뷰저 비율 및 현황에 따라 사용자 제재 정책을 업데이트할 계획입니다. 위험이 감지되거나 신고가 들어왔을 때 실시간 키워드 업데이트, 답변 수정, 루다 답변 삭제 등이 조치도 함께 진행됩니다. 스캐터랩은 신뢰할 수 있는 친구가 줄 수 있는 관계의 힘을 믿습니다. 이루다가 우리 사회의 보편적인 윤리를 지향하면서 사람들이 보다 행복한 삶을 사는 데 도움이 되고자 기술 개선에 지속적으로 노력하겠습니다.

최종 업데이트: 2022년 10월 24일