Site Reliability Engineer (DevOps)

이루다 · 정규직

스캐터랩은 다양한 형태의 인공지능이 출현하고 인공지능과 사람이 함께 어우러져 살아가는 미래를 꿈꾸고 있어요. 그래서 우리의 비전은 Leading Cambrian Explosion of Social Agents 입니다. 이러한 비전을 위해 우리는 친근하고 재밌는 자유 대화 경험을 제공하는 딥러닝 기술을 제품화하고, 사람들의 마음을 움직이는 대화는 무엇인지에 대한 깊은 고민을 해나가고 있어요.

현재 스캐터랩의 주요 목표는 200만 명의 AI 친구 '이루다'를 넘어, 다양한 영역의 기업과 크리에이터들이 루다와 같은 AI 캐릭터를 쉽고 빠르게 제작할 수 있도록 돕는 기술과 방법론을 제공하는 거예요. 그래서 우리는 루다를 만들어온 스캐터랩만의 기술력과 제품 노하우를 집대성한 플랫폼인 '핑퐁 스튜디오'를 만들었어요. 현재 핑퐁 스튜디오를 활용해 여러 비즈니스 파트너들과 다양한 AI 캐릭터를 만들고 운영하고 있답니다. 특히 소셜 인터랙션이 중요한 영역인 연예·엔터테인먼트, 게임·콘텐츠, 소셜 커머스, 소셜 케어, 소셜 교육 이렇게 다섯 분야에서 활약하고 있어요.

스캐터랩에는 '누구나 원하는 AI 캐릭터를 쉽고 빠르게 만들 수 있게 하겠다'는 공동의 목표를 중심으로 뛰어난 능력, 훌륭한 팀워크, 문제에 대한 소명의식을 가진 사람들이 모여있어요! 여러분도 그런 사람이라면, 스캐터랩에서 우리 함께 이 문제를 풀어보지 않을래요?

루다팀 Site Reliability Engineer(DevOps)는 어떤 일을 하나요?

Site Reliability Engineer(Devops) 는 루다팀의 뛰어난 일상대화(Open-domain conversation) 기술을 만드는 복잡한 작업을 자동화하기도 하고, 반짝이는 기획 요소를 조합하여 만든 루다를 안정적으로 운영하는 일을 하기도 해요. 하루에 십만 명 이상의 신규 가입자가 유입돼도 안정적으로 서비스할 수 있도록 병목 요소를 찾아 최적화하고, 서비스 로그를 연구 가능한 데이터로 쌓아서 NLP 기술을 빠르게 성장하게 하지요! 한마디로 Site Reliability Engineer는 루다가 탄생하고 유지되고 폭풍 성장할 수 있도록 돕는 모든 일에 기여한답니다.

주요 업무

  • 서비스의 안정적인 운영과 모니터링을 위한 엔지니어링
    • 대규모 트래픽을 다루는 루다의 서비스 인프라를 안정적으로 운영하고 모니터링합니다.
    • 시스템 장애 발생 시 빠르게 대응할 수 있는 모니터링 시스템을 구축합니다.
    • 서비스의 높은 Throughput과 낮은 Latency를 위해 코드와 인프라를 다각도로 분석하고, 병목 요소들을 찾아 최적화합니다.
  • 데이터 파이프라인 인프라 구축 및 운영
    • 루다의 서비스 인프라에서 나오는 로그들을 쌓아서 정제하고 연구가 가능한 데이터로 만드는 파이프라인을 구성하고 운영합니다.
    • 로그 스트리밍, 데이터 정제, 모델 학습, 대규모 배치 작업 수행 등 다양한 일을 하는 파이프라인을 구축하고 운영에 필요한 도구를 개발합니다.
  • DevOps를 위한 시스템/유틸리티 운영
    • 배포, 모니터링 등 사내 업무 자동화 유틸리티를 개발하고 머신러닝 연구에 사용되는 인프라를 운영합니다.
    • 서비스 운영과 인프라에서 발생하는 반복적인 업무를 자동화하여 팀의 전체적인 생산성을 높입니다.

필수 역량

  • 클라우드에서 서비스를 운영해본 경험이 있으신 분 (AWS, GCP, Azure 등)
  • 컨테이너 오케스트레이션 도구에 익숙하신 분 (Kubernetes 등)
  • 서비스 백엔드 개발 경험이 있으신 분 (Java/Kotlin, Python, Node.js, Go 등)
  • MSA(Micro-Service Architecture)에 대한 이해와 경험이 있으신 분
  • 리눅스/유닉스 시스템과 네트워크 구조에 대한 이해와 경험이 있으신 분

우대 역량

  • 대규모 트래픽을 다루는 클라우드 서비스를 운영해본 경험이 있으신 분
  • 클라우드 시스템 상에서 로그 스트리밍 및 분석 시스템을 구축한 경험이 있으신 분
  • 데이터 파이프라인 관련 경험이 있으신 분 (Apache Airflow, Argo Workflow, Kubeflow Pipelines)
  • IaC (Infrastructure as Code) 기반의 시스템 운영 경험이 있으신 분 (Terraform, CloudFormation)
  • 머신러닝 연구 인프라 구축 경험이 있으신 분 (Kubeflow, GPU Cluster)

채용 과정

  • 서류 심사 → 알고리즘 코딩테스트 → 직무 면접 → 컬처핏 면접 → 최종 합격
  • 코딩테스트 및 면접 결과에 따라 추가 과제가 있을 수 있습니다.
  • 3개월의 수습 기간 후 정식 채용을 결정합니다.
  • 전형에 따른 결과는 지원자님의 메일로 전달되오니, 지원 후 꼭 메일함을 확인해주세요.

지원 방법

  • recruit@scatterlab.co.kr이력서를 PDF 파일로 보내주세요.
  • 이력서는 자유로운 형식으로 보내주시되, 이 역할을 잘 해낼 수 있는 분이라는 걸 보여주는 관련 프로젝트 및 실무 경험을 설명과 함께 보내주시면 좋을 것 같아요. GitHub, 블로그 등의 정보도 함께 보내주시면 더 좋답니다.
  • 메일 제목은 ‘[루다/SRE] 지원자 이름’ 형식으로 부탁드립니다.
  • 스캐터랩은 산업기능요원전문연구요원 지정업체로 병역 특례 신규 편입 및 전직이 가능합니다. 해당되는 분은 지원 메일을 통해 말씀해주세요.