3줄 요약

  1. MIXI의 가족 앨범 서비스 みてね는 2500만+ 유저, 131억+ 미디어를 S3에 무제한 저장하며, 데이터 증가에 비례하는 스토리지 비용이 핵심 과제다.
  2. 전 버킷 S3 버전 관리 + 구버전 자동 삭제 룰, 접근 패턴 기반 30일 Standard \u2192 Glacier Instant Retrieval 전환으로 비용을 절감한다.
  3. HLS 동영상은 온디맨드 생성 후 라이프사이클 삭제하되, 보존 기간별 재생성 비용을 시뮬레이션하여 총비용 최소 지점을 산출한다.

서비스 개요

みてね(Mitene)는 MIXI가 운영하는 가족 앨범 서비스다. 스마트폰으로 찍은 자녀 사진·동영상을 가족과 공유하고, 포토북·사진 프린트·GPS 등 부가 서비스를 제공한다. “열량 높은 ‘지금’을 공유하면, 자연스럽게 ‘추억’이 쌓인다"는 컨셉이다.

  • 유저 수: 2500만 이상 (2025년 1월 기준, iOS·Android·브라우저 합산)
  • 공유된 미디어: 131억 이상 (2024년 3월 기준)
  • 미션: “세계의 가족의 마음 인프라를 만든다”

사진·동영상을 무제한 보존하는 서비스 특성상, 데이터량은 단조증가한다. S3를 광범위하게 활용하며 데이터 증가에 비례하여 스토리지 비용이 증대하는 것이 핵심 과제다.

S3 버전 관리와 데이터 보호

유저의 소중한 사진·동영상의 오삭제는 절대 피해야 한다. みてね는 특별한 이유가 없는 한 모든 S3 버킷에 버전 관리를 활성화하는 것을 운영 원칙으로 삼는다.

다만 버전 관리에는 숨은 비용이 있다. 오브젝트를 삭제해도 과거 버전이 남아 있어 스토리지 비용이 계속 발생한다. “지웠다고 생각해도 비용은 줄지 않는다"는 함정이다.

대응: 버전 관리 설정과 함께 라이프사이클 룰을 걸어, 일정 기간 경과 후 구버전을 자동 삭제한다. 리스크(복원 가능 기간)와 비용의 균형을 잡는 것이 핵심이다.

스토리지 클래스 최적화

접근 패턴 분석

みてね 미디어의 접근 패턴을 분석한 결과:

  • 업로드 직후가 접근 빈도 최고점 \u2014 유저 열람, 단말 저장, 해석 처리, 월 1회 포토북 자동 제안
  • 1개월 이내 \u2014 취출 요금을 억제해야 하므로 S3 Standard 유지
  • 1개월 경과 후 \u2014 접근 빈도가 극단적으로 떨어지지만, UX를 위해 실시간 접근성은 유지해야 한다

30일 라이프사이클 룰

이 분석에 기반하여 30일 라이프사이클 룰을 적용한다:

기간스토리지 클래스이유
0~30일S3 Standard취출 요금 억제, 높은 접근 빈도 대응
30일~Glacier Instant Retrieval실시간 접근 유지하면서 스토리지 비용 대폭 절감

Glacier Instant Retrieval은 밀리초 단위 접근이 가능하면서도 Standard 대비 스토리지 단가가 크게 낮다. “접근 빈도는 낮지만 UX를 해치지 않아야 한다"는 요구사항에 정확히 부합하는 선택이다.

HLS 동영상 캐시 전략

온디맨드 생성 + 라이프사이클 삭제

앱에서의 동영상 재생에는 HLS(HTTP Live Streaming)를 사용한다. 핵심 아이디어는:

  1. 재생 요청 시 S3에 HLS 데이터가 없으면 실시간 생성하여 배포
  2. 생성된 HLS 파일을 일정 기간 S3에 캐시
  3. 라이프사이클 룰로 기간 경과 후 자동 삭제

원본 동영상은 영구 보존하되, 재생용 파생 데이터(HLS)의 보존 비용만 절감하는 구조다.

최적 보존 기간 산출

보존 기간 결정에는 두 비용 축의 트레이드오프가 있다:

  • 보존 기간이 길면 \u2192 S3 스토리지 비용 증가
  • 보존 기간이 짧으면 \u2192 재생성 횟수 증가 \u2192 EC2 컴퓨팅 비용 증가

みてね는 동영상 재생 로그를 기반으로 접근 패턴을 분석하고, 보존 기간별 재생성 비용을 시뮬레이션하여 총비용(스토리지 + 컴퓨팅)이 최소가 되는 보존 기간을 산출했다.

가장 흥미로운 지점

“삭제했다고 생각해도 비용은 줄지 않는다"는 S3 버전 관리의 함정이 인상적이다. 데이터 보호와 비용 절감이라는 상충하는 목표를 라이프사이클 룰 하나로 절충하는 패턴은, 대규모 미디어 서비스라면 어디서든 적용할 수 있는 보편적인 전략이다.

HLS 캐시 전략에서 “로그 기반 시뮬레이션으로 최적 보존 기간을 산출한다"는 접근도 깔끔하다. 감이 아닌 데이터로 스토리지와 컴퓨팅의 교차점을 찾는 것이, 결국 SRE의 본질이 아닐까 싶다.

출처

MIXI / 尾関 芳郎 (@fanglang) / 2025년 4월 3일 / 春のSREまつり 원문: https://speakerdeck.com/fanglang/jia-zu-arubamu-mitene-wozhi-erus3raihusaikuruzhan-lue