[가상 면접 사례로 배우는 대규모 시스템 설계 기초] 11. 뉴스 피드 시스템

장선규·2025년 3월 10일
0

Study

목록 보기
12/12

이번 장에서는 뉴스 피드 시스템 설계 문제를 살펴볼 것이다. 페이스북에서 설명하는 뉴스 피드(news feed)는, 홈 페이지 중앙에 지속적으로 업데이트되는 스토리들이라고 볼 수 있다. 그 내용으로는 사용자 상태 정보 업데이트, 사진, 비디오, 링크, 팔로워, 페이지, 좋아요 등을 포함한다.

문제 이해 및 설계 범위 확정

요구사항

  • 지원 환경: 모바일 앱과 웹을 둘 다 지원
  • 주요 기능: 사용자 뉴스 피드 페이지에 스토리 업로드, 친구들이 올리는 스토리 조회 가능
  • 뉴스 피드 정렬기준: 시간 흐름 역순으로 정렬
  • 사용자 최대 친구 수: 5000명
  • 트래픽 규모: 매일 1000만명 방문
  • 컨텐츠 형식: 이미지, 비디오 등 미디어 파일을 스토리로 업로드 가능

개략적 설계안 제시

설계안은 피드 발행과 뉴스 피드 생성의 두 가지 부분으로 나뉘어서 생각해볼 것이다.

  • 피드 발행: 사용자가 스토리를 포스팅 시 해당 데이터를 캐시와 DB에 기록, 새 포스팅은 친구의 뉴스 피드에도 전송
  • 뉴스 피드 생성: 모든 친구의 포스팅을 시간 흐름의 역순으로 모아서 생성

뉴스 피드 API

뉴스 피드 API는 HTTP 프로토콜 기반으로 상태 정보 업데이트, 뉴스 피드 조회 등 다양한 작업을 수행할 수 있어야 한다. 가장 중요한 두 API인 피드 발행과 피드 읽기 API를 살펴보자.

피드 발행 API

  • POST /v1/me/feed
  • params
    • content(body): 포스팅 내용
    • Authorization 헤더: API 호출 인증용

피드 읽기 API

  • GET /v1/me/feed
  • params
    • Authorization 헤더: API 호출 인증용

피드 발행

피드 발행 시스템의 개략적 형태는 다음과 같을 것이다.

  • 사용자: 웹 또는 앱에 새 포스팅을 올리는 주체로, POST /v1/me/feed API 사용
  • 로드밸런서: 트래픽을 웹 서버로 분산
  • 웹 서버: HTTP 요청을 내부 서비스로 중계
  • 포스팅 저장 서비스: 새 포스팅을 DB와 캐시에 저장
  • 포스팅 전송 서비스: 새 포스팅을 친구의 뉴스 피드에 push (뉴스 피드 데이터는 캐시에 보관하여 속도 향상)
  • 알림 서비스: 친구들에게 새 포스팅이 올라왔음을 알리거나, 푸시 알림 전송 역할

뉴스 피드 생성

사용자가 보는 뉴스 피드가 생성되는 개략적인 형태는 다음과 같을 것이다.

  • 사용자: 뉴스 피드를 읽는 주체로, GET /v1/me/feed API 사용
  • 로드밸런서: 트래픽을 웹 서버로 분산
  • 웹 서버: 트래픽을 뉴스 피드 서비스로 전송
  • 뉴스 피드 서비스: 캐시에서 뉴스 피드를 가져오는 서비스
  • 뉴스 피드 캐시: 뉴스 피드를 렌더링할 때 필요한 피드 ID 보관

상세 설계

피드 발행 흐름 상세 설계

대부분의 컴포넌트는 개략적 설계안에서 다룬 정도로 충분하여, 웹 서버와 포스팅 전송 서비스(fanout service)에 초점을 맞췄다.

  • 웹 서버
    • 웹 서버는 클라이언트와 통신할뿐만 아니라 인증이나 처리율 제한 기능도 수행
      • 올바른 인증 토큰을 Authorization 헤더에 넣고 API 호출
      • 스팸 및 유해 컨텐츠가 자주 올라오는 것을 방지하기 위해 특정 기간 동안 올릴 수 있는 포스팅 수에 제한
  • 포스팅 전송(팬아웃) 서비스
    • 팬아웃(fanout): 어떤 사용자의 새 포스팅을 그 사용자와 친구 관계에 있는 모든 사용자에게 전달하는 과정
    • 쓰기 시점 팬아웃 모델(push model): 새로운 포스팅을 기록하는 시점에 뉴스 피드 갱신
      • 뉴스 피드 실시간 갱신, 친구 목록에 있는 사용자에게 즉시 전송
      • 새 포스팅이 기록되는 순간에 뉴스 피드가 이미 갱신되므로(pre-computed) 빠른 읽기 가능
      • 친구가 많을수록 친구들의 뉴스 피드를 갱신하는 데 많은 시간이 소요될 수 있음 (핫키 문제)
      • 서비스를 자주 이용하지 않는 사용자의 피드까지 갱신하므로 컴퓨팅 자원 낭비
    • 읽기 시점 팬아웃 모델(pull model): 피드를 읽는 시점(홈페이지나 타임라인 로딩 시점 등)에 뉴스 피드 갱신
      • 비활성화된 사용자나 서비스에 거의 로그인하지 않는 사용자의 경우, 로그인 전까지 컴퓨팅 자원 소모하지 않음
      • 데이터를 친구 각각에 푸시하지 않으므로 핫키 문제가 발생하지 않음
      • 뉴스 피드를 읽는 데 많은 시간이 소요될 수 있음

읽기 시점 팬아웃 모델은 위 그림에서 팬아웃 서비스가 없는 그림이 될 것으로 추정된다.

  • 발행 시점에 뉴스 피드 캐시를 갱신할 필요가 없기 때문이다.
  • 추가 조사 필요

본 설계안의 경우 쓰기 시점 팬아웃 모델과 읽기 시점 팬아웃 모델을 결합하여 장점을 취하고 단점을 버리는 전략을 취하도록 하겠다.

  • 빠르게 뉴스 피드를 가져올 수 있도록 절충하는 방법
    • 대부분의 사용자의 경우 → 피드 업로드 시 뉴스 피드를 즉시 갱신하는 push model 사용
    • 친구나 팔로어가 아주 많은 사용자의 경우 → 읽기 시점 피드를 갱신하는 pull model 사용
  • 안정 해시를 통해 요청과 데이터를 보다 고르게 분산하여 핫키 문제를 줄일 수 잇음

앞서 제시한 상세 설계안에서 팬아웃 서비스에 관한 부분에 대해서 집중적으로 살펴보자.

팬아웃 서비스 동작 과정

  1. 그래프 DB에서 친구 ID 목록을 가져옴 (친구 관계나 친구 추천 관리용으로 적합)
  2. 사용자 정보 캐시에서 친구 정보를 가져오고, 사용자 설정(숨김처리 등)에 따라 친구 중 일부를 제외
  3. 친구 목록과 새 스토리의 포스팅 ID를 메시지 큐에 넣음
  4. 팬아웃 작업 서버가 뉴스 피드 데이터를 캐시에 넣음
    1. 뉴스 피드 캐시는 <포스팅ID, 사용자ID> 의 순서쌍만을 보관
    2. 메모리 절약을 위해 최소화 및 크기 제한
    3. 대부분의 사용자는 최신 스토리를 보려고 하기 때문에 캐시 미스가 날 확률은 낮음

피드 읽기 흐름 상세 설계

뉴스 피드를 읽는 과정 전반의 상세 설계안은 다음과 같다.

클라이언트가 뉴스 피드 읽는 과정

  1. 사용자가 뉴스 피드 읽기 요청 전송 GET /v1/me/feed
  2. 로드 밸런서가 요청을 웹 서버 중 하나로 보냄
  3. 웹 서버는 피드를 가져오기 위해 뉴스 피드 서비스 호출
  4. 뉴스 피드 캐시에서 포스팅 ID 목록을 가져옴
  5. 뉴스 피드에 표시할 사용자 이름, 사용자 사진, 포스팅 콘텐츠, 이미지 등을 사용자 캐시와 포스팅 캐시에서 가져와 완전한 뉴스 피드 생성
  6. JSON 형태로 뉴스 피드를 클라이언트에 전송

캐시 구조

캐시는 뉴스 피드 시스템의 핵심 컴포넌트로, 다음과 같이 5 계층으로 나눌 수 있다.

  • 뉴스 피드: 뉴스 피드의 ID 보관
  • 컨텐츠: 포스팅 데이터 보관, 인기 콘텐츠는 따로 보관
  • 소셜 그래프: 사용자 간 관계 정보 보관
  • 행동: 포스팅에 대한 사용자의 행위(좋아요, 답글 등)에 관한 정보 보관
  • 횟수: 좋아요, 답글 수, 팔로어 수 등 정보 보관

마무리

추가 논의 주제

  • 웹 계층을 무상태로 운영하기
  • 가능한 많은 데이터를 캐시할 방법
  • 여러 데이터 센터 지원
  • 메시지 큐를 사용하여 컴포넌트 사이의 결합도 낮추기
  • 핵심 메트릭에 대한 모니터링 (트래픽 몰리는 시간대의 QPS, 새로고침 지연시간 등)
profile
코딩연습

0개의 댓글