Apache Kafka(아파치 카프카)란?

yuri·2022년 4월 28일

Intro

Apache Kafka 에 대해 알아보려고 한다.

카프카는 링크드인에서 처음 출발한 기술로, 링크드인에서 발생하는 이슈를 해결하기 위해 만들어졌다. 카프카가 개발되기 전의 링크드인 아키텍쳐는 다음과 같다.

기존엔 데이터 스토어 백엔드 관리와 백엔드에 따른 포맷, 별도의 앱 개발을 해야했는데 이젠 카프카에만 데이터를 전달하면 필요한 곳에서 각자 가져갈 수 있도록 변경되었다. 카프카가 제공하는 표준 포맷으로 연결되어 데이터를 주고받는 데 부담이 없어졌다.

Producer와 Consumer의 분리
- 프로듀서(Producer)는 메시지를 생산(produce)해서 브로커의 토픽으로 메시지를 보내는 역할을 하는 애플리케이션이나 서버 모두를 프로듀서라고 부른다. 프로듀서는 데이터를 전송할 때 리더 파티션을 가지고 있는 카프카 브로커와 직접 통신한다.
- 컨슈머(Consumer)는 토픽의 파티션에 저장되어 있는 메시지를 소비(consume)하는 역할을 하는 애플리케이션이나 서버 모두를 컨슈머라 부른다. 컨슈머는 데이터를 요청할 때 리더 파티션을 가지고 있는 카프카 브로커와 통신한다.
멀티 Producer와 멀티 Consumer
디스크에 메세지 저장
- 일반적인 메시징 시스템들은 Consumer가 메세지를 읽어가면 큐에서 바로 메세지를 삭제
- 카프카는 보관 주기동안 디스크에 메세지를 저장
확장성
- 3대의 브로커로 시작해 수십대의 브로커로 확장 가능
  - 브로커 : 카프카 애플리케이션이 설치되어 있는 서버
- 무중단 확장 가능
높은 성능
- 내부적으로 분산 처리, 배치 처리 기법 사용

Step by step goes a long way ✨