국내 기술 스택 인기도 비교(1)_Data편

Oni·2023년 7월 1일
0

내가 회사에서 사용하고 있는 기술 스택 외에
다른 어떤 옵션이 있는지,
현재 상용되고 있는 기술로는 어느정도 까지 가능한 것인지,
다른 기업에도 많이 활용되고 있는지 문득 궁금할 때가 있다.

일일히 주변 지인들에게 물어보기도 힘들고
기업채용공고를 보며 확인해보기도 귀찮고..

그럴 때 활용하면 유용한 사이트를 하나 소개하고자 한다.


https://www.codenary.co.kr/

다른 기업이 사용하고 있는 기술 스택 뿐만 아니라 기술 아키텍처, 블로그 등 IT직무자들의 커뮤니티 기능도 있다.

데이터파트에는 크게 모니터링, 실시간처리, 파이프라인, 머신러닝, 병렬분산처리,대시보드로 분류된다.


🔍모니터링

이벤트의 이슈를 관리하는 대시보드 역할 기능이라 그런지
한 스택에 쏠려있지 않고 비교적 비슷하다.


🔍메세지/실시간 처리

Kafka는 대용량 실시간 데이터스트리밍 플랫폼이다.


🔍데이터 파이프라인


데이터파이프라인은 Airflow가 압도적으로 높다.
Airflow는 데이터 워크플로우 관리 및 실행 전용 플랫폼으로
python으로 작성된 오픈소스 프로젝트이다.
각각의 작업을 Task라고 하는데, Task들의 의존성(순서) 관리를 DAG으로 한다.

Snowflake는 클라우드 기반 데이터 웨어하우스로 SQL 쿼리로 데이터를 처리한다.
snowflake에도 Task기능이 있으며, DAG의 기능을 graph로 어느정도의 수준으로는 구현 가능하다.


🔍머신러닝

가장 유명한 Tensorflow & Pytorch
요즘에는 Pytorch를 많이 활용한다고 들었는데
Tensorflow와 비슷하게 나와있다.


🔍병렬분산처리

  • Spark : 하둡 에코 시스템에 속해있는 병렬분산처리 플랫폼. 인메모리상에서 동작하기 때문에 반복적인 처리가 필요한 작업에서 속도가 하둡보다 빠르다.
  • Hadoop : 대규모 데이터 세트를 분산 처리하기 위한 Apache 오픈소스 프레임워크.

🔍대시보드

Tableau>Redash>Google Data Studio>Zeppelin 순

profile
데이터 분석/엔지니어링/ML에 관한 기록

0개의 댓글