카프카는 분산 Application으로, 서버에 물리적인 장애가 발생하는 경우에도 높은 가용성을 보장한다.카프카에서는 리플리케이션(Replication)을 통해 데이터의 복제본을 가지며 운영중인 브로커가 죽더라도 데이터를 유지할 수 있다각 Topic에 대한 replic
Topic(토픽) Kafka 안에서 메시지가 저장되는 장소 토픽 생성시 파티션 개수를 지정하고, 각 파티션은 브로커들에 분산되며 세그먼트 파일들로 구성됨 Partition(파티션) -> Commit Log 하나의 토픽은 하나 이상의 파티션으로 구성 병렬처리(Throu
Download Data(API로 호출) -> Process Data(Spark로 처리) -> Store Data(Insert/Update)
지난 분기에 가장 많은 구매자 순서로 9개의 종목만 추려보도록 한다기업이 자본을 이용하여 얼마만큼의 이익을 냈는지를 나타내는 지표추후에 사용할 수 있는 지표로, 미리 데이터프레임에 넣어둔다기업에 지불해야하는 가격 대비 해당기업이 벌어 줄 수 있는 이윤의 비율EY(이익수
https://school.programmers.co.kr/learn/courses/30/lessons/12973짝지어 제거하기는, 알파벳 소문자로 이루어진 문자열을 가지고 시작합니다. 먼저 문자열에서 같은 알파벳이 2개 붙어 있는 짝을 찾습니다. 그다음, 그
프로젝트를 시작하기 앞서, 짚고 넘어가야 할 점이 있다.양질의 데이터를 갖고있다 하더라도, 그걸 분별할 수 있는 도메인 지식이 부족하다는 것.때문에 계획했던대로 데이터로마 에서 훌륭한 투자자들이 투자한 종목을 확인하도록 한다링크를 통해 들어가면, 위의 페이지를 볼 수
퀀트로 주식 하지 말아야 할 이유위 링크를 들어가서 자세히 읽어보면, 퀀트 투자에 있어 생길 수 있는 여러가지 문제점들이 제시되었다. 나 또한 주식에 대한 지식이 풍부하지 않고, 데이터만을 이용하여 수익을 낸다는 것에 의문을 가지고 있기에 아래의 방법으로 미니 프로젝트
https://school.programmers.co.kr/learn/courses/30/lessons/42842Leo는 카펫을 사러 갔다가 아래 그림과 같이 중앙에는 노란색으로 칠해져 있고 테두리 1줄은 갈색으로 칠해져 있는 격자 모양 카펫을 봤습니다.Leo
진행중인 프로젝트에서 배치성으로 분석해야 하는 데이터들이 생겼다. 주기적으로 데이터를 받아 분석해야 했기에, 해당 작업 내용을 듣자마자 Airflow가 생각이 났다.데이터를 받고해당 데이터를 원하는 형태로 전처리 한 다음해당 데이터를 저장한다새로이 저장한 데이터를 분석
https://school.programmers.co.kr/learn/courses/30/lessons/129811부터 n까지 번호가 붙어있는 n명의 사람이 영어 끝말잇기를 하고 있습니다. 영어 끝말잇기는 다음과 같은 규칙으로 진행됩니다.1번부터 번호 순서대로
https://school.programmers.co.kr/learn/courses/30/lessons/12911?language=python3자연수 n이 주어졌을 때, n의 다음 큰 숫자는 다음과 같이 정의 합니다.조건 1. n의 다음 큰 숫자는 n보다 큰
https://school.programmers.co.kr/learn/courses/30/lessons/701290과 1로 이루어진 어떤 문자열 x에 대한 이진 변환을 다음과 같이 정의합니다.x의 모든 0을 제거합니다.x의 길이를 c라고 하면, x를 "c를 2
https://school.programmers.co.kr/learn/courses/30/lessons/12909괄호가 바르게 짝지어졌다는 것은 '(' 문자로 열렸으면 반드시 짝지어서 ')' 문자로 닫혀야 한다는 뜻입니다. 예를 들어"()()" 또는 "(())
https://school.programmers.co.kr/learn/courses/30/lessons/427460 또는 양의 정수가 주어졌을 때, 정수를 이어 붙여 만들 수 있는 가장 큰 수를 알아내 주세요.예를 들어, 주어진 정수가 6, 10, 2라면 61
https://school.programmers.co.kr/learn/courses/30/lessons/42584초 단위로 기록된 주식가격이 담긴 배열 prices가 매개변수로 주어질 때, 가격이 떨어지지 않은 기간은 몇 초인지를 return 하도록 solut
https://school.programmers.co.kr/learn/courses/30/lessons/12900가로 길이가 2이고 세로의 길이가 1인 직사각형모양의 타일이 있습니다. 이 직사각형 타일을 이용하여 세로의 길이가 2이고 가로의 길이가 n인 바닥을
https://www.kaggle.com/code/yoontaeklee/credit-card-fraud-detection통계나 데이터 분석에서, outlier는 대다수의 데이터에서 벗어난 데이터를 말한다. 이는 해당 데이터가 다른 데이터와는 다른 메커니즘으로
https://school.programmers.co.kr/learn/courses/30/lessons/12899124 나라가 있습니다. 124 나라에서는 10진법이 아닌 다음과 같은 자신들만의 규칙으로 수를 표현합니다.124 나라에는 자연수만 존재합니다.12
https://school.programmers.co.kr/learn/courses/30/lessons/12914?language=python3효진이는 멀리 뛰기를 연습하고 있습니다. 효진이는 한번에 1칸, 또는 2칸을 뛸 수 있습니다. 칸이 총 4개 있을 때
이상거래 탐지 관련 머신러닝을 공부하다가(Kaggle : Credit card fraud detection), 성능 지표에 대한 개념을 맞닥뜨려 본 게시물을 작성하게 되었다. 오늘 포스팅 하는 Classification Evaluation Metrics(분류 성능 지표