# data

408개의 포스트

Log Data pipeline 구성

기존에 로그데이터 색인을 배치를 통해 진행하고 있었다. 하지만 해당 방식은 실시간이 될 수 없었고(배치 시간을 아무리 쪼개도 결국 배치가 수행되어야만 색인이 되므로),배치로 ES에 색인을 하니, 추천 데이터를 바로바로 Refresh가 되지 않았다. 앱을 방문하는 사용자

2일 전
·
0개의 댓글
·
post-thumbnail

역정규화

정규화를 통해 만든 테이블을 성능, 개발 편의성 등을 위해 조작하거나 구조를 바꾸는 것.정규화를 하게 되면 쓰기가 편리해지는 대신, 읽기의 성능을 희생하게 된다.테이블을 나누면 join을 해야 하는데, join에 드는 비용이 크기 때문.즉, 읽기가 자주 일어나는 테이블

3일 전
·
0개의 댓글
·
post-thumbnail

정규화

정규화(Normalization) 관계형 데이터베이스의 설계에서 중복을 최소화하게 데이터를 구조화하는 프로세스를 의미한다. 정규화는 제1 정규화로부터 제6 정규화까지 총 6가지 단계가 있으나, 제4~6 정규화는 학술적 측면에서 많이 다뤄지며 산업적 관점에서는 제1~3

3일 전
·
0개의 댓글
·
post-thumbnail

데이터 확보 전략

AI 혁신에서 가장 많이 신경써야 할 것 - 데이터 관리에 대한 선순환 체계를 갖는 것 데이터 확보, 데이터 품질 관리, 데이터 활용 등 시스템으로 갖추어야 함 충분한 데이터를 확보하고 필요한 핵심 데이터를 꾸준히 생성 확인되지 않은 데이터나 왜곡된 데이터는 사용하지

4일 전
·
0개의 댓글
·
post-thumbnail

[DB] kaggle 데이터 분석 해보기(3)

2편에 이어 이번에는 고객 만족도 Data를 분석해보겠습니다.

5일 전
·
0개의 댓글
·
post-thumbnail

B-Tree 자료구조

1. B-Tree란? B-Tree 는 탐색 성능을 높이기 위해 균형 있게 높이를 유지하는 Balanced Tree의 일종이다. 모든 leaf node가 같은 level로 유지되도록 자동으로 밸런스를 맞춘다. 자식 node의 개수가 2개 이상이며, node 내의 key

6일 전
·
0개의 댓글
·

데이터베이스 인덱스

1. 인덱스(Index)란? 인덱스(Index)는 데이터베이스의 테이블에 대한 검색 속도를 향상시켜주는 자료구조이다. 테이블의 특정 컬럼(Column)에 인덱스를 생성하면, 해당 컬럼의 데이터를 정렬한 후 별도의 메모리 공간에 데이터의 물리적 주소와 함께 저장된다.

6일 전
·
0개의 댓글
·

SQL

Q> 데이터 베이스와 데이터 베이스 관리시스템을 어린이도 알 수 있을 정도로 설명해 주세요A> 어린이가 가지고 있는 책(정보)들을 데이터베이스라고 한다면, 그 책을 관리 해주는 엄마는 데이터 베이스 관리 시스템이라 할 수 있다.데이터의 집합 (a set of Data)

6일 전
·
0개의 댓글
·

Eager fetch, Lazy fetch

\[JPA] 즉시 로딩과 지연 로딩(FetchType.LAZY or EAGER)애플리케이션이 DB로 부터 데이터를 가져오는 것DB와 통신하여 데이터를 읽는 것에는 큰 비용이 소모되기 때문에, 똑똑하게 가져오는 전략이 필요eager : 프로그램 코드가 쿼리를 날리는 시점

6일 전
·
0개의 댓글
·

JAVA - JPA

Goal ORM이란 JPA란 JPA의 동작 과정 JPA를 사용해야 되는 이유 ORM(Object-relational mapping) 이란 Object-relational mapping (객체 관계 매핑) 객체는 객체대로 설계하고, 관계형 데이터베이스는 관계형 데이

6일 전
·
0개의 댓글
·
post-thumbnail

[DB] kaggle 데이터 분석 해보기(2)

1편에 이어 데이터 import부터 본격적인 데이터 분석을 진행해보겠습니다.

7일 전
·
0개의 댓글
·
post-thumbnail

[DB] kaggle 데이터 분석 해보기(1)

E-commerce 시장의 고객 구매 데이터를 활용하여 E-commerce 비즈니스에서 중요한 시장 수요 예측과 고객 관리 등에 도움이 되는 유의미한 데이터를 분석합니다.

7일 전
·
0개의 댓글
·

Data and Information

Represetation of data within a computer system

2023년 3월 19일
·
0개의 댓글
·

Airflow 와 BigQuery 연결하기 + BigQuery DAG Example

BigQuery에 웹행동 이벤트 데이터를 수집하고 있다. 그 데이터들을 이리저리 만지고 옮기고 위해 Airflow를 활용하기로 했다.(물론 나혼자 결정) Airflow 는 데이터 엔지니어 직무에서 주로 ETL 작업에서 주로 사용하는 툴로 알고 있다.

2023년 3월 16일
·
0개의 댓글
·

OSS - 데이터 분석

google colab 툴을 활용해 csv 데이터 분석 하기🚨 중요 요구사항에 따른 단방향 데모 시나리오 구성최근, 데이터 경진대회에서 노트북 파일 포맷을 제출하도록 요구셀 (cell) 단위별 설명과 빠른 코드 작성 및 시각화 가능 ✏️ 마크다운 언어로 수식이나 이모

2023년 3월 14일
·
0개의 댓글
·

Scope

Memory 에 올라온 각 상수나 변수등의 요소들이 허용된 영역, 또는 범위를 Scop 라고 한다.Program 을 실행시키기 위한 작업 공간Program 을 실행시키기 위해선 Process 가 필요로 하는 재료가 Memory 에 올라와 있어야 한다.Code실행 명령을

2023년 3월 13일
·
0개의 댓글
·

데이터 타입과 변환

데이터 타입과 형변환

2023년 3월 13일
·
0개의 댓글
·

운영체제 OS(Operating System)

movie시스템 의 자원 과 동작 을 관리하는 소프트웨어프로세스, 저장장치, 네트워킹, 사용자, 하드웨어 를 관리4가지 영역 data 영역code 영역heap 영역stack 영역실행 중 인 프로그램 스레드가 여러개 실행중인 프로그램 스레드 프로세스 안에서 실행되는

2023년 3월 13일
·
0개의 댓글
·
post-thumbnail

React-Native에서 데이터 pdf로 다운 받기(react-native-html-to-pdf)

프로젝트 중 다운받은 데이터를 pdf형태로 다운받아야 하는 상황이 발생했고 라이브러리를 서치해 보다가 react-native-html-to-pdf라는 라이브러리를 발견했고 해당 라이브러리를 사용했던 건에 대한 내용이다.

2023년 3월 10일
·
0개의 댓글
·
post-thumbnail

📈수요예측 모델

.

2023년 3월 10일
·
0개의 댓글
·