profile
데이터엔지니어입니다.

[DB] Clustered, non-Clustered Index

클러스터형 인덱스는 직관적으로 Primary Key라고 이해하면 됩니다.이렇게 지정된 컬럼을 기준으로 데이터가 정렬되어 저장됩니다.논클러스터형 인덱스는 클러스터형 인덱스처럼 원본데이터를 직접 정렬하지 않고, 기준으로 잡은 컬럼에 대한 위치정보를 마킹해놓은 테이블을 따로

2023년 6월 28일
·
0개의 댓글
·

[python] 환경변수 세팅(.env)

💡 <span style='color:띄어쓰기 없이 입력해야 합니다.Git 업로드시 환경변수 파일을 업로드하면 안되므로, .gitignore에 .env파일을 추가해 줍니다.python에서 .env 설정파일사용하기python-dotenv project descri

2023년 4월 12일
·
0개의 댓글
·
post-thumbnail

[AWS] VPC, Subnet, Router

💡 AWS 서비스를 이용하면서 가상 컴퓨팅 환경을 이용하려면 VPC 생성이 필수인데, 정작 VPC가 무엇인지는 잘 모르는 것 같아 구글링과 코멘토의 클라우드 직무 부트캠프를 통해 개념을 정리하고 실습해봤습니다.가장 많이 도움의 된 글은 이블로그 이며, 여러 자료를

2023년 4월 5일
·
0개의 댓글
·

[nginx] nginx란?

💡 웹서버로 많이 사용되는 Nginx에 대해 알아봅니다.우아한테크의 10분 테코톡 피케이님의 영상을 보고 요약하였습니다.영상을 보고오시는 것을 추천합니다.가벼우면서도 강력한 프로그램을 목표로 개발되어 미국에서 운영중인 오픈 소스 웹서버 프로그램입니다.비동기이벤트 기반

2023년 3월 28일
·
0개의 댓글
·
post-thumbnail

[gunicorn] gunicorn이란? 왜 필요할까?

💡 <span style='color:<span style='color:> 파이썬 애플리케이션이 웹서버와 통신하기 위한 인터페이스로 웹서버의 요청을 해석을 해서 파이썬애플리케이션에게 전달해줍니다. 대표적으로 gunicorn과 uWSGI가 있습니다.Djang

2023년 3월 28일
·
0개의 댓글
·

[Hadoop][HDFS] Block

HDFS에서 블록은 지정된 크기로 분할되어있으며, 독립적입니다.블록의 크기는 128MB이상으로 큰 단위로 분할되어 있는데, 그 이유는 블록의 탐색시간을 단축시킬 수 있기 때문입니다. 그렇게 단축한 시간을 네트워크로 파일을 전송하는데 할애할 수 있게 됩니다. 이로 인해

2023년 3월 24일
·
0개의 댓글
·
post-thumbnail

[python] gzip으로 압축, 해제하기

💡 ETL 파이프라인으로 S3에 적재된 gzip으로 압축된 로그파일을 다시 다운로드하고 압축해제하는 과정에서 찾은 방법입니다.생성된 파일들..압축해제된 모습 저런형태인 이유는 해싱과 암호화를 거쳐서 저런형태가 나온 것 입니다. 더 궁금하다면 여기참고로 w, r, b

2023년 3월 23일
·
0개의 댓글
·
post-thumbnail

[python] json형식 로그 해싱, 암호화/복호화 하기

💡 <span style='color:Introduction to Salted-Hashed Passwords해싱은 단순히 특정 문자열을 어떤 함수를 통과시켜서 다른 문자열로 바꾸는 것을 의미합니다.(되돌릴 수 없음)그래서 사용자의 패스워드에 많이 사용되었는데요,

2023년 3월 22일
·
0개의 댓글
·

[python] 파일경로라이브러리 pathlib

💡 파이썬 파일관련 라이브러리인 pathlib의 사용법을 정리합니다.pathlib documentation

2023년 3월 22일
·
0개의 댓글
·
post-thumbnail

[빅데이터] 빅데이터의 정착

이 페이지에서는 빅데이터의 주요 역사에 대해서 설명합니다.2011년 이전 : Hadoop이나 NoSQL 데이터베이스 등 기반 기술의 발전2012년 : 클라우드 방식의 데이터 웨어하우스와 BI 도구의 보급2013년 : 스트림 처리와 애드 훅(Adhoc) 분석 환경의 확충

2023년 3월 21일
·
0개의 댓글
·
post-thumbnail

[Hadoop][HDFS] HDFS의 구조 (Architecture)

💡 HDFS의 구조에 대해 알아봅니다.HDFS는 Master, Slave 구조로 하나의 Namenode와 이에 할당된 여러 개의 Datanode로 구성됩니다. 네임노드는 메타데이터(데이터 노드의 위치정보 등등)를 가지고 있고 데이터는 블룩 단위로 나누어서 데이터노드에

2023년 3월 21일
·
0개의 댓글
·
post-thumbnail

[Hadoop][HDFS] HDFS 란?

💡 하둡의 분산 파일 저장 시스템인 <span style='color:Hadoop Distrubution File System의 약자로 우리가 일반적으로 사용하는 하드웨어서도 동작하고, 파일 손상 시 복구를 할 수 있는 분산된 파일 시스템을 목표로 합니다.실시간

2023년 3월 21일
·
0개의 댓글
·
post-thumbnail

[Hadoop] Hadoop, 버전별 특징

💡 Hadoop의 버전별 특징에 대해 소개합니다.v1병렬처리는 잡트래커와 태스크트래커가 담당하고, 분산저장은 네임노드와 데이터노드가 담당하는 구조로 설정하였습니다. 하지만 병렬처리의 클러스터 자원 관리와 애플리케이션의 라이프사이클 관리를 모두 잡트래커가 담당하는 문제

2023년 3월 21일
·
0개의 댓글
·

[Hadoop]Hadoop이란?

💡 <span style='color:여러 대의 컴퓨터를 사용하여 큰 크기의 데이터를 클러스터에서 병렬로 처리해서 속도를 latency를 줄이고 속도를 높이는 분산 처리가 주 목적입니다.방대한 비정형 데이터를 처리할 솔루션으로 Hadoop이 많이 사용되고 있으며

2023년 3월 21일
·
0개의 댓글
·

하이브리드 렌더링이란?

💡 하이브리드 렌더링하이브리드 렌더링은 서버와 클라이언트의 자원을 최대한 활용하여 미디어 자료를 렌더링하는 방식, 문서 열람의 경우에 사용자가 보는 첫 페이지는 서버의 자원을 활용하여 렌더링하고, 나머지 부분은 사용자(클라이언트)의 메모리에서 PDF파일 다운로드를 진

2023년 3월 20일
·
0개의 댓글
·
post-thumbnail

MapReduce란?

💡 MapReduce는 구글에서 공개한 논문인 MapReduce: Simplified Data Processing on Large Cluster에서 소개한 프로그래밍 모델과 구현한 모듈 자체를 모두 지칭하는 말로 한 가지 Task를 여러 대의 컴퓨터에게 분산해서 처리

2023년 3월 20일
·
0개의 댓글
·
post-thumbnail

데이터 파이프라인의 개념

다양한 데이터 소스에서 <span style="color:일반적으로는 데이터 전처리과정을 거쳐서 저장하며, 적절한 데이터 통합과 표준화를 보장하는 필터링, 마스킹, 집계와 같은 데이터 변환이 요구됩니다.Data set이 RDB일 경우 이 과정이 더욱 중요하며, 이

2023년 3월 20일
·
0개의 댓글
·
post-thumbnail

GFS(Google File System)

기존의 데이터베이스 관리도구 툴의 능력을 벗어 나는 규모의 대량의 정형 or 비정형의 데이터를 추출하여 가치를 창출하고 결과를 분석하는 기술을 의미한다.큐잉(queueing) - queueing자료구조인 Queue의 형태로 순서대로 대기열을 세워서 순차적으로 처리함.\

2023년 3월 20일
·
0개의 댓글
·

네이버 이미지 크롤링(수집)

그 때 당시에 기억으로는 중간중간에 없는 div번호가 있어서 예외처리를하고 없는 번호가 뭔지 출력하게끔 진행했다.위 코드를 간단히 요약하자면 원하는 검색어의 이미지 페이지에서 이미지 열 개마다 스크롤을 내리면서 이미지를 수집한다.이미지저장은 실행한 위치의 상위폴더에서

2023년 3월 18일
·
0개의 댓글
·

[python] json to dictionary

JSON은 자바스크립트 객체 표기법으로, 자바스크립트의 형태이지만 여기에 국한되지 않고 대부분의 언어에서 JSON을 해석하는 라이브러리가 있다. 파이썬의 경우 Dic타입과 유사한 형태이다.https://www.freecodecamp.org/korean/news

2023년 3월 18일
·
0개의 댓글
·