profile
정리하고 복습하고 일기도 쓰고
post-thumbnail

'모두를 위한 ChatGPT UP!' 후기글 (1-1)

요즘 ChatGPT가 유행하고 있다! 또한 GPT를 이용한 재밌고 신기한 기술들이 정말 많이 발표되고 있다. 여러 분야의 상담 서비스를 위한 챗봇, Copilot, AutoGPT, k8sgpt, ChatGPT Plugin까지... (성경을 학습한 BibleGPT도 있

2023년 5월 22일
·
0개의 댓글
·
post-thumbnail

Helm으로 Elasticsearch 배포하기

Intro ES - values.yaml Kibana - values.yaml 배포하기 테스트 Outro

2023년 3월 26일
·
0개의 댓글
·
post-thumbnail

Kubernetes - Helm 익히기

회사 팀 내에서 쿠버네티스를 사용하고 있지만, 많이 뒤쳐지고 있다는 생각이 들었다. helm을 이용하여 쿠버네티스 상에 플랫폼을 배포한다는 것만 알고 있고, helm이 어떤 것이고 왜 쓰는지, 어떻게 쓰는지 간략하게라도 써볼 필요가 있을 것 같다.chatGTP에 물

2023년 3월 18일
·
0개의 댓글
·

Pigz를 이용한 병렬 압축

linux에서는 ZIP CLI를 이용해서 데이터 압축이 가능하다. 하지만, 대용량의 경우 시간이 오래 걸릴 수밖에 없다. (1TB의 데이터를 압축하려는 데에 예상시간이 12시간 이상이었던 걸로 기억한다...) 이렇게 하나의 작업 과정이 오래 걸리게 되면, 쉽게 전후 과

2023년 3월 12일
·
0개의 댓글
·

Linux Shell, init 파일 이해하기

0. Intro 회사 내에서 쿠버네티스를 이용한 자동화 프로젝트를 다루면서, Linux를 사용할 기회가 많이 생겼다. 아무래도 내가 Linux를 얉게 알고 있다보니, 프로젝트를 진행하면서 막히는 경우가 많이 생겼다. 특히, 도커 이미지가 쿠버네티스(with kube

2023년 3월 5일
·
0개의 댓글
·

뜬금없이 회고하기 - 2

방향을 정한 상태로 확신을 가지고 달리다보니, 지친다는 느낌은 눈에 띄게 줄어들게 되었다. 요즘은 혹여나 방향이 조금 틀어지지 않았나 걱정만 조금 되는 편이다. 또한 방향을 설정했다면, 이제는 나아가는 속도 또한 개선이 필요하다고 생각한다.다시 한번 더 회고글을 쓰면서

2022년 8월 7일
·
0개의 댓글
·
post-thumbnail

FastAPI를 이용한 DB 조회 API 제작

기술 면접에서 이러한 질문을 받은 적이 있다. "API 제작해본 경험이 있을까요?"백엔드 경험이 거의 없던 나는 역시 '아니오'라고 대답할 수 밖에 없었다.(Elasticsearch의 CRUD API를 이용한 데이터 조회 경험이라도 말해볼 걸 그랬다...)간단한 API

2022년 7월 26일
·
0개의 댓글
·
post-thumbnail

Database 기본기

DataBase DB(Database)란? 일정한 규칙을 통해 구조화되어 저장되는 데이터 모음이다. 여기서 말하는 구조를 Schema라고 하며, DB를 관리하는 시스템을 DBMS(Database Management System)라고 한다. DBMS 내에서는 정의된 Qu

2022년 7월 24일
·
0개의 댓글
·
post-thumbnail

TCP/IP Protocol

데이터는 네트워크 속에서 어떻게 요청하고 받는 것일까? 대부분의 네트워크는 TCP/IP 프로토콜을 따른다. 프로토콜(Protocol)이란 일종의 약속, 규약이다. 즉, 데이터가 어떻게 처리되고 어떤 형식으로 보내질 지에 대해 사회에서 정한 규칙이라고 봐도 될 것 같다.

2022년 7월 14일
·
0개의 댓글
·

Ray를 사용한 Cluster 분산 처리 후기

0. Intro 지난번에는 Ray를 이용하여 컴퓨터 한대(4개의 CPU)로 병렬 처리를 해보았다. 속도는 빨라졌다고 하지만, 수만개의 데이터를 처리하는 데에 턱없이 부족해보인다. 그래서 이번에는 GCP 내에서 Ray의 Cluster 분산 처리를 해보기로 하였다. 1.

2022년 7월 6일
·
0개의 댓글
·

Ray를 사용한 병렬 처리

0. Intro 이전 회사에 있었을 때, 몇 만 장의 이미지와 그에 대한 라벨링 데이터를 처리하면서 속도가 너무 낮아 애를 쓴 적이 있다. 이때부터 파이썬의 성능 개선 필요성을 느끼고 있었다. 그리고 앞으로 AI Engineer로 일하면서 python을 많이 사용하게

2022년 6월 28일
·
0개의 댓글
·

NLP - 텍스트 데이터 전처리

0. Intro 이전까지 Vision 관련 데이터 및 모델만 다뤄왔다. NLP에 대해서도 궁금한 점이 많이 있었지만, 공부해볼 기회가 따로 없었기에 미루고만 있었다. 그리고 얼마 전에 관심 있는 회사에서 NLP관련 과제 테스트를 요청했고, 드디어 NLP 공부할 기회가

2022년 6월 21일
·
0개의 댓글
·
post-thumbnail

데이터 파이프라인 핵심 가이드(1) - 데이터 인프라

대중 교통을 타거나 또는 오랜 시간 기다려야할 때, 시간이 아깝다는 생각을 많이 한다. 그래서 책을 사서 공부해보기로 하였다.어떤 책을 읽는 게 좋을까? 어느 회사 면접에서 '\~~데이터를 위한 파이프라인은 어떻게 설계해야할까요?' 라는 질문을 받았었다. 지금까지는 기

2022년 5월 31일
·
0개의 댓글
·
post-thumbnail

udemy Hadoop - GCP 실습 환경

udemy hadoop 강의에서는 Virtual Machine에 Linux 이미지를 올려 실습한다. 여기에 필요한 건 8GB 이상의 RAM 이라는 점이다... 하지만 내 노트북은 딱 8GB짜리라 돌아가진 않고, Mac의 경우엔 M1을 지원하지 않는다.강의를 그냥 들어볼

2022년 5월 23일
·
0개의 댓글
·
post-thumbnail

udemy Hadoop - Spark(2)

이전 시간에 Spark에 대해서 알아보았고, Spark의 데이터 구조로 RDD, Dataframe, Dataset이 있다는 것을 배웠다. 각각은 어떤 형태로 되어 있으며 어떻게 조작하는 것일까?RDD의 의미 Resillient Distributed Data를 해석하자면

2022년 5월 21일
·
0개의 댓글
·
post-thumbnail

뜬금없이 회고하기

요새 지친다는 느낌을 많이 받는다. 생각이 많아지고, 자신감이 없어진다. 내가 가고 있는 길이 맞는 걸까? 회고 글을 쓰면서 생각을 정리하고 마음을 다시 잡아보자!지원하는 회사마다 떨어지면서 내가 가고 있는 방향이 잘못된 것 같다는 생각을 종종 한다. 그러면서 내가 공

2022년 5월 19일
·
0개의 댓글
·

udemy Hadoop - Spark(1)

java scala 파이썬 프로그래밍 언어 이용 스크립트 작성 유연성 제공 복잡 데이터 조작 변형 분석. pig 기술 다른 점은 스파크 위에 또다른 생태계 존재하여 머신 러닝 데이터 마이닝 그래프 분석 데이터 스트리밍 복잡한 일 할 수 잇음.범용 클러스터 작업 분배해

2022년 5월 18일
·
0개의 댓글
·

Structured vs Unstructured Data

한 회사에서 면접을 보면서, 당황했던 질문 중 하나였다. 이전까지는 구조화된 데이터라 함은 구조가 잡힌 데이터인 줄 알고 넘어갔지만, 정확히 어떠한 의미로 구조화된 데이터인지 알지 못했다. 이미지 형식은 어떤 쪽에 속할까? JSON, XML은? RDB는?구조화된(Str

2022년 5월 16일
·
0개의 댓글
·

udemy Hadoop - Pig

이전 강의에서 Pig는 SQL Script 형식으로 작동하고, 데이터를 가공할 수 있다고 배웠던 기억이 있다. SQL Script 형식은 어떤 것이며, 데이터를 어떤 형태에서 어떤 형태로 가공할 수 있는 걸까?Pig는 MapReduce 위에서 작동하며, SQL Scri

2022년 5월 15일
·
0개의 댓글
·

udemy Hadoop - HDFS, MapReduce

udemy 강의 실습은 VM Virtual Machine을 사용하여, Hadoop 이미지(다양한 프로젝트가 미리 설치되어 있는)를 가져온다. 해당 이미지를 실행시키기 위해서는 8gb RAM이 필요한데, 내 노트북으로는 돌아가지 않는다... AWS 인스턴스를 만들어 직접

2022년 5월 13일
·
0개의 댓글
·