요즘 ChatGPT가 유행하고 있다! 또한 GPT를 이용한 재밌고 신기한 기술들이 정말 많이 발표되고 있다. 여러 분야의 상담 서비스를 위한 챗봇, Copilot, AutoGPT, k8sgpt, ChatGPT Plugin까지... (성경을 학습한 BibleGPT도 있
Intro ES - values.yaml Kibana - values.yaml 배포하기 테스트 Outro
회사 팀 내에서 쿠버네티스를 사용하고 있지만, 많이 뒤쳐지고 있다는 생각이 들었다. helm을 이용하여 쿠버네티스 상에 플랫폼을 배포한다는 것만 알고 있고, helm이 어떤 것이고 왜 쓰는지, 어떻게 쓰는지 간략하게라도 써볼 필요가 있을 것 같다.chatGTP에 물
linux에서는 ZIP CLI를 이용해서 데이터 압축이 가능하다. 하지만, 대용량의 경우 시간이 오래 걸릴 수밖에 없다. (1TB의 데이터를 압축하려는 데에 예상시간이 12시간 이상이었던 걸로 기억한다...) 이렇게 하나의 작업 과정이 오래 걸리게 되면, 쉽게 전후 과
0. Intro 회사 내에서 쿠버네티스를 이용한 자동화 프로젝트를 다루면서, Linux를 사용할 기회가 많이 생겼다. 아무래도 내가 Linux를 얉게 알고 있다보니, 프로젝트를 진행하면서 막히는 경우가 많이 생겼다. 특히, 도커 이미지가 쿠버네티스(with kube
방향을 정한 상태로 확신을 가지고 달리다보니, 지친다는 느낌은 눈에 띄게 줄어들게 되었다. 요즘은 혹여나 방향이 조금 틀어지지 않았나 걱정만 조금 되는 편이다. 또한 방향을 설정했다면, 이제는 나아가는 속도 또한 개선이 필요하다고 생각한다.다시 한번 더 회고글을 쓰면서
기술 면접에서 이러한 질문을 받은 적이 있다. "API 제작해본 경험이 있을까요?"백엔드 경험이 거의 없던 나는 역시 '아니오'라고 대답할 수 밖에 없었다.(Elasticsearch의 CRUD API를 이용한 데이터 조회 경험이라도 말해볼 걸 그랬다...)간단한 API
DataBase DB(Database)란? 일정한 규칙을 통해 구조화되어 저장되는 데이터 모음이다. 여기서 말하는 구조를 Schema라고 하며, DB를 관리하는 시스템을 DBMS(Database Management System)라고 한다. DBMS 내에서는 정의된 Qu
데이터는 네트워크 속에서 어떻게 요청하고 받는 것일까? 대부분의 네트워크는 TCP/IP 프로토콜을 따른다. 프로토콜(Protocol)이란 일종의 약속, 규약이다. 즉, 데이터가 어떻게 처리되고 어떤 형식으로 보내질 지에 대해 사회에서 정한 규칙이라고 봐도 될 것 같다.
0. Intro 지난번에는 Ray를 이용하여 컴퓨터 한대(4개의 CPU)로 병렬 처리를 해보았다. 속도는 빨라졌다고 하지만, 수만개의 데이터를 처리하는 데에 턱없이 부족해보인다. 그래서 이번에는 GCP 내에서 Ray의 Cluster 분산 처리를 해보기로 하였다. 1.
0. Intro 이전 회사에 있었을 때, 몇 만 장의 이미지와 그에 대한 라벨링 데이터를 처리하면서 속도가 너무 낮아 애를 쓴 적이 있다. 이때부터 파이썬의 성능 개선 필요성을 느끼고 있었다. 그리고 앞으로 AI Engineer로 일하면서 python을 많이 사용하게
0. Intro 이전까지 Vision 관련 데이터 및 모델만 다뤄왔다. NLP에 대해서도 궁금한 점이 많이 있었지만, 공부해볼 기회가 따로 없었기에 미루고만 있었다. 그리고 얼마 전에 관심 있는 회사에서 NLP관련 과제 테스트를 요청했고, 드디어 NLP 공부할 기회가
대중 교통을 타거나 또는 오랜 시간 기다려야할 때, 시간이 아깝다는 생각을 많이 한다. 그래서 책을 사서 공부해보기로 하였다.어떤 책을 읽는 게 좋을까? 어느 회사 면접에서 '\~~데이터를 위한 파이프라인은 어떻게 설계해야할까요?' 라는 질문을 받았었다. 지금까지는 기
udemy hadoop 강의에서는 Virtual Machine에 Linux 이미지를 올려 실습한다. 여기에 필요한 건 8GB 이상의 RAM 이라는 점이다... 하지만 내 노트북은 딱 8GB짜리라 돌아가진 않고, Mac의 경우엔 M1을 지원하지 않는다.강의를 그냥 들어볼
이전 시간에 Spark에 대해서 알아보았고, Spark의 데이터 구조로 RDD, Dataframe, Dataset이 있다는 것을 배웠다. 각각은 어떤 형태로 되어 있으며 어떻게 조작하는 것일까?RDD의 의미 Resillient Distributed Data를 해석하자면
요새 지친다는 느낌을 많이 받는다. 생각이 많아지고, 자신감이 없어진다. 내가 가고 있는 길이 맞는 걸까? 회고 글을 쓰면서 생각을 정리하고 마음을 다시 잡아보자!지원하는 회사마다 떨어지면서 내가 가고 있는 방향이 잘못된 것 같다는 생각을 종종 한다. 그러면서 내가 공
java scala 파이썬 프로그래밍 언어 이용 스크립트 작성 유연성 제공 복잡 데이터 조작 변형 분석. pig 기술 다른 점은 스파크 위에 또다른 생태계 존재하여 머신 러닝 데이터 마이닝 그래프 분석 데이터 스트리밍 복잡한 일 할 수 잇음.범용 클러스터 작업 분배해
한 회사에서 면접을 보면서, 당황했던 질문 중 하나였다. 이전까지는 구조화된 데이터라 함은 구조가 잡힌 데이터인 줄 알고 넘어갔지만, 정확히 어떠한 의미로 구조화된 데이터인지 알지 못했다. 이미지 형식은 어떤 쪽에 속할까? JSON, XML은? RDB는?구조화된(Str
이전 강의에서 Pig는 SQL Script 형식으로 작동하고, 데이터를 가공할 수 있다고 배웠던 기억이 있다. SQL Script 형식은 어떤 것이며, 데이터를 어떤 형태에서 어떤 형태로 가공할 수 있는 걸까?Pig는 MapReduce 위에서 작동하며, SQL Scri
udemy 강의 실습은 VM Virtual Machine을 사용하여, Hadoop 이미지(다양한 프로젝트가 미리 설치되어 있는)를 가져온다. 해당 이미지를 실행시키기 위해서는 8gb RAM이 필요한데, 내 노트북으로는 돌아가지 않는다... AWS 인스턴스를 만들어 직접