기계가 사람의 지능을 모방하게 하는 기술방식규칙기반 : 특정 조건으로 정보를 선별데이터 학습 기반 : 데이터를 이용한 학습종류Strong AIArtificial General Intelligence (AGI) 성능을 가짐인간이 할 수 있는 모든 지적인 업무를 해낼 수
간단한 패턴의 알고리즘을 시작으로 데이터를 이용해 계속해서 학습하면서 데이터의 규칙을 설명할 수 있는 적절한 모델을 만드는 것모델을 정하여 수식화Train, fit데이터를 이용해 모델을 학습하며 데이터의 패턴(input, output data의 관계성)에 맞춤Test학
머신러닝 알고리즘은 데이터셋에 결측치가 있으면 학습이나 추론을 하지 못하기 때문에 적절한 처리가 필요모든 머신러닝 모델들은 함수이기에 숫자 밖에 처리하지 못한다제거(행, 열단위)행단위를 기본으로 특정 열에 많을 경우에는 열도 제거다른 값 대체가장 가능성이 높은 값으로
Categorical : 범주형대상값들이 서로 떨어진 값을 가지는 변수. 대부분 몇 개의 범주 중 하나에 속하는 값들로 구성되어 어떤 분류에 대한 속성을 가진다종류명목(Norminal)/비서열(Unordered)순위(Ordinal)/서열(Ordered)Continuou
분류 평가 지표1\. 정확도2\. 정밀도3\. 재현율4\. F1 점수5\. PR Curve, AP Score6\. ROC, AUC Score
Generalization : 일반화모델이 새로운 데이터셋(Test set)에 대하여 정확히 예측Train set과 Test set의 결과 유사Overfitting : 과대적합Train set에 평가 좋지만 Test set에 대한 일반성 떨어지는 상태 데이터 양에 비해
여러 단계의 머신러닝 프로세스 (전처리의 각 단계, 모델생성, 학습) 처리 과정을 설정하여 한번에 처리되도록 한다데이터의 흐름이 중요종류전처리작업 파이프라인전체 프로세스 파이프라인
분류(Classification)와 회귀(Regression) 를 모두 지원예측하려는 데이터와 input 데이터들 간의 거리를 측정해 가장 가까운 K개의 데이터셋의 레이블을 참조해 분류/예측Hyper ParameterK : 새로운 데이터포인트를 분류할때 확인할 데이터
하나의 모델만을 학습시켜 사용하지 않고 여러 모델을 학습시켜 결합하는 방식으로 문제를 해결하는 방식하나의 데이터 셋에 대해 여러 모델들이 서로 다른 부분들을 학습하며 데이터의 서로 다른 패턴을 학습한 후 모든 모델들의 결과 중 확률적으로 높은 결과를 선택과적합을 막고
서로 다른 종류의 알고리즘들을 결합해 다수결 방식으로 최종 결과를 출력
예측할 값(Target)이 연속형(continuous) 데이터(float)인 지도 학습(Supervised Learning)틀린 정도가 평가 기준틀린 정도 작을수록 좋은 모델평가 지표MSE (Mean Squared Error)실제 값과 예측값의 차를 제곱해 평균 낸 것
모델이 예측한 결과와 정답간의 차이(오차)를 가장 적게 만드는 Parameter를 찾는 과정모델의 예측값과 실제 값의 차이를 계산하는 함수를 만들고 그 값이 최소가 되는 지점을 찾는 작업모델의 예측한 값과 실제값 사이의 차이를 정의하는 함수로 모델이 학습할 때 사용이
Dataset 분리 방식 중에 하나하나의 Dataset을 train(train+val), test 총 3가지로 나눔Dataset을 train, test set으로 분리train set을 train, val set으로 분리단점dataset이 나눠지는 것에 대한 영향 높아
인공신경망 알고리즘을 기반으로 하는 머신러닝의 한 분야비정형 대용량 데이터 학습에 뛰어난 성능을 나타냄vs 머신러닝데이터 전처리(특징 추출)를 사람이 직접하고 안하고 차이머신러닝의 경우 데이터 전처리(특징 추출)를 사람이 직접하며 전처리 과정이 부실하면 모델이 아무리
훈련 데이터(입력 텐서, 출력 텐서) 정의Layer로 이루어진 네트워크 구조 정의Sequential 방식: 순서대로 쌓아올린 네트워크로 이뤄진 모델을 생성하는 방식Functional API 방식: 다양한 구조의 네트워크로 이뤄진 모델을 생성하는 방식Subclass 방식
입력 텐서 Layer 통과Network를 구성하는 Layer(층)예측값, 실제 타깃 손실 함수 통해 비교가중치를 어떻게 업데이트할지 예측결과와 Ground Truth(실제정답) 사이의 차이를 정의옵티마이저 이용해 가중치를 곱해 layer 통과optimizer : 가중치
데이터 입력 파이프라인을 위한 모듈모델 학습/평가를 위한 대용량 데이터셋을 제공(feeding)하기 위한 모듈전처리, 배치 크기, shuffling등을 한번에 처리tf.data.Dataset 추상클래스에서 상속된 여러 가지 클래스들을 제공 TensorFlow의 기본
Deep learning 구조주로 컴퓨터 비전(이미지, 동영상관련 처리) 에서 사용되는 딥러닝 모델로 Convolution 레이어를 이용해 데이터의 특징을 추출하는 전처리 작업을 포함시킨 신경망(Neural Network) 모델이미지, 동영상 관련 등의 비정형 데이터를
하나의 분류 그룹을 다른 그룹과 분리하는 최적의 경계를 찾아내는 알고리즘마진이 가장 넓은 선을 찾는 알고리즘Support Vector간의 가장 넓은 margin(간격)을 가지는 초평면(결정경계)가 최대화 하는 것이 목적초평면은 데이터가 존재하는 공간보다 1차원 낮은 부
참고세바시 429회 - 데이터로 세상이 다시 한번 바뀝니다우리가 남기는 일종의 모든 기록들ex) 커피 구매 - 시간, 위치, 종류, 가격, 결제 수단ex) 스마트폰 - 앱 로그 데이터(앱을 이용 할 때), 무선신호 데이터(스마트폰을 들고 이동할 때, 매장 안으로, 밖
퍼널 분석어느 단계에 집중해서 개선해야할까목표, 경로(PATH)고객 여정사용자가 우리가 원하는 행동을 하기까지의 경로고객 여정을 따라가며 단계적으로 분석하는 것목표까지의 고객 여정을 단계별로 나눠 단계별 전환과 이탈을 측정하는 분석ex) 이커머스 : 구매 전환메인페이지
DB환경어떤 테이블이 있는지이미 만들어져 있는 쿼리를 적극 활용쿼리를 보고 수정해가며 연습SQL 이해도 이해지만 손에 익히기해커랭크- https://www.hackerrank.com/데이터캠프 - https://www.datacamp.com/한달에 2
참고 : https://www.databricks.com/kr/glossary/hadoop참고 : https://nathanh.tistory.com/91Yahoo나 Google과 같은 검색 엔진이 막 출발한 시점에서 끊임없이 늘어나는 빅데이터를 처리하
데이터 영역을 전문으로 담당하는 소프트웨어 엔지니어현대를 살아가며 데이터는 보석과도 같이 가공을 통해 더 큰 가치를 창출할 수 있다 생각했으며데이터는 현대의 최고의 무기라 생각과거에는 정보를 가질 수 있느냐 없느냐가 중요한 초점이었지만 현대에 와선 수 많은 데이터들을
DW(Data Warehouse)에 대해 정확한 감이 잡히지 않아 구글링DW에 앞서 DB에 대해 간략하게 설명하자면DB : DataBaseDB는 Data의 집합체로 Data를 조직화해 저장하며 기록이 주 목적단순히 재료(Data) 제공 목적으로 기반이 되는 역할이지 특
수많은 분야의 데이터로 이뤄진 거대한 Data Set시스템에서 정보를 추출해 데이터를 분석하는 과정분석 방법을 다루는 특정 분야데이터 중심 조직데이터를 중심으로 업무 진행하는 부서를 의미가설 수립데이터 수집데이터 분석결과 평가ex) 알렉산드리아 도서관방대한 양의 정보를
참고세바시 429회 - 데이터로 세상이 다시 한번 바뀝니다우리가 남기는 일종의 모든 기록들ex) 커피 구매 - 시간, 위치, 종류, 가격, 결제 수단ex) 스마트폰 - 앱 로그 데이터(앱을 이용 할 때), 무선신호 데이터(스마트폰을 들고 이동할 때, 매장 안으로, 밖
텍스트, 숫자, 위치 기반 정보, 정형 및 비정형 데이터 등 모든 유형의 데이터를 위한 무료 검색 및 분석 엔진방대한 양의 데이터를 신속하게, 거의 실시간으로 저장, 검색, 분석단독으로 사용되기도 하고 ELK 스택으로 사용되기도 한다분산형과 개방형의 특징여러가지 구조로
테스트 중에 DBeaver를 이용해 특정 DB Table을 찾기 위해 Table 폴더를 찾고 있는 중에 아무리 찾아봐도 원하는 Table을 찾지 못했다그 상황에서 대리님이 View 폴더에서 Table을 찾아 작업하는 것을 봤고 당연히 Table 폴더에만 Table이 있
회사에서 테이블을 설계하며 테이블의 확장성을 염두해 공통 코드를 사용해 최소성과 유일성을 만족시키는 두 개의 속성을 하나의 키로 사용, 해당 과정에서 테이블 명세서를 어떻게 작성할지 찾아봄테이블 명세를 하는데 있어 대부분 비슷한 형식으로 지정할 것이라 생각이 든다.예를
퇴근하고 갑자기 크롤링이 생각났다주변에서 다들 쉽다고만 하는데 한번도 해보지 않은 입장에서 궁금했다해당 링크에서 크롤링 맛만 살짝 봤다아나콘다 가상 환경 세팅하는 시간이 더 오래 걸렸다크롤링은 HTML로 이루어져 있는 사이트의 HTML 코드를 가져와 필요한 정보들만 빼
데이터 관련 공고에서 단골 손님이길래 정보를 찾아보다 직접 할 수 있는 가이드가 있어 진행해본다사용하고자 하는 데이터는 캐글에서 가져온 넷플릭스 수입 관련 데이터이다데이터 참고 : https://www.kaggle.com/datasets/mauryansshiv
유튜브 데브원영님 카프카 강의참고 : https://velog.io/@sung-ik-je/DWETL, DW, DM 등의 설명이 있는 글을 참고하며 생각했을 때 여러 Tool의 역할이 존재하기 이전에 Data Source에서 Target(=목적으로 하는 작업)까
python을 이용해 DB connection 형태로 ETL 작업 후에 추천 콘텐츠들의 ID를 정리해주는 작업을 개발 서버에서 테스트를 하는 중에 오류 발생이 전에 개발 서버에서 해당 오류 접하지 않았고 가장 최근의 테스트와 현 시점의 개발 서버에 바뀐 부분 확인