RDBMS, SQL 기초, DDL, DML데이터로 데이터 프로덕트(머신러닝 모델, 데이터 리포트)를 만들고자함데이터 베이스에서 원하는 데이터를 가져올 때 SQL을 사용SQL을 이용하면..원하는 형태로 데이터를 가져올 수 있다.효율적으로 데이터를 가져올 수 있다.간단한
JOIN, UNION, WITH, Subquery, 조건절전환율 - 구매 수/클릭 수두 개 이상의 테이블을 특정 key 기준으로 결합하는 것테이블을 처음부터 합쳐놓으면 되는 것 아닌지?테이블을 쪼개두면 관리가 편리변경사항이 생겼을 때 수정 시간을 줄임중복되는 것을 막음
데이터 타입, 숫자, 문자, 배열, 구조체BIT(M)컴퓨터가 데이터를 저장하는 기본 단위M이 4가 입력되면 비트 4개에 값을 담게됨TINYINIT매우 작은 정수256개만 표현 가능 (-127~127, 0~255(unsigned) → 8비트(2^8이므로) 사용)훨씬 더
쿼리 작성 시 효율 높이는 방법where로 테이블을 최대한 작게 만들어놓고 JOIN하기❗잘 모르는 테이블 사용시큰 데이터를 조회하거나 연산함으로써 생길 수 있는 비용 문제를 막고자 함임.LIMIT 걸고 조회하기행 수가 엄청난 데이터를 모두 조회하려할 때 비용이 엄청 클
실제 데이터에 SQL을 이용해 데이터 분석 해보기인도 내 식당들의 정보식당 이름, 평점, 평균 가격, 패스트푸드 Y/N, 길거리 음식 Y/N 등데이터가 숫자 타입일 땐 히스토그램이 제공됨 (캐글에서)다른 사람들의 EDA(탐색적 데이터 분석)를 확인할 수 있음 → 어떤
데이터 프레임pd.read_csv(”marketing_campaign.csv”, \*\*sep=’\\t’\*\*)디폴트는 쉼표인데 이 데이터셋은 탭으로 구분되어있어 구분자(sep)를 지정해줘야함customer.insert(1, ‘Age’, 2021-customer\[’
데이터프레임인덱싱 해서 단일 컬럼에 접근한다면 시리즈가 반환됨닷(.)을 이용해서 접근할 수도 있으나 이는 지향되지 않음member_df.shape 과 같은 함수와 혼동될 수 있음 (만약 column명이 shape라면)가로가 인덱스, 세로가 컬럼 명member_df =
문자열 제어, 데이터프레임 재구성, 시계열 제어시리즈와 인덱스에 대한 벡터화 문자열 함수이다.반복문을 사용하지 않고 간단하게 문자열 데이터 처리 가능무조건 str을 사용하고 문자열 메소드를 실행str으로의 형변환 함수가 아니다!대문자, 소문자화pokemons\['Nam
데이터분석, 스케일링나스닥 시총 상위 기업을 보면 제조업 → 서비스 기업으로의 경향을 보임아마존 → 구매 예측을 통한 추천데이터를 정리, 변환, 조작, 검사하여 인사이트를 만들어내는 작업의사 결정의 판단 기준이 ‘주관적인 직감’에서 ‘객관적인 데이터’로!단순한 분석보단
데이터 모델링, 회귀분석주어진 데이터에서 사용하고자 하는 x(feature, input, 독립변수), 알고싶은 값 y(label, output, 종속변수)이 있을 때 y=f(x)라는 함수를 통해서 x와 y의 관계를 설명할 수 있다면?y와 x의 관계를 효과적으로 설명하는
평가/분석 방법문 같이 생긴 기호가 productsklearn.naive_bayes의 CaussianNB를 import 해 사용모델을 어떻게 평가할지, 기준을 정해야함회귀 평가 방법MSE (Mean Squared Error)오차 제곱의 평균오차값이 큰 데이터점(outl
데이터 웨어하우스, ETL, ELT, 데이터 파이프라인데이터 웨어하우스고정비용 옵션 (redshift)가변비용 옵션 (bigquery, 스노우 플레이크)데이터 레이크구조화 데이터 + 비구조화 데이터(로그 파일)보통 클라우드 스토리지가 됨데이터 레이크에 있는 정보를 정제
머신러닝, 선형대수, 확률머신러닝이란?데이터에서 지식을 추출. 머신 스스로가 데이터의 특징과 패턴을 찾아냄명시적 프로그래밍의 한계를 극복할 수 있는 기법인공지능: (단순히) 기계가 사람의 지적 능력을 모방하는 것어떻게 할 것이냐? → 학습을 통해 예측을 진행 (머신러닝
사이킷런사이킷런: 다양한 머신러닝 알고리즘이 구현되어있는 오픈소스 패키지데이터 처리, 파이프라인, 학습 알고리즘, 전/후 처리 등 다양한 기능객체 메소드Estimator: fit()으로 학습 진행Predictor: predict()로 예측 수행Transformer: t
SVM, Decision Tree, 비지도학습각 클래스의 데이터 샘플로부터 거리(마진)가 가장 멀리 위치해있다 → 일반화 성능이 좋다마진을 구성하는 데이터 포인트를 서포트 벡터 라고 함SVM의 경우 마진을 최대화하는 최적 직선(최대 마진 초평면)을 만드는 것이 목적임최
k-means clusteringK-평균 군집화전체 데이터를 K개의 덩어리(클러스터)로 나누는 비지도 학습법각 클러스터의 좌표 값의 평균으로 중심을 정할 수 있음로이드 알고리즘 vs 엘칸 알고리즘(거리 계산시 삼각 부등식 사용)순서초기화K개의 클러스터 중심점(최종 결과
딥러닝, CNN, RNN학습을 통해 (사람처럼) 예측을 진행 → 어떻게 학습? (사람의 인지과정)사람의 신경망(사람을 모방)을 기반으로 학습과 추론을 진행하는 학문사람의 신경 구조는 뉴런을 기본 단위로 함 (뉴런 → 신경계)뉴런을 모방한 퍼셉트론을 수학적으로 모델링.