# Data Science

169개의 포스트

Pandas 일괄 변환 방법 비교

Series 적용 가능DataFrame 적용 불가사용법: df"컬럼명".map(함수 or dict)Series 적용 불가DataFrame 적용 가능사용법: df.applymap(함수)Series 적용 가능DataFrame 적용 가능사용법: df.apply(함수)위 함수

2023년 11월 5일
·
0개의 댓글
·
post-thumbnail

Data Science - Monty Hall Problem

데이터과학기초

2023년 10월 14일
·
2개의 댓글
·

DS.3.1.1. 데이터 이해

Digital Transformation이란 사회에서 발생하는 여러 현상 및 사건 등을 데이터화 하여 새로운 가치를 발견하고자 하는 활동을 의미한다.디지털 기술 혁신으로 인해 전 산업 분야에 걸쳐 디지털 전환이 진행되고 있다.IoT의 발달로 수 많은 장치와 기계 등에서

2023년 10월 10일
·
0개의 댓글
·
post-thumbnail

Data Science - Basic of Pandas(2)

데이터과학기초

2023년 10월 9일
·
0개의 댓글
·
post-thumbnail

Data Science - Basic of Pandas(1)

데이터과학기초 - Pandas(1)

2023년 10월 8일
·
0개의 댓글
·
post-thumbnail

Data Science - Brief Instruction

데이터과학기초

2023년 10월 8일
·
0개의 댓글
·

Linear Regression

Definition $$ \hat{y} = \theta0\,+\theta1x1\,+\theta2x2 +\,...\,+ \thetanx_n $$ $\hat{y}$ : 예측값 n : feature의 개수 $x_i$ : i번째 feature value $\thetaj$ : i번째 모델 parameter $(\theta0 : bias\;term)$ bias로...

2023년 10월 6일
·
0개의 댓글
·

⌛time 전처리

Time Resampling https://colab.research.google.com/drive/10UOqGEU6uIput8Ebn4KOpkdXogMPsxO3#scrollTo=kQYHthizIhFQ df.resample(rule) 사용자 정의 리샘플링 함수 data가 있는 첫째날 기준 Ex) Time Shifting [http://pandas...

2023년 10월 6일
·
0개의 댓글
·

📊데이터 시각화

파일 읽어오기 pd.readcsv(’파일 경로’, ‘index’, parsedates= True) index는 index_col = ‘Date’ 이용 parse_dates=True → 일반 date 인덱스를 DatetimeIndex로 전환 그래프 그리기 df.plot.hist(bins, edgecolor).autoscale(enable,axis, t...

2023년 10월 6일
·
0개의 댓글
·

🐼Pandas

dataframe 생성 pd.DataFrame(’data’, ‘index’, ‘columns’) | | W | X | Y | | --- | --- | --- | --- | | A | 1 | 2 | 3 | | B | 4 | 5 | 6 | | C | 7 | 8 | 9 | 열 합치기 | | W | X | Y | NEW | | --- | --- | --...

2023년 10월 6일
·
0개의 댓글
·

🔢numpy

배열을 numpy로 변환 np.array(’배열’) 배열 생성 np.arange(’시작’, ‘종료’, ‘간격’) np.zeros(’개수’) np.ones(’개수’) 일반 array와 다르게 전체에 대한 사칙연산이 가능 np.linspace(’시작’, ‘종료’, ‘개수’) np.eye(’개수’) 단위 행렬 생성 np.random 난수 행렬...

2023년 10월 6일
·
0개의 댓글
·
post-thumbnail

🐣 Pytorch Tutorial

10개의 클래스(butterfly, dog, spider, horse, sheep, cow, cat, squirrel, elephant, chicken)로 이미지를 분류하는 모델을 만들어봤다. pytorch에서 제공하는 라이브러리를 활용했다.

2023년 9월 20일
·
0개의 댓글
·

Bayes Theorem

어떤 데이터 x가 y라는 카테고리에 속할 확률을 구한다.x가 y에 속할 확률을 조건부 확률 식으로 나타내면 P(y|x)그리고 이는p(y|x) = p(x|y)\*P(y)/p(x) x가 특성이 하나만 있을 땐 간단한 수식이 되지만, x의 특성이 많아질수록 p(y|x)를 구

2023년 9월 12일
·
0개의 댓글
·
post-thumbnail

머신러닝/딥러닝 문제해결 전략 - 캐글 수상작 리팩터링으로 배우는 문제해결 프로세스와 전략(5)

이번 포스팅에서는 데이터 관계를 시각화하는 방식들에 대해 글을 작성하겠다.분량이 얼마 되지 않아 짧은 포스팅이 될것같다.히트맵, 라인플롯, 산점도, 회귀선을 포함한 산점도를 살펴볼 예정이다.비교해야할 데이터가 많을 때 주로 사용하며, heatmap() 함수를 이용한다.

2023년 9월 4일
·
0개의 댓글
·
post-thumbnail

머신러닝/딥러닝 문제해결 전략 - 캐글 수상작 리팩터링으로 배우는 문제해결 프로세스와 전략(4)

3. 범주형 데이터 시각화 >seaborn을 import하고 data loading하는 code

2023년 9월 4일
·
0개의 댓글
·
post-thumbnail

[데이터사이언스기초] 데이터 사이언스란? (1)

[데이터사이언스기초] 데이터사이언스를 공부하기 앞서 가장 먼저 알아야 할 기본 지식들 Chapter: 데이터사이언스란? - 데이터 사이언스의 정의 - 데이터사이언스의 활용 - 데이터사이언스에 관한 간단한 고찰

2023년 8월 11일
·
2개의 댓글
·

Handling Outliers

Outliers

2023년 6월 20일
·
0개의 댓글
·

Handling Numerical Variable

Categorical을 핸들링하는 방법에 대해 알아보겠습니다.첫번째는 binning입니다. 이는 numerical variables를 범위에 따라 쪼갬으로써 categorical처럼 조작할 수 있게 하는 기법입니다. 통상 categorical을 numerical로 변환

2023년 6월 19일
·
0개의 댓글
·
post-thumbnail

[Data Science] Clustering (2) Partitioning Method; K-Means, PAM(K-Medoids), K-modes, CLARA

☑️ what) N개의 데이터를 K개의 클러스터로 나눈다.클러스터의 representative (e.g. centroid, medoid)를 정하고, 다음 식의 클러스터별 총합이 최소가 되도록 나눈다.🥲 pb) $K$가 hyper-parameter이다, non-con

2023년 6월 18일
·
0개의 댓글
·