# Data Science
Pandas 일괄 변환 방법 비교
Series 적용 가능DataFrame 적용 불가사용법: df"컬럼명".map(함수 or dict)Series 적용 불가DataFrame 적용 가능사용법: df.applymap(함수)Series 적용 가능DataFrame 적용 가능사용법: df.apply(함수)위 함수
DS.3.1.1. 데이터 이해
Digital Transformation이란 사회에서 발생하는 여러 현상 및 사건 등을 데이터화 하여 새로운 가치를 발견하고자 하는 활동을 의미한다.디지털 기술 혁신으로 인해 전 산업 분야에 걸쳐 디지털 전환이 진행되고 있다.IoT의 발달로 수 많은 장치와 기계 등에서
Linear Regression
Definition $$ \hat{y} = \theta0\,+\theta1x1\,+\theta2x2 +\,...\,+ \thetanx_n $$ $\hat{y}$ : 예측값 n : feature의 개수 $x_i$ : i번째 feature value $\thetaj$ : i번째 모델 parameter $(\theta0 : bias\;term)$ bias로...
⌛time 전처리
Time Resampling https://colab.research.google.com/drive/10UOqGEU6uIput8Ebn4KOpkdXogMPsxO3#scrollTo=kQYHthizIhFQ df.resample(rule) 사용자 정의 리샘플링 함수 data가 있는 첫째날 기준 Ex) Time Shifting [http://pandas...
📊데이터 시각화
파일 읽어오기 pd.readcsv(’파일 경로’, ‘index’, parsedates= True) index는 index_col = ‘Date’ 이용 parse_dates=True → 일반 date 인덱스를 DatetimeIndex로 전환 그래프 그리기 df.plot.hist(bins, edgecolor).autoscale(enable,axis, t...
🐼Pandas
dataframe 생성 pd.DataFrame(’data’, ‘index’, ‘columns’) | | W | X | Y | | --- | --- | --- | --- | | A | 1 | 2 | 3 | | B | 4 | 5 | 6 | | C | 7 | 8 | 9 | 열 합치기 | | W | X | Y | NEW | | --- | --- | --...
🔢numpy
배열을 numpy로 변환 np.array(’배열’) 배열 생성 np.arange(’시작’, ‘종료’, ‘간격’) np.zeros(’개수’) np.ones(’개수’) 일반 array와 다르게 전체에 대한 사칙연산이 가능 np.linspace(’시작’, ‘종료’, ‘개수’) np.eye(’개수’) 단위 행렬 생성 np.random 난수 행렬...

🐣 Pytorch Tutorial
10개의 클래스(butterfly, dog, spider, horse, sheep, cow, cat, squirrel, elephant, chicken)로 이미지를 분류하는 모델을 만들어봤다. pytorch에서 제공하는 라이브러리를 활용했다.
Bayes Theorem
어떤 데이터 x가 y라는 카테고리에 속할 확률을 구한다.x가 y에 속할 확률을 조건부 확률 식으로 나타내면 P(y|x)그리고 이는p(y|x) = p(x|y)\*P(y)/p(x) x가 특성이 하나만 있을 땐 간단한 수식이 되지만, x의 특성이 많아질수록 p(y|x)를 구

머신러닝/딥러닝 문제해결 전략 - 캐글 수상작 리팩터링으로 배우는 문제해결 프로세스와 전략(5)
이번 포스팅에서는 데이터 관계를 시각화하는 방식들에 대해 글을 작성하겠다.분량이 얼마 되지 않아 짧은 포스팅이 될것같다.히트맵, 라인플롯, 산점도, 회귀선을 포함한 산점도를 살펴볼 예정이다.비교해야할 데이터가 많을 때 주로 사용하며, heatmap() 함수를 이용한다.

머신러닝/딥러닝 문제해결 전략 - 캐글 수상작 리팩터링으로 배우는 문제해결 프로세스와 전략(4)
3. 범주형 데이터 시각화 >seaborn을 import하고 data loading하는 code

[데이터사이언스기초] 데이터 사이언스란? (1)
[데이터사이언스기초] 데이터사이언스를 공부하기 앞서 가장 먼저 알아야 할 기본 지식들 Chapter: 데이터사이언스란? - 데이터 사이언스의 정의 - 데이터사이언스의 활용 - 데이터사이언스에 관한 간단한 고찰
Handling Numerical Variable
Categorical을 핸들링하는 방법에 대해 알아보겠습니다.첫번째는 binning입니다. 이는 numerical variables를 범위에 따라 쪼갬으로써 categorical처럼 조작할 수 있게 하는 기법입니다. 통상 categorical을 numerical로 변환

[Data Science] Clustering (2) Partitioning Method; K-Means, PAM(K-Medoids), K-modes, CLARA
☑️ what) N개의 데이터를 K개의 클러스터로 나눈다.클러스터의 representative (e.g. centroid, medoid)를 정하고, 다음 식의 클러스터별 총합이 최소가 되도록 나눈다.🥲 pb) $K$가 hyper-parameter이다, non-con