1.데이터 베이스란? > 여러 사람이 공유하여 사용할 목적으로 체계화해 통합, 관리하는 데이터의 집합이다. > 1-1.데이터베이스의 이점 주목적) 데이터의 크기와 상관없이 데이터를 안정적으로 저장하고 빠르게 검색할 수 있음 한 번에 여러 개의 테이블을 가질 수 있기 때문에 대용량에 유리함 1-2.데이터 베이스 요약 데이터 베이스는 데이터를 저장하고...
키워드 터미널 CLI 파이썬 가상환경 깃(Git) 깃헙(Github) 1.터미널 > 글자 기반으로 명령을 전달할 수 있는 어플리케이션을 의미 > 1-1.기본 명령어 $ pwd : 현재 경로를 나타내는 명령어 $ mkdir {폴더명}: 폴더(디렉토리)를 생성 $ cd {폴더명} : 폴더에 들어가는 명령어 cd .. cd ./Deskto...
normalization(정규화) 정규화의 목적은 데이터셋의 numerical value 범위의 차이를 왜곡하지 않고 공통 척도로 변경하는 것입니다. 기계학습에서 모든 데이터셋이 정규화 될 필요는 없고, 피처의 범위가 다른 경우에만 필요합니다. 값의 범위(scale)을 0 ~ 1사이의 값으로 바꿔주는 것. 학습 전에 scaling하는 것 머신러닝에서 s...
PCA의 원시적 의미 > 종합점수를 계산하는 방법 > > 100명 학새들의 국어와 영어 시험 성적에 대해 종합점수를 잘 내려면? 벡터의 내적(정사영)을 통해 표현 데이터 벡터를 어떤 벡터에 내적(혹은 정사영)하는 것이 최적의 결과를 얻어 주는가? 기왕 정사영 할 벡터(혹은 축)를 찾는데, 데이터 분포의 중심을 중심축으로 하는 벡터를 찾는제 좋지 않을까? ...
정보 손실은 최소화(가능한 많은 정보를 포함)하면서 중요한 변수만 선택할 수 있다면 어떨까요?머신러닝에서는 이를 위한 다양한 차원 축소 기술들을 연구 중입니다. > 차원 축소란 고차원 원본 데이터의 의미 있는 특성을 이상적으로 원래의 차원에 가깝게 유지할 수 있도록 고차원 공간에서 자차원 공간으로 데이터를 변환 하는 것을 말합니다. > > - 직관적으로 ...
차원의 저주란 > 데이터 학습을 위해 차원이 증가하면서 학습데이터 수가 차원의 수보다 적어져 성능이 저하되는 현상. 차원이 증가할 수록 개별 차원 내 학습할 데이터 수가 적어지는(sparse) 현상 발생 즉, 데이터보다 차원의 수가 더 많을 때 발생하는 현상입니다. 무조건 변수의 수가 증가한다고 해서 차원의 저주 문제가 있는 것이 아니라, 관측치 수보다 ...
linear projection(선형 투영) > Projection이란 한 벡터를 다른 벡터의 공간에 표기하는 것이라고 생각할 수 있습니다. > 아래 그림에서 vector b를 vector a 위의 vector p 로 projection 한 것이다.vector a가 선(1차원) 위에 있는 경우, vector p는 아무리 스케일을 변화시켜도 결국 선 위에 ...
고유벡터(Eigenvector) > 함수를 통해 선형변환 할 때 크기만 변하고 방향은 변하지 않는 벡터입니다. 그 행렬이 벡터의 변화에 작용하는 주축(principal axis)의 방향을 나타냅니다. 즉, 공분산 행렬의 고유벡터는 데이터가 어떤 방향으로 분산되어 있는지 찾아줍니다. 고유값(Eigenvalue) > $T(v) = \lambda v \...
공분산(covariance) 두 변수에 대하여 한 변수가 변화할 때 다른 변수가 어떠한 연관성을 갖고 변하는지를 나타낸 값입니다. 두 변수의 연관성이 클수록 공분산 값도 커집니다. 공분산 행렬(covariance matrix) > 기하학적 의미 행렬 = 선형변환, 벡터 공간을 다른 벡터 공간으로 mapping > > 데이터 구조적 의미 각 featu...