# Data Science

82개의 포스트
post-thumbnail

Multiple Linear Regression

Main Purpose: Building a model that accurately predicts the test data (as opposed to the train data)Train/Test SplitTrain Data - used to train the mod

2022년 4월 19일
·
0개의 댓글

Simple Linear Regression

Reference ModelA prototype model that displays the most basic performance that becomes a reference for the prediction modelTypes: \- Classification =

2022년 4월 14일
·
0개의 댓글

Feature Engineering

Feature = Column or a Dimension of a DataFrameFeature Engineering = Combining/Restructuring the existing datasets to create a new featureScreen Shot 2

2022년 4월 13일
·
0개의 댓글
post-thumbnail

논문 해설 - "Face Quality Estimation and Its Correlation to Demographic and Non-Demographic Bias in Face Recognition (Terhorst, et al)"

Extra Review & Study on - "Face Quality Estimation and its Correlation to Demographic and Non-Demographic Bias in Face Recognition (Terhorst et. al)

2022년 4월 12일
·
0개의 댓글

Data Scaling: 데이터 표준화(Standardization)

머신러닝을 할 때, 특성별로 데이터의 단위가 다르다면 어떻게 될까요?변수 X1, X2, y가 존재한다고 가정합시다.변수 X1은 -1부터 1까지의 범위를 가집니다.변수 X2는 0부터 1000까지의 범위를 가집니다.변수 y는 -1000부터 1000까지의 범위를 가집니다.이

2022년 4월 9일
·
0개의 댓글

Exploratory Data Analysis

A process of reordering and restructuring data in a manner that is fit for analysis. An essential process that helps the user understand the data he/s

2022년 4월 4일
·
0개의 댓글
post-thumbnail

Unit testing for Data Science in Python

API ref: https://docs.pytest.org/en/6.2.x/reference.htmlAssert: 뒤의 조건이 true가 아니면 asserterror 리턴ref: https://wikidocs.net/21050general inform

2022년 4월 3일
·
0개의 댓글
post-thumbnail

K Nearest Neighbors

Training Algorithm : \- Store all the dataPrediction Algorithm : \- Calculate the distance from x to all the points \- Sort the points in the data b

2022년 4월 2일
·
0개의 댓글
post-thumbnail

[#2 Classification] Linear classifier

해당 내용은 coursera의 'Machine Learning : Classification' 강좌 내용을 기반으로 정리되었습니다.

2022년 3월 19일
·
0개의 댓글
post-thumbnail

R : 함수

R 환경에서 사용하는 모든 것은 객체이고, 실행하는 모든 것은 함수입니다. 또, R에서는 모든 함수도 객체입니다.◻ is.numeric() : 임의의 R 객체를 입력받아, 수치형 여부를 판단하는 논리 값(boolean)을 반환합니다.◻ is.function() : 주어

2022년 3월 8일
·
0개의 댓글

Novelty and Outlier Detection

scikit-learn의 user guide를 번역했습니다. https://scikit-learn.org/stable/modules/outlier_detection.html 많은 응용프로그램은 새로운 관측값(observation)이 기존 관측값과 같은 분포에 있는지(

2022년 2월 16일
·
0개의 댓글
post-thumbnail

[Python] Matplotlib.pyplot 사용하기

Matplotlib.pyplot 사용하기

2022년 2월 11일
·
0개의 댓글

데이터 과학의 활용 사례

기업은 여느 때보다 다양한 유형의 데이터를 대량으로 활용할 수 있으며 빅데이터가 등장하기 전에는 기업에서 저장하고 처리할 수 있었던 데이터의 양이 예산 때문에 제한적인 경우가 많았다. 그 결과 데이터의 크기를 분석에 필요한 최소 규모로 축소하는 것이 기업의 일반적인 방

2022년 2월 2일
·
0개의 댓글

데이터 과학

(이 포스팅은 '하둡과 스파크를 활용한 실용 데이터과학'책의 리뷰이다.)데이터에서 어떤 의미나 통찰을 발견하려고 과학적 방법을 이용하는 '데이터 탐색'과 발견한 의미와 통찰을 비즈니스 맥락에서 활용하는 '소프트웨어 시스템의 구축'을 아우른다.핵심적 측면데이터 과학은 과

2022년 2월 2일
·
0개의 댓글

Iris Classification

사이킥런에서 제공하는 붓꽃(Iris) 데이터를 활용해 품종을 분류(Classification)을 실행 분류(Classification) : 독립변수값이 주어졌을 때 그 값과 가장 연관성이 큰 종속변수값 (클래스)을 예측하는 문제 데이터 유형 : 150x4 numpy

2021년 12월 31일
·
0개의 댓글
post-thumbnail

Computer Vision (2) - YOLO5

yolov5 실습하기

2021년 12월 27일
·
1개의 댓글
post-thumbnail

[DS/DA] 통계학 면접 질문 모음

통계학 면접 질문 모음

2021년 12월 7일
·
0개의 댓글
post-thumbnail

Data Science 03 - Relational Data Operation

관계 데이터 연산 (Relational Data Operation)

2021년 11월 12일
·
0개의 댓글