플루언티드 Fluentd플럼 Flume스크라이브 Scribe로그스태시 Logstash데이터 웨어하우스사용자의 의사결정에 도움을 주기 위해 기간 시스템의 데이터베이스에 축적된 데이터를 공통 형식으로 변환해서 관리하는 데이터베이스특징 : 주제 지향적, 통합적, 시계열적,
회귀모형의 결정계수 R² ; 상관계수 R의 제곱선형 회귀 분석의 성능 검증지표로 많이 이용 회귀 모형이 실젯값을 얼마나 잘 나타내는지에 대한 비율1에 가까울수록 실젯값을 잘 설명0 ≤ R² ≤ 1독립변수의 개수가 많은 모형 평가에는 부적합적절하지 않은 독립변수를 추가하
CART 기법은 각 독립변수를 이분화하는 과정을 반복하여 이진트리 형태를 형성함으로써 분류를 수행하는 알고리즘가장 널리 사용되는 의사결정나무 알고리즘가장 성취도가 좋은 변수 및 수준을 찾는 것에 중점개별 입력변수뿐만 아니라 독립변수들의 선형 결합 중에서 최적의 분리를
불균형 데이터 처리 기법 : 과대 표집, 과소 표집, 임곗값 이동 (Cut-Off Value Moving), 앙상블 (Ensemble) 기법다수 클래스의 데이터를 일부만 선택하여 데이터의 비율을 맞추는 방법과소 표집 기법 : 랜덤 과소 표집, ENN, 토멕링크 방법,
from sklearn.metrics import accuracy_scoreprint(clf.\_\_class\_\_.\_\_name\_\_, accuracy_score(y_test, y_pred))
분류 from sklearn.naive_bayes import GaussianNB회귀from sklearn.linear_model import BayesianRidge
각 에피소드의 시작날짜(년-월-일)를 에피소드 이름과 묶어 데이터 프레임으로 만들고 출력하라
주어진 전체 기간의 각 나라별 골득점수 상위 5개 국가와그 득점수를 데이터프레임형태로 출력하라
각 요일별 가장 많이 이용한 대여소의 이용횟수와 대여소 번호를 데이터 프레임으로 출력하라df_day.reset_index() / ,ignore_index=True
연속형 원인 변수가 연속형 결과 변수에 영향을 미치는지를 분석하여 레이블 변수를 예측핟기 위한 목적대표적인 오차 지표 : RMSE→ 실제값과 예측값간에 전 구간에 걸친 평균적인 오차normalize 특성치 X의 정규화interceptx 가 0일 때 Y의 기본값인 상수
전세계 행복도 지표 데이터 데이터 출처 :https://www.kaggle.com/unsdsn/world-happiness(참고, 데이터 수정) 데이터 설명 : 전세계 행복도 지표 조사 data url = https://raw.githubusercontent.com/D
DateTime컬럼을 통해 각 월별로 몇개의 데이터가 있는지 데이터 프레임으로 구하여라3월달의 각 시간대별 온도의 평균들 중 가장 낮은 시간대의 온도를 출력하라3월달의 각 시간대별 온도의 평균들 중 가장 높은 시간대의 온도를 출력하라각 zone의 에너지 소비량의 상관관
Legendary 컬럼은 전설포켓몬 유무를 나타낸다.전설포켓몬과 그렇지 않은 포켓몬들의 HP평균의 차이를 구하여라Type 1은 주속성 Type 2 는 부속성을 나타낸다. 가장 많은 부속성 종류는 무엇인가?가장 많은 Type 1 의 종의 평균 Attack 을 평균 Def
대한민국 체력장 데이터
여름철(6월,7월,8월) 이화동이 수영동보다 높은 기온을 가진 시간대는 몇개인가?이화동과 수영동의 최대강수량의 시간대를 각각 구하여라
Ridge Lasso ElasticNet
Pos 컬럼은 포지션을 의미한다. 전체 선수 중 최소나이대의 선수들을 필터하고 그들 중 가장 많은 포지션은 무엇인지 확인하라G컬럼은 참여한 경기의 숫자이다. 각 팀별로 가장 높은 경기참여 수를 가진 선수들의 경기 참여 숫자의 평균을 구하여라평균나이가 가장 젊은 팀은 어
남성 이탈(Exited)이 가장 많은 국가(Geography)는 어디이고 이탈 인원은 몇명인가?카드를 소유(HasCrCard ==1)하고 있으면서 활성멤버(IsActiveMember ==1) 인 고객들의 평균 나이를 소숫점이하 4자리까지 구하여라1df.head(1)Ba
Vehicle_Age 값이 2년 이상인 사람들만 필터링 하고 그중에서Annual_Premium 값이 전체 데이터의 중간값 이상인 사람들을 찾고, 그들의 Vintage값의 평균을 구하여라vehicle_age에 따른 각 성별(gender)그룹의 Annual_Premium값
Arrival Delay in Minutes 컬럼이 결측치인 데이터들 중 ‘neutral or dissatisfied’ 보다 ‘satisfied’의 수가 더 높은 Class는 어디 인가?
ph값은 상당히 많은 결측치를 포함한다. 결측치를 제외한 나머지 데이터들 중 사분위값 기준 하위 25%의 값들의 평균값은?
흡연자와 비흡연자 각각 charges의 상위 10% 그룹의 평균의 차이는?
Density Based Spatial Clustering of Applications with Noise밀도 기반 클러스터링 기법이 방법은 케이스가 집중되어 있는 밀도 Density에 초점을 두어 밀도가 높은 그룹을 클러스터링 하는 방식중심점을 기준으로 특정한 반경
quality 값이 3인 그룹과 8인 데이터그룹의 각 컬럼별 독립변수의 표준편차 값의 차이를 구할때 그값이 가장 큰 컬럼명을 구하여라
남성들의 연령대별 (10살씩 구분 09세 1019세 …) Na_to_K값의 평균값을 구해서 데이터 프레임으로 표현하여라
정보(row수)가 가장 많은 상위 3차종의 price값의 각 평균값은?
Outcome 값에 따른 각 그룹의 각 컬럼의 평균 차이를 구하여라
매년 5월달의 open가격의 평균값을 데이터 프레임으로 표현하라
Association Rule전체 항목 7500 중에 7일에 5번 이상 구매된 항목35 / 7500 = 0.0045 20% = 0.2최소 item 단위 Linkdata
성별 gender 과 출신 지역 region 의 숫자를 문자로 변환변환된 범주형 데이터 X1 확인범주형 변수를 one-hot-encoding 으로 변환 및 확인변환 데이터와 기타 변수를 한 데이터 셋으로 통합 및 확인csv 파일로 저장 내보내기
마케팅 응답 고객들의 나이를 10살 단위로 변환 했을 때,가장 많은 인원을 가진 나이대는? (0~9 : 0 , 10~19 : 10)마케팅 응답 고객들의 나이를 10살 단위로 변환 했을 때, 가장 많은 나이대 구간의 인원은 몇명인가?나이가 25살 이상 29살 미만인 응답
data
성별이 Male인 환자들의 age의 평균값은 ?bmi컬럼의 결측치를 bmi컬럼의 결측치를 제외한 나머지 값들의 중앙값으로 채웠을 경우 bmi 컬럼의 평균을 소숫점 이하 3자리 까지 구하여라bmi컬럼의 각 결측치들을 직전의 행의 bmi값으로 채웠을 경우 bmi 컬럼의 평
Attack컬럼의 값을 기준으로 내림차순정렬 했을때 상위 400위까지 포켓몬들과 401~800위까지의 포켓몬들에서 전설포켓몬(Legendary컬럼)의 숫자 차이는?Type 1 컬럼의 종류에 따른 Total 컬럼의 평균값을 내림차순 정렬했을때 상위 3번째 Type 1은