logistic regression 그려보기 > 정밀도와 재현율의 트레이드오프 입력은 여러개, 출력은 하나다변수 벡터함수함수4함수의 합성
모델평가회귀모델이진분류ex)TP는 1이라고 맞췄다 / TN은 0이라고 맞췄다 / FP는 1이라고 틀렸다 / FN은 0이라고 맞췄다Accuracy : 전체 데이터 중 맞게 예측한것의 비율Precision : 양성이라고 예측한것(TP) 중 실제 양성 비율Recall : 참
Encoder and Scaler label encoder 대상이 되는 문자로 된 데이터를 숫자-카테고리컬한 데이터로 변경 A컬럼이 알파벳에서 숫자로 바뀐것 확인 가능 fit과 transform 한번에 하는 것도 가능 역으로 다시 알파벳으로 바꾸는 invers
타이타닉 생존자 분석데이터https://github.com/PinkWink/ML_tutorial/tree/master/datasetEDA 진행plotly_express 설치pip install plotly_express데이터 읽기1은 생존, 0은 사망그래프 그
머신러닝이란? 명시적인 프로그램에 의해서가 아니라, 주어진 데이터를 통해 규칙을 찾는것 > 데이터 관찰
LOD 표현식세부수준 식 : Level of DetailINCLUDE : 화면에 포함되지 않은 특정 차원을 포함하여 결과를 계산계산된 필드 만들기{ INCLUDE 제품 중분류: SUM(매출)}측정값 합계 -> 최댓값으로 변경복사 후 재집계하여 사용가능EXCLUDE :
PRIMARY 함수 테이블 계산 - primary 함수 함수 내에 다른 함수가 포함된 함수 Running, Total, Lookup, Window 가 대표적 Runnig(sum, avg, count, max, min이 있음) 퀵테이블이랑 거의 비슷하다고 생각하면
계산된 필드필드 - 데이터 원본에 존재하는 필드를 활용, 새로운 필드를 만든다연산자 - 함수 필드 매개변수 등을 연결, 계산을 판단하는 요소매개변수 - 상수 값을 동적인 값으로 변경해주는 변수함수 - 새로운 계산식을 적용하기 위해 기존 데이터 원본의 필드에 유형 및 역
퀵테이블 계산 누계/차이누적차트퀵테이블 누계 선택, 이중축 선택차이Null값은 맨 앞 데이터가 그 앞에 데이터랑 비교를 못하기 때문에 나옴우클릭해서 숨기기 가능색상추가연도별 1월 기준 비교하기기준첫번째 선택but 이러면 2016년 1월하고만 비교하게됨연도별 1월과 비교
대시보드 만들기동작사용할 대시보드동작 중 필터와 하이라이트로 시트들을 연결(클릭하면 화면 변경되는 것 보임, 해제는 esc)시트 이동연관성 있는 두 대시보드를 연결하는 효과적 기능시트 생성 후 별도 대시보드 생성, 부동으로 설정동작 - 시트로 이동 선택매개변수 변경매개
그룹, 집합, 결합된 집합그룹우클릭 -> 만들기 해서 그룹으로 분류 가능집합두개 그룹 나눌때는 집합도 가능 / 세개 이상은 반드시 그룹결합된 집합ex) 상위 10 집합과 상위 20집합을 결합해서 11~20위만 뽑기집합 두개 선택 후 결합된 집합 선택계층상위개념 밑에 하
기본차트 만들기단순한 시각화가 효과적사용하기 쉽고 이해하기 쉬운 대시보드 만드는게 중요테이블 생성합계를 ctrl 누른 채로 색상에 이동 후 사각형 선택, 중분류 더블클릭막대우클릭 - 서식에서 단위 및 숫자 표시 위치 등 선택가능라인(추세나 예측을 위해 사용)마크 - 레
데이터 연결 및 탐색드래그 등으로 파일 불러오기 가능시트를 끌고오면 연결가능간단한 데이터 전처리데이터 결합유니온 : 두개 이상의 테이블을 결합 / 드래그해서 끌고오면 유니온이라는 옵션 나옴 필드수, 데이터 유형 일치해야함 우클릭 후 유니온 편집 하여 유니
TableauDigital Transfromation 와 Data literacy기업이 필요한 것과 그 기업이 직원들에게 요구하는 것Data literacy 극대화를 위한 시각화데이터 시각화 + 효과적 시각화데이터 시각화 예시태블로 솔루션태블로 : 데이터 분석 및 시각
분산분석분산분석 : 셋 이상의 모집단의 평균차이를 검정t-test : 두개의 모집단의 평균차이를 검정분산분석의 이해실험계획법 : 모집단의 특성에 대해 추론하기 위해 특별한 목적성 가지고 데이터를 수집하기 위한 실험 설계반응변수 : 관심의 대상이 되는 변수요인/인자
상관분석 상관관계 : 두 변수간의 함수관계가 선형적인 관계가 있는지 파악할 수 있는 측도가 상관계수 표본 상관관계
가설검정 가설검정과 유의수준 가설 : 주어진 사실, 또는 조사하려고 하는 사실에 대한 주장 또는 추축 통계학에서는 특히, 모수를 추정할 때 모수가 어떠하다는 증명하고 싶은 추축이나 주장 귀무가설 : H0, 기존의 사실, 연구목적 아니며, 연구하고자 하는 가설의
모집단과 표본분포 모집단은 전체(Population), 표본은 그중 일부(sample) ex) 유권자 중 일부를 출구조사해서 당선자 예상 모평균, 모분산과 표본평균, 표본분산 표본추출(sampling) 모집단에서 표본을 추출, 모집단의 특성을 추론 표본추출에는 여