멋쟁이 사자처럼 AI 스쿨 TIL-16

김영민·2022년 10월 13일
0

집계 – aggregate

relplot – 연속된 관계 데이터, 중간에 끊어질 수 있음

데이터가 대용량일 경우

  • 전수조사 -> 표본검사

시도명을 코드명으로 쓰는 이유
-> 데이터 용량을 줄이거나 인코딩 에러 방지

피어슨 상관계수

  • r 값은 X 와 Y 가 완전히 동일하면 +1, 전혀 다르면 0, 반대방향으로 완전히 동일 하면 –1 을 가진다.
  • 결정계수(coefficient of determination)는 r^2 로 계산하며 이것은 X 로부터 Y 를 예측할 수 있는 정도를 의미한다
    일반적으로
  • r이 -1.0과 -0.7 사이이면, 강한 음적 선형관계,
  • r이 -0.7과 -0.3 사이이면, 뚜렷한 음적 선형관계,
  • r이 -0.3과 -0.1 사이이면, 약한 음적 선형관계,
  • r이 -0.1과 +0.1 사이이면, 거의 무시될 수 있는 선형관계,
  • r이 +0.1과 +0.3 사이이면, 약한 양적 선형관계,
  • r이 +0.3과 +0.7 사이이면, 뚜렷한 양적 선형관계,
  • r이 +0.7과 +1.0 사이이면, 강한 양적 선형관계

문자열 데이터를 딕셔너리로 나누는 방법
->

age_list = age_code.split("\n")
age_dict = {int(i.split(" ")[0].strip()):i.split()[1].strip() for i in age_list}
age_dict

빈도수, 평균, 표준편차, 최솟값, 1사분위수(25%), 2사분위수(50%, 중앙값), 3사분위수(75%), 최댓값

'count', 'mean', 'std', 'min', '25%', '50%', '75%', 'max’

상관관계의 정도를 파악하는 상관 계수는 두 변수 간의 연관된 정도를 나타낼 뿐 인과 관계를 설명하는 것은 아니다.

SQL문

  • INNER JOIN : 테이블 간의 공통적인 데이터를 추출
SELECT * 
FROM TABLE_A 
	INNER JOIN TABLE_B ON TABLE_A.Id = TABLE_B.Id

-LEFT JOIN : 왼쪽 테이블을 기준으로 왼쪽 테이블의 데이터를 다 끌어오고 오른쪽 테이블의 데이터들은 있는 것만 끌어옴

SELECT * 
FROM TABLE_A 
	LEFT JOIN TABLE_B ON TABLE_A.Id = TABLE_B.Id

-RIGHT JOIN : 오른쪽 테이블을 기준으로 오른쪽 테이블의 데이터를 다 끌어오고 왼쪽 테이블의 데이터들은 있는 것만 끌어옴

SELECT * 
FROM TABLE_A 
	LEFT JOIN TABLE_B ON TABLE_A.Id = TABLE_B.Id

NULL값을 찾을 때는 = 말고 IS를 사용

-SELF JOIN
자기 자신을 조인

SELECT Employee.Name AS Employee
FROM Employee
    INNER JOIN Employee as Manager ON Employee.managerid = Manager.id
WHERE Employee.Salary > Manager.Salary

SQL 시간 더하기, 뺴기

  • DATE_ADD(기준날짜, INTERVAL)
 SELECT DATE_ADD(NOW(), INTERVAL 1 SECOND)
 SELECT DATE_ADD(NOW(), INTERVAL 1 MINUTE)
 SELECT DATE_ADD(NOW(), INTERVAL 1 HOUR)
 SELECT DATE_ADD(NOW(), INTERVAL 1 DAY)
 SELECT DATE_ADD(NOW(), INTERVAL 1 MONTH)
 SELECT DATE_ADD(NOW(), INTERVAL 1 YEAR)
 SELECT DATE_ADD(NOW(), INTERVAL 1YEAR)
  • DATE_SUB(기준날짜, INTERVAL)
 SELECT DATE_SUB(NOW(), INTERVAL 1 SECOND)
profile
배운걸 다 흡수하는 제로민

0개의 댓글