post-thumbnail

두 개의 DataFrame 비교하기

두개의 DataFrame 비교하기

2022년 2월 16일
·
0개의 댓글
·

HIVE-메모리와 러닝타임 확인

위의 코드를 실행 후 쿼리를 실행하면 메모리와 러닝타임 값을 확인 할 수 있다."PHYSICAL_MEMORY_BYTES:" 값을 통해 용량 확인이 가능하다."Time taken:" 값을 통해 총 쿼리 실행 시간을 확인 할 수 있다.

2022년 2월 14일
·
0개의 댓글
·

CREATE TABLE PARTITION BY

PARTITION을 테이블 생성시 사용할 경우 특정 컬럼의 특정 값에 대해서만 불러온다.생성하고자 하는 테이블의 용량이 클 경우 PARTITION을 활용하여 용량을 줄일 수 있다.WHERE 절과는 다르게 사용된다.T1 이라는 빈 테이블을 생성한다.이때 밑에 PARTIT

2022년 2월 10일
·
0개의 댓글
·

SQL UNION (ALL)

python의 concat과 유사하다.합치려는 데이터 들의 컬럼 개수와 data type이 동일해야 한다.합쳐진 데이터 프래임에 중복된 열이 존재할 경우 제거하고 출력한다.UNION ALL 을 명명하게 될 경우 중복값을 제거하지 않고 출력한다.

2022년 2월 9일
·
0개의 댓글
·

SQL SUBSTR()

SUBSTR의 경우 문자열의 특정 길이만큼을 slice하여 리턴한다.시작은 0이 아닌 1부터길이의 경우 설정하지 않으면 defult로 문자열의 시작점 부터 끝까지 불러온다.SUBSTR("ABCD23456", 4)위의 경우 "D123456" 값을 리턴한다.SUBSTR("

2022년 2월 9일
·
0개의 댓글
·

SQL NVL() & NVL2()

NVL의 경우 컬럼 값이 NULL일 때 해당 값을 어떻게 마킹할지를 정해준다.NVL(COL_A, 0) AS COL_A_NULL_OCOL_A의 값에 NULL 값이 있을 경우 0으로 NON-NULL에 대해선 그대로 리턴하여 COL_A_NULL_O에 지정한다.NVL2의 경우

2022년 2월 9일
·
0개의 댓글
·

SQL CONCAT()

CONCAT의 경우 조건에 있는 문자열들을 하나의 문자열로 합쳐준다.CONCAT(CAST(FLOOR(DAYS/365) AS STRING), "년", CAST(MONTH AS STRING), "월", WEEKDAY, '요일')DAYS라는 INT type의 값을 365로

2022년 2월 8일
·
0개의 댓글
·

SQL CAST()

CAST의 경우 컬럼의 data type의 형식을 변환한다.CAST("10" AS INT) 로 할 경우 문자열인 "10"을 INT형인 10으로 가져온다.CAST(FLOOR(PURH_DAY/30) AS STRING) AS PURH_DAY_BY_30PURH_DAY 컬럼의

2022년 2월 8일
·
0개의 댓글
·

SQL OVER()

OVER의 경우 특정 조건을 걸 때 사용된다.PARTITION BY의 경우 A 컬럼에 대한 grouping을 진행한다.ORDER BY는 B컬럼에 대한 오름차순 정열을 진행한다.

2022년 2월 8일
·
0개의 댓글
·

SQL LAG() & LEAD()

LAG(조건) OVER(PARTITION BY A ORDER BY B)LAG는 해당 컬럼의 이전 헹의 값을 리턴한다.조건1의 경우 몇번째 전의 값을 가져올지 지정한다(defult는 1).조건2의 경우 불러올 값이 없을 경우 어떠한 값을 넣을지를 지정한다.LEAD는 해당

2022년 2월 8일
·
0개의 댓글
·

SQL ROW_NUMBER()

OVER(조건) 형식으로 ROW_NUMBER() 함수의 조건을 지정한다.PARTITION BY 함수를 통해 A 컬럼에 대한 grouping을 진행한다(GROUP BY와 동일하다).ORDER BY 함수를 통해 B 컬럼을 기준으로 정렬하겠다고 지정한다.ROW_NUMBER(

2022년 2월 8일
·
0개의 댓글
·
post-thumbnail

DataFrame-iloc를 활용하여 Column Drop

데이터의 컬럼의 범위를 지정하여 drop 할 경우 iloc를 활용한다.아래와 같이 iloc\[:, 이후에 원하는 drop 하고자 하는 컬럼의 범위를

2022년 1월 3일
·
0개의 댓글
·
post-thumbnail

DataFrame-str.slice

데이터 column값을 받았을 시 다음과 같이 숫자열 값이 str 형식으로 되어 있는경우가 있다.이와 같은 경우 column '출석율'의 분자 값과 분모 값을 가져와 숫자형으로 변환 후 값을 나누어 주어야 한다.이 때 str.slice를 활용하여 분모와 분자 값을 가져

2022년 1월 3일
·
0개의 댓글
·
post-thumbnail

DataFrame-isnull을 활용한 결측치 출력

위의 데이터의 경우 '출석율' 이라는 컬럼에 결측치가 존재한다.만약 '출석율'이 결측치에 해당하는 데이터를 보고 싶은 경우 isnull을 활용하여 아래와 같이 출력 할 수 있다.

2022년 1월 3일
·
0개의 댓글
·
post-thumbnail

DataFrame-rename

특정 column의 이름 변경 시 rename을 활용하여 변경한다.두개 이상의 컬럼 값 변경

2022년 1월 3일
·
0개의 댓글
·
post-thumbnail

DataFrame-한글파일 안깨지게 저장

csv 파일 작업 후 colab 환경에서 저장시 한글 파일의 경우 깨지는 현상이 생긴다.encoding='utf-8-sig' 을 통하여 한글 파일을 저장한다.

2022년 1월 3일
·
0개의 댓글
·
post-thumbnail

SQL NULL값 확인(IS NULL, IS NOT NULL)

NULL 값 확인을 위해 df 테이블에 dark-knight의 이름을 입력하고 전투스타일은 공백으로 넣고 나머지 값들은 넣지 않는다.표 출력표에서 보여주는 것처럼 공백과 NULL 값은 다르다.난이도가 NULL인 캐릭터의 정보를 추출하시오전투스타일이 NULL이 아닌 캐릭

2021년 12월 29일
·
0개의 댓글
·
post-thumbnail

SQL 문자열(LIKE)

특정 문자열을 포함한 값을 추출해준다.컬럼이름 LIKE "검색할 문자열" 형식으로 사용한다.문자열에는 와일드카드 % 와 \_ 가 존재한다.% : 몇 개 이상의 문자\_ : 1개의 문자% : 0개 이상의 문자\_ : 1개의 문자\_\_ : 2개의 문자\_\_% : 2개

2021년 12월 29일
·
0개의 댓글
·
post-thumbnail

SQL 논리연산자2(BETWEEN, IN)

BETWEEN 의 경우 AND와 비슷하다(표현이 다를 뿐이다).IN의 경우 OR과 비슷하다.그러나 조건이 세개 이상일 경우 IN이 훨씬 효율적이다.

2021년 12월 29일
·
0개의 댓글
·
post-thumbnail

SQL 논리연산자(AND, OR, AND NOT)

A AND B: A 와 B 둘다 True 일 경우A OR B: A 와 B 둘 중 하나만 True 이면AND NOT A: A 가 아니면 True두개의 조건을 만족해야 함으로 AND를 사용한다.두개의 조건을 만족해야 함으로 OR를 사용한다.하나의 조건이 False가 나와야

2021년 12월 29일
·
0개의 댓글
·