위의 코드를 실행 후 쿼리를 실행하면 메모리와 러닝타임 값을 확인 할 수 있다."PHYSICAL_MEMORY_BYTES:" 값을 통해 용량 확인이 가능하다."Time taken:" 값을 통해 총 쿼리 실행 시간을 확인 할 수 있다.
PARTITION을 테이블 생성시 사용할 경우 특정 컬럼의 특정 값에 대해서만 불러온다.생성하고자 하는 테이블의 용량이 클 경우 PARTITION을 활용하여 용량을 줄일 수 있다.WHERE 절과는 다르게 사용된다.T1 이라는 빈 테이블을 생성한다.이때 밑에 PARTIT
python의 concat과 유사하다.합치려는 데이터 들의 컬럼 개수와 data type이 동일해야 한다.합쳐진 데이터 프래임에 중복된 열이 존재할 경우 제거하고 출력한다.UNION ALL 을 명명하게 될 경우 중복값을 제거하지 않고 출력한다.
SUBSTR의 경우 문자열의 특정 길이만큼을 slice하여 리턴한다.시작은 0이 아닌 1부터길이의 경우 설정하지 않으면 defult로 문자열의 시작점 부터 끝까지 불러온다.SUBSTR("ABCD23456", 4)위의 경우 "D123456" 값을 리턴한다.SUBSTR("
NVL의 경우 컬럼 값이 NULL일 때 해당 값을 어떻게 마킹할지를 정해준다.NVL(COL_A, 0) AS COL_A_NULL_OCOL_A의 값에 NULL 값이 있을 경우 0으로 NON-NULL에 대해선 그대로 리턴하여 COL_A_NULL_O에 지정한다.NVL2의 경우
CONCAT의 경우 조건에 있는 문자열들을 하나의 문자열로 합쳐준다.CONCAT(CAST(FLOOR(DAYS/365) AS STRING), "년", CAST(MONTH AS STRING), "월", WEEKDAY, '요일')DAYS라는 INT type의 값을 365로
CAST의 경우 컬럼의 data type의 형식을 변환한다.CAST("10" AS INT) 로 할 경우 문자열인 "10"을 INT형인 10으로 가져온다.CAST(FLOOR(PURH_DAY/30) AS STRING) AS PURH_DAY_BY_30PURH_DAY 컬럼의
OVER의 경우 특정 조건을 걸 때 사용된다.PARTITION BY의 경우 A 컬럼에 대한 grouping을 진행한다.ORDER BY는 B컬럼에 대한 오름차순 정열을 진행한다.
LAG(조건) OVER(PARTITION BY A ORDER BY B)LAG는 해당 컬럼의 이전 헹의 값을 리턴한다.조건1의 경우 몇번째 전의 값을 가져올지 지정한다(defult는 1).조건2의 경우 불러올 값이 없을 경우 어떠한 값을 넣을지를 지정한다.LEAD는 해당
OVER(조건) 형식으로 ROW_NUMBER() 함수의 조건을 지정한다.PARTITION BY 함수를 통해 A 컬럼에 대한 grouping을 진행한다(GROUP BY와 동일하다).ORDER BY 함수를 통해 B 컬럼을 기준으로 정렬하겠다고 지정한다.ROW_NUMBER(
데이터의 컬럼의 범위를 지정하여 drop 할 경우 iloc를 활용한다.아래와 같이 iloc\[:, 이후에 원하는 drop 하고자 하는 컬럼의 범위를
데이터 column값을 받았을 시 다음과 같이 숫자열 값이 str 형식으로 되어 있는경우가 있다.이와 같은 경우 column '출석율'의 분자 값과 분모 값을 가져와 숫자형으로 변환 후 값을 나누어 주어야 한다.이 때 str.slice를 활용하여 분모와 분자 값을 가져
위의 데이터의 경우 '출석율' 이라는 컬럼에 결측치가 존재한다.만약 '출석율'이 결측치에 해당하는 데이터를 보고 싶은 경우 isnull을 활용하여 아래와 같이 출력 할 수 있다.
csv 파일 작업 후 colab 환경에서 저장시 한글 파일의 경우 깨지는 현상이 생긴다.encoding='utf-8-sig' 을 통하여 한글 파일을 저장한다.
NULL 값 확인을 위해 df 테이블에 dark-knight의 이름을 입력하고 전투스타일은 공백으로 넣고 나머지 값들은 넣지 않는다.표 출력표에서 보여주는 것처럼 공백과 NULL 값은 다르다.난이도가 NULL인 캐릭터의 정보를 추출하시오전투스타일이 NULL이 아닌 캐릭
특정 문자열을 포함한 값을 추출해준다.컬럼이름 LIKE "검색할 문자열" 형식으로 사용한다.문자열에는 와일드카드 % 와 \_ 가 존재한다.% : 몇 개 이상의 문자\_ : 1개의 문자% : 0개 이상의 문자\_ : 1개의 문자\_\_ : 2개의 문자\_\_% : 2개
BETWEEN 의 경우 AND와 비슷하다(표현이 다를 뿐이다).IN의 경우 OR과 비슷하다.그러나 조건이 세개 이상일 경우 IN이 훨씬 효율적이다.
A AND B: A 와 B 둘다 True 일 경우A OR B: A 와 B 둘 중 하나만 True 이면AND NOT A: A 가 아니면 True두개의 조건을 만족해야 함으로 AND를 사용한다.두개의 조건을 만족해야 함으로 OR를 사용한다.하나의 조건이 False가 나와야