20211111

김찬울·2021년 11월 12일
0

1이 다섯개!

linux

head, tail

특히 tail에 -t(실시간) 옵션을 붙여서 log를 보는 경우가 많다

databricks snowflake

돈을 내지만 그래도 하둡을 편리하게 이용할 수 있다.

data = LOAD '/mydata/sample.csv' using PigStorage(',') as (place:chararray, place_date:chararray, period:chararray, avg_val:int, min_val:int, max_val:int)
limit_data = LIMIT data 10;
dump data;
limit_data = LIMIT data 10;
dump limit_data;
rank_data = rank data;
limit_data = LIMIT rank_data 10;
dump limit_data
data2 = filter rank_data by (rank_data > 1);
data3 = foreach data2 generate place, place_date, avg_val;
STORE data3 INTO '/mydata/pig';
STORE data3 INTO '/mydata/pig2' using PigStorage(',');

hive --service metastore &
hive --service hiveserver &

앤드표시는 백그라운드 실행 해당 서비스 두가지를 실행한다 하이브로 백그라운드에서
pig -useHCatalog
접속


### 출발-도착지 공항 스케줄이 많은 순으로 출력 
airport_info = LOAD 'airport_info' USING org.apache.hive.hcatalog.pig.HCatLoader();
rt = group airport_info by (airport, city);
result = foreach rt generate FLATTEN(group), COUNT(airport_info) as count;
sort_result = ORDER result BY count DESC;

STORE sort_result INTO ‘/mydata/airport_info’;
profile
코린코린이

0개의 댓글