상황)

원활한 데이터 분석을 위해 ‘시-분-초’ 기준으로 데이터를 분할 저장한다.

Untitled

<aside> 💡 시-분-초 값을 포함하여 파티션을 나누면 중복 값이 없어서 데이터 수 만큼의 경로(디렉토리)가 만들어질 것으로 예상된다.

의문점 : 데이터 셋에 중복 데이터는 어떻게 처리될까?


2. 개인 실습

<aside> 💡 시도해 볼 것)


</aside>

실습 진행할 DB 생성

#HIVE CLI
$hive> create database kkwon;
$hive> use kkwon;

테이블 생성(데이터 가져오는 테이블)

#멘토님 코드와 동일
#HIVE CLI
create table test_table (
key date                       -- STRING타입에서 DATE타입으로 변경
,fare_amount float
,pickup_datetime string
,pickup_longitude int
,pickup_latitude int
,dropoff_longitude int
,dropoff_latitude int
,passenger_count int)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','                        
LINES TERMINATED BY '\\n'                        
STORED AS TEXTFILE                           
TBLPROPERTIES ('skip.header.line.count'='1');

: hdfs://user/hive/warehouse/kkwon.db/test_table