동적 파티션

상황)

원활한 데이터 분석을 위해 ‘시-분-초’ 기준으로 데이터를 분할 저장한다.

조회 결과

Untitled

<aside> 💡 시-분-초 값을 포함하여 파티션을 나누면 중복 값이 없어서 데이터 수 만큼의 경로(디렉토리)가 만들어질 것으로 예상된다.

시 분 초 데이터를 제거 후 연월일 값으로 파티션 테이블 생성해보자

의문점 : 데이터 셋에 중복 데이터는 어떻게 처리될까?

2개의 경로? 파일 2개 생성? </aside>

2. 개인 실습

<aside> 💡 시도해 볼 것)

연-월-일 기준으로 파티션을 나누어 데이터 저장
- 중복데이터 어떻게 처리되는지 확인
- train데이터 중 1000개의 데이터로 실습을 진행
  - 경로nn1 : ~ train1000.csv

</aside>

실습 진행할 DB 생성

#HIVE CLI
$hive> create database kkwon;
$hive> use kkwon;

테이블 생성(데이터 가져오는 테이블)

#멘토님 코드와 동일
#HIVE CLI
create table test_table (
key date                       -- STRING타입에서 DATE타입으로 변경
,fare_amount float
,pickup_datetime string
,pickup_longitude int
,pickup_latitude int
,dropoff_longitude int
,dropoff_latitude int
,passenger_count int)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','                        
LINES TERMINATED BY '\n'                        
STORED AS TEXTFILE                           
TBLPROPERTIES ('skip.header.line.count'='1');

위와 같이 DATABASE와 TABLE 생성하면 HDFS에 경로가 만들어진다

: hdfs://user/hive/warehouse/kkwon.db/test_table