상황)
원활한 데이터 분석을 위해 ‘시-분-초’ 기준으로 데이터를 분할 저장한다.

<aside> 💡 시-분-초 값을 포함하여 파티션을 나누면 중복 값이 없어서 데이터 수 만큼의 경로(디렉토리)가 만들어질 것으로 예상된다.
의문점 : 데이터 셋에 중복 데이터는 어떻게 처리될까?
<aside> 💡 시도해 볼 것)
중복데이터 어떻게 처리되는지 확인
train데이터 중 1000개의 데이터로 실습을 진행
</aside>
실습 진행할 DB 생성
#HIVE CLI
$hive> create database kkwon;
$hive> use kkwon;
테이블 생성(데이터 가져오는 테이블)
#멘토님 코드와 동일
#HIVE CLI
create table test_table (
key date -- STRING타입에서 DATE타입으로 변경
,fare_amount float
,pickup_datetime string
,pickup_longitude int
,pickup_latitude int
,dropoff_longitude int
,dropoff_latitude int
,passenger_count int)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\\n'
STORED AS TEXTFILE
TBLPROPERTIES ('skip.header.line.count'='1');
: hdfs://user/hive/warehouse/kkwon.db/test_table