關(guān)于Hive中的NULL空值處理問題
HIVE表中默認(rèn)將NULL存為\N,可查看表的源文件(hadoop fs -cat或者h(yuǎn)adoop fs -text),文件中存儲大量\N,這樣造成浪費(fèi)大量空間。而且用java、python直接進(jìn)入路徑操作源數(shù)據(jù)時,解析也要注意。
另外,hive表的源文件中,默認(rèn)列分隔符為\001(SOH),行分隔符為\n(目前只支持\n,別的不能用,所以定義時不需要顯示聲明)。元素間分隔符\002,map中key和value的分隔符為\003。
舉例,如源文件中一條記錄為:
10000042SOH77SOH435SOH16SOH22SOH1156120000SOH\NSOH\NSOH\NSOH\NSOH\NSOH\NSOH\NSOHyoukuSOH85133.0SOH111
可以看出存儲NULL的\N 浪費(fèi)了大量空間。
但hive的NULL有時候是必須的:
- 1)hive中insert語句必須列數(shù)匹配,不支持不寫入,沒有值的列必須使用null占位。
- 2)hive表的數(shù)據(jù)文件中按分隔符區(qū)分各個列??樟袝4鍺ULL(\n)來保留列位置。但外部表加載某些數(shù)據(jù)時如果列不夠,如表13列,文件數(shù)據(jù)只有2列,則在表查詢時表中的末尾剩余列無數(shù)據(jù)對應(yīng),自動顯示為NULL。
所以,NULL轉(zhuǎn)化為空字符串,可以節(jié)省磁盤空間,實現(xiàn)方法有幾種
1)建表時直接指定(兩種方式)
a、用語句
ROW FORMAT SERDE ‘org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'with serdeproperties('serialization.null.format' = '')實現(xiàn),注意兩者必須一起使用,如
CREATE TABLE hive_tb (id int,name STRING)
PARTITIONED BY ( `day` string,`type` tinyint COMMENT '0 as bid, 1 as win, 2 as ck', `hour` tinyint)
ROW FORMAT SERDE ‘org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
‘field.delim'='/t',
‘escape.delim'='//',
‘serialization.null.format'=''
) STORED AS TEXTFILE;b、或者通過ROW FORMAT DELIMITED NULL DEFINED AS '' 如
? ?CREATE TABLE hive_tb (id int,name STRING) ? ?PARTITIONED BY ( `day` string,`type` tinyint COMMENT '0 as bid, 1 as win, 2 as ck', `hour` tinyint) ? ?ROW FORMAT DELIMITED? ? ? ? ? NULL DEFINED AS ''? ? ?STORED AS TEXTFILE;
2)修改已存在的表
alter table hive_tb set serdeproperties('serialization.null.format' = '');節(jié)省空間的驗證結(jié)果如下:
hadoop fs -du /hivedata/warehouse/pmp.db/hive_tb/day=2016-05-14/type=1/hour=00/0*
1137
hadoop fs -du /hivedata/warehouse/pmp.db/hive_tb/day=2016-05-14/type=1/hour=01/0*
319753
-----------------------------------
hadoop fs -du /hivedata/warehouse/pmp.db/hive_tb/day=2016-05-14/type=1/hour=00/0*
885
hadoop fs -du /hivedata/warehouse/pmp.db/hive_tb/day=2016-05-14/type=1/hour=01/0*
249529
到此這篇關(guān)于關(guān)于Hive中的NULL空值處理問題的文章就介紹到這了,更多相關(guān)Hive中的NULL內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
復(fù)雜SQL實現(xiàn)分組分情況分頁查詢代碼實例
最近學(xué)習(xí)了一下SQL的分頁查詢,總結(jié)了復(fù)雜SQL分組分頁查詢的方法,這篇文章主要給大家介紹了關(guān)于復(fù)雜SQL實現(xiàn)分組分情況分頁查詢的相關(guān)資料,需要的朋友可以參考下2023-12-12
SQL中case?when?then?else?end用法實例
CASE WHEN THEN ELSE END是一個固定搭配,這樣排列是想把通過格式把邏輯展示出來,CASE告訴計算機(jī)接下來是條件句式了,下面這篇文章主要給大家介紹了關(guān)于SQL中case?when?then?else?end用法的相關(guān)資料,需要的朋友可以參考下2023-02-02
大數(shù)據(jù)Spark Sql中日期轉(zhuǎn)換FROM_UNIXTIME和UNIX_TIMESTAMP的使用
本文主要介紹了大數(shù)據(jù)Spark Sql中日期轉(zhuǎn)換FROM_UNIXTIME和UNIX_TIMESTAMP的使用,文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下2022-02-02
pgsql binlog監(jiān)聽功能點(diǎn)解析
這篇文章主要為大家介紹了pgsql binlog監(jiān)聽功能點(diǎn)解析,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-02-02
sql優(yōu)化實戰(zhàn) 把full join改為left join +union all(從5分鐘降為10秒)
因為特殊原因,無法訪問客戶的服務(wù)器,沒辦法查看sql的執(zhí)行計劃、沒辦法知道表中的索引情況,所以,嘗試從語句的改寫上來優(yōu)化2020-09-09

