python 實(shí)現(xiàn) hive中類(lèi)似 lateral view explode的功能示例
背景:加入現(xiàn)在有這樣的數(shù)據(jù),可能一條ocr代表兩個(gè)label,并且label通過(guò)","分隔。我們想把數(shù)據(jù)轉(zhuǎn)換成下面的。
原始數(shù)據(jù):
| label | ocr |
| 日常行車(chē)服務(wù),汽車(chē)資訊 | 去加油站,加完油后直接離開(kāi)?最開(kāi)心的可能是加油站的工作人員 |
| 社會(huì)民生 | 已致2死20傷 !景區(qū)突遭塵卷風(fēng)襲擊,孩子被卷上天!現(xiàn)場(chǎng)畫(huà)面曝光 |
目標(biāo)數(shù)據(jù):
| label | ocr |
| 日常行車(chē)服務(wù) | 去加油站,加完油后直接離開(kāi)?最開(kāi)心的可能是加油站的工作人員 |
| 汽車(chē)資訊 | 去加油站,加完油后直接離開(kāi)?最開(kāi)心的可能是加油站的工作人員 |
| 社會(huì)民生 | 已致2死20傷 !景區(qū)突遭塵卷風(fēng)襲擊,孩子被卷上天!現(xiàn)場(chǎng)畫(huà)面曝光 |
實(shí)現(xiàn)辦法:
1.通過(guò)hive代碼:
select ocr,split(tag_info,',') label from ( select label,ocr from t1 lateral view explode(split(label,',')) TableName as tag_info ) t;
要注意的是一定要添加 t 語(yǔ)句另命名。
2.通過(guò)python代碼:
df0 = pd.DataFrame({'A':[[1,2],[5,6]],'B':[10,-20]})
df0 = df
df0.columns = ['A','B']
rows = []
for i, row in df0.iterrows():
for a in row.A.split(","):
rows.append((a, row.B))
df222 = pd.DataFrame(rows, columns=df.columns)
df222
補(bǔ)充知識(shí):hive中的lateral view(側(cè)視圖) 與 explode函數(shù)的使用
今天偶然間發(fā)現(xiàn)了一個(gè)hive中列轉(zhuǎn)行的小題目,需要用到lateral view 和 explode函數(shù),剛好借這題說(shuō)說(shuō)lateral view 與 explode函數(shù)的使用。
題目是這樣:
原數(shù)據(jù)表如下圖
| movie | category |
|---|---|
| 《疑犯追蹤》 | 懸疑,動(dòng)作,科幻,劇情 |
| 《Lie to me》 | 懸疑,警匪,動(dòng)作,心理,劇情 |
| 《戰(zhàn)狼2》 | 戰(zhàn)爭(zhēng),動(dòng)作,災(zāi)難 |
需求:將電影分類(lèi)中的數(shù)組數(shù)據(jù)展開(kāi)。
結(jié)果如下:
《疑犯追蹤》 懸疑
《疑犯追蹤》 動(dòng)作
《疑犯追蹤》 科幻
《疑犯追蹤》 劇情
《Lie to me》 懸疑
《Lie to me》 警匪
先簡(jiǎn)單聊幾句理論:explode與lateral view在關(guān)系型數(shù)據(jù)庫(kù)中本身是不該出現(xiàn)的,因?yàn)樗某霈F(xiàn)本身就是在操作不滿(mǎn)足第一范式的數(shù)據(jù)(每個(gè)屬性都不可再分),本身已經(jīng)違背了數(shù)據(jù)庫(kù)的設(shè)計(jì)原理(不論是業(yè)務(wù)系統(tǒng)還是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)),不過(guò)大數(shù)據(jù)技術(shù)普及后,很多類(lèi)似pv,uv的數(shù)據(jù),在業(yè)務(wù)系統(tǒng)中是存貯在非關(guān)系型數(shù)據(jù)庫(kù)中,用json存儲(chǔ)的概率比較大,直接導(dǎo)入hive為基礎(chǔ)的數(shù)倉(cāng)系統(tǒng)中,就需要經(jīng)過(guò)ETL過(guò)程解析這類(lèi)數(shù)據(jù),explode與lateral view在這種場(chǎng)景下大顯身手。
explode作用是處理map結(jié)構(gòu)的字段,使用案例如下:
//建表語(yǔ)句 create table movie_info( movie string, category array<string> ) row format delimited fields terminated by '\t' collection items terminated by ','; //加載數(shù)據(jù) load data local inpath '/opt/data/movie.txt' into table movie_info;
看下explode函數(shù)效果,以拆解category為例,可與原數(shù)據(jù)表結(jié)構(gòu)對(duì)比。
select explode(category) from movie_info;

LATERAL VIEW的使用:
用法:
LATERAL VIEW udtf(expression) tableAlias AS columnAlias
解釋?zhuān)河糜诤蛃plit, explode等UDTF一起使用,它能夠?qū)⒁涣袛?shù)據(jù)拆成多行數(shù)據(jù),在此基礎(chǔ)上可以對(duì)拆分后的數(shù)據(jù)進(jìn)行聚合。
select movie,category_name from movie_info lateral view explode(category) table_emp as category_name;
效果如下:

其中l(wèi)ateral view explode(category) table_emp相當(dāng)于一個(gè)虛擬表,與原表movie_info笛卡爾積關(guān)聯(lián),也可以多重使用。那么問(wèn)題就這樣解決了。
以上這篇python 實(shí)現(xiàn) hive中類(lèi)似 lateral view explode的功能示例就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
- 在python中使用pyspark讀寫(xiě)Hive數(shù)據(jù)操作
- 使用Python構(gòu)造hive insert語(yǔ)句說(shuō)明
- Python pandas 列轉(zhuǎn)行操作詳解(類(lèi)似hive中explode方法)
- python 操作hive pyhs2方式
- 如何在python中寫(xiě)hive腳本
- python處理數(shù)據(jù),存進(jìn)hive表的方法
- python導(dǎo)出hive數(shù)據(jù)表的schema實(shí)例代碼
- Python讀取Hive數(shù)據(jù)庫(kù)實(shí)現(xiàn)代碼詳解
相關(guān)文章
pytorch常用函數(shù)定義及resnet模型修改實(shí)例
這篇文章主要為大家介紹了pytorch常用函數(shù)定義及resnet模型修改實(shí)例,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-06-06
Python BeautifulSoup [解決方法] TypeError: list indices must be
這篇文章主要介紹了Python BeautifulSoup [解決方法] TypeError: list indices must be integers or slices, not str,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-08-08
python executemany的使用及注意事項(xiàng)
這篇文章主要介紹了python executemany的使用及注意事項(xiàng),非常不錯(cuò),具有參考借鑒價(jià)值,需要的朋友可以參考下2017-03-03
python 將列表中的字符串連接成一個(gè)長(zhǎng)路徑的方法
今天小編就為大家分享一篇python 將列表中的字符串連接成一個(gè)長(zhǎng)路徑的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-10-10
Python數(shù)據(jù)的標(biāo)準(zhǔn)輸出與格式化輸出
這篇文章主要給大家介紹了關(guān)于Python數(shù)據(jù)的標(biāo)準(zhǔn)輸出與格式化輸出的相關(guān)資料,和大多數(shù)語(yǔ)言一樣,Python也是用print()函數(shù)來(lái)進(jìn)行輸出,需要的朋友可以參考下2023-08-08
Python實(shí)現(xiàn)一鍵改變r(jià)aw格式照片風(fēng)格
這篇文章主要為大家詳細(xì)介紹了如何基于Python實(shí)現(xiàn)一鍵改變r(jià)aw格式照片風(fēng)格效果,文中的示例代碼講解詳細(xì),具有一定的學(xué)習(xí)價(jià)值,需要的可以一起學(xué)習(xí)一下2023-05-05
對(duì)python 通過(guò)ssh訪問(wèn)數(shù)據(jù)庫(kù)的實(shí)例詳解
今天小編就為大家分享一篇對(duì)python 通過(guò)ssh訪問(wèn)數(shù)據(jù)庫(kù)的實(shí)例詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-02-02

