python讀取hdfs并返回dataframe教程
不多說,直接上代碼
from hdfs import Client
import pandas as pd
HDFSHOST = "http://xxx:50070"
FILENAME = "/tmp/preprocess/part-00000" #hdfs文件路徑
COLUMNNAMES = [xx']
def readHDFS():
'''
讀取hdfs文件
Returns:
df:dataframe hdfs數(shù)據(jù)
'''
client = Client(HDFSHOST)
# 目前讀取hdfs文件采用方式:
# 1. 先從hdfs讀取二進(jìn)制數(shù)據(jù)流文件
# 2. 將二進(jìn)制文件另存為.csv
# 3. 使用pandas讀取csv文件
with client.read(FILENAME) as fs:
content = fs.read()
s = str(content, 'utf-8')
file = open("data/tmp/data.csv", "w")
file.write(s)
df = pd.read_csv("data/tmp/data.csv", names=COLUMNNAMES)
return df
補(bǔ)充知識(shí):Python連接HDFS實(shí)現(xiàn)文件上傳下載及Pandas轉(zhuǎn)換文本文件到CSV
1. 目標(biāo)
通過hadoop hive或spark等數(shù)據(jù)計(jì)算框架完成數(shù)據(jù)清洗后的數(shù)據(jù)在HDFS上
爬蟲和機(jī)器學(xué)習(xí)在Python中容易實(shí)現(xiàn)
在Linux環(huán)境下編寫Python沒有pyCharm便利
需要建立Python與HDFS的讀寫通道
2. 實(shí)現(xiàn)
安裝Python模塊pyhdfs
版本:Python3.6, hadoop 2.9
讀文件代碼如下
from pyhdfs import HdfsClient
client=HdfsClient(hosts='ghym:50070')#hdfs地址
res=client.open('/sy.txt')#hdfs文件路徑,根目錄/
for r in res:
line=str(r,encoding='utf8')#open后是二進(jìn)制,str()轉(zhuǎn)換為字符串并轉(zhuǎn)碼
print(line)
寫文件代碼如下
from pyhdfs import HdfsClient
client=HdfsClient(hosts='ghym:50070',user_name='hadoop')#只有hadoop用戶擁有寫權(quán)限
str='hello world'
client.create('/py.txt',str)#創(chuàng)建新文件并寫入字符串
上傳本地文件到HDFS
from pyhdfs import HdfsClient
client = HdfsClient(hosts='ghym:50070', user_name='hadoop')
client.copy_from_local('d:/pydemo.txt', '/pydemo')#本地文件絕對(duì)路徑,HDFS目錄必須不存在
3. 讀取文本文件寫入csv
Python安裝pandas模塊
確認(rèn)文本文件的分隔符
# pyhdfs讀取文本文件,分隔符為逗號(hào),
from pyhdfs import HdfsClient
client = HdfsClient(hosts='ghym:50070', user_name='hadoop')
inputfile=client.open('/int.txt')
# pandas調(diào)用讀取方法read_table
import pandas as pd
df=pd.read_table(inputfile,encoding='gbk',sep=',')#參數(shù)為源文件,編碼,分隔符
# 數(shù)據(jù)集to_csv方法轉(zhuǎn)換為csv
df.to_csv('demo.csv',encoding='gbk',index=None)#參數(shù)為目標(biāo)文件,編碼,是否要索引
以上這篇python讀取hdfs并返回dataframe教程就是小編分享給大家的全部內(nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
python3.7.3版本和django2.2.3版本是否可以兼容
在本篇文章里小編給大家整理的是一篇關(guān)于python3.7.3版本和django2.2.3版本是否可以兼容的相關(guān)知識(shí)點(diǎn)內(nèi)容,有興趣的朋友們可以學(xué)習(xí)下。2020-09-09
用Python實(shí)現(xiàn)寫倒序輸出(任意位數(shù))
這篇文章主要介紹了用Python實(shí)現(xiàn)寫倒序輸出(任意位數(shù)),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-05-05
python 在某.py文件中調(diào)用其他.py內(nèi)的函數(shù)的方法
這篇文章主要介紹了python 在某.py文件中調(diào)用其他.py內(nèi)的函數(shù)的方法,本文給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2019-06-06
使用Python構(gòu)建Markdown轉(zhuǎn)Word文檔轉(zhuǎn)換器
在當(dāng)今的文檔處理中,Markdown因其簡潔的語法和易讀性而廣受歡迎,而Microsoft Word(DOCX格式)則因其廣泛的兼容性和專業(yè)的排版效果成為商業(yè)文檔的標(biāo)準(zhǔn),本文將介紹如何使用Python構(gòu)建一個(gè)帶有圖形界面的Markdown轉(zhuǎn)Word文檔轉(zhuǎn)換器,需要的朋友可以參考下2025-02-02
python繪制散點(diǎn)圖詳細(xì)步驟(從0到1必會(huì))
這篇文章主要介紹了如何使用Python繪制散點(diǎn)圖,包括導(dǎo)入包、準(zhǔn)備數(shù)據(jù)、繪制圖像、修飾圖像(添加標(biāo)題、坐標(biāo)軸標(biāo)簽、顏色圖例)以及整合所有代碼,文中通過代碼介紹的非常詳細(xì),需要的朋友可以參考下2024-12-12
Python標(biāo)準(zhǔn)庫中的logging用法示例詳解
logging是Python標(biāo)準(zhǔn)庫中記錄常用的記錄日志庫,通過logging模塊存儲(chǔ)各種格式的日志,主要用于輸出運(yùn)行日志,可以設(shè)置輸出日志的等級(jí)、日志保存路徑、日志文件回滾等,這篇文章主要介紹了Python標(biāo)準(zhǔn)庫中的logging,需要的朋友可以參考下2022-09-09

