Python實(shí)現(xiàn)提取XML內(nèi)容并保存到Excel中的方法
本文實(shí)例講述了Python實(shí)現(xiàn)提取XML內(nèi)容并保存到Excel中的方法。分享給大家供大家參考,具體如下:
最近做一個項目是解析XML文件,提取其中的chatid和lt、timestamp等信息,存到excel里。
1.解析xml,提取數(shù)據(jù)
使用python自帶的xml.dom中的minidom(也可以用lxml)
xml文件如下:

minidom.parse()#解析文件,返回DOM對象
_get_documentElement()DOM是樹形結(jié)構(gòu),獲得了樹形結(jié)構(gòu)的根節(jié)點(diǎn)
getElementsByTagName()根據(jù)name查找根目錄下的子節(jié)點(diǎn)
getAttribute()獲取DOM節(jié)點(diǎn)的屬性的值
提取的代碼如下:
class get_xml():
#加載獲取xml的文檔對象
def __init__(self,address):
#解析address文件,返回DOM對象,address為文件地址
self.doc = minidom.parse(address)
#DOM是樹形結(jié)構(gòu),_get_documentElement()獲得了樹形結(jié)構(gòu)的根節(jié)點(diǎn)
self.root = self.doc._get_documentElement()
#.getElementsByTagName(),根據(jù)name查找根目錄下的子節(jié)點(diǎn)
self.httpSample_nodes = self.root.getElementsByTagName('httpSample')
def getxmldata(self):
data_list=[]
j = -1
responseData_node = self.root.getElementsByTagName("responseData")
for i in self.httpSample_nodes:
j = j+1
#getAttribute(),獲取DOM節(jié)點(diǎn)的屬性的值
if i.getAttribute("lb") == "發(fā)送信息":
a = 'chatId":"(.*?)"'
elif i.getAttribute("lb") == "接收信息":
# a = "chatId%3A%22(.*?)%22"
a = "info%3A%22(.*?)%22"
if (i.getAttribute("lb") == "發(fā)送信息" or i.getAttribute("lb") == "接收信息") and i.getAttribute("rc") == "200":
try:
#使用re包里面的方法,通過正則表達(dá)式提取數(shù)據(jù)
b = re.search(a, responseData_node[j].firstChild.data)
if b is not None:
d = b.group(1)
print("d:",d)
data_list.append((d, i.getAttribute("ts"), i.getAttribute("lt"),i.getAttribute("lb")))
except:
pass
return data_list
2.存儲為Excel,導(dǎo)出數(shù)據(jù)到Excel
用到的包openpyxl,openpyxl.workbook下的Workbook()用來在內(nèi)存里創(chuàng)建文件,最后寫進(jìn)磁盤的
wb = load_workbook(filename = XXXX.xlsx):讀取Excel文件,文件地址為XXXX.xlsx
wb = Workbook():創(chuàng)建一個Workbook對象
ew = ExcelWriter(workbook = wb):新建一個excelWriter,最后用來保存
wb.create_sheet(0, 'XXX'):新建一個sheet,位置是0,sheet名字是XXX
ws = wb.worksheets[0]:打開一個sheet,sheet位置是0,即第1個sheet
ws.cell(row=1,column=1).value = XXX:在1行1列的位置加入數(shù)據(jù)XXX
ew.save(filename = XXXX.xlsx):將數(shù)據(jù)導(dǎo)出到本地,本地文件地址為XXXX.xlsx
一個導(dǎo)出Excel的例子如下:
import openpyxl
from openpyxl import writer,load_workbook
# Workbook用來在內(nèi)存里創(chuàng)建文件最后寫進(jìn)磁盤的
from openpyxl.workbook import workbook, Workbook
from openpyxl.writer.excel import ExcelWriter
from openpyxl.cell import get_column_letter
# if __name__ == "__main__":
def importexcel(match,dest_filename):
if(os.path.exists(dest_filename)):
wb = load_workbook(filename=dest_filename)
else:
wb = Workbook()
ew = ExcelWriter(workbook = wb)
#創(chuàng)建一個新sheet
wb.create_sheet(0, '聊聊發(fā)送接收請求')
# 打開已存在的第一個sheet,也可以用get_sheet_names獲得所有的sheet的名字
ws = wb.worksheets[0]
ws.title = "聊聊發(fā)送接收請求"
ws.cell('A1').value = "chartid"
ws.cell('B1').value = "接收時間戳"
ws.cell('C1').value = "發(fā)送時間戳"
ws.cell('D1').value = "時間戳差"
ws.cell('E1').value = "接收lt"
ws.cell('F1').value = "發(fā)送到接收的響應(yīng)時間"
l = 2
for i in match:
ws.cell(row=l,column=1).value = i['chatId']
ws.cell(row=l,column=2).value = i['accept_timestamp']
ws.cell(row=l,column=3).value = i['send_timestamp']
ws.cell(row=l,column=4).value = i['timestamp_gap']
ws.cell(row=l,column=5).value = i['accept_lt']
ws.cell(row=l,column=6).value = i['response_time']
print(i,l)
l = l+1
ew.save(filename = dest_filename)
PS:這里再為大家提供幾款關(guān)于xml操作的在線工具供大家參考使用:
在線XML/JSON互相轉(zhuǎn)換工具:
http://tools.jb51.net/code/xmljson
在線格式化XML/在線壓縮XML:
http://tools.jb51.net/code/xmlformat
XML在線壓縮/格式化工具:
http://tools.jb51.net/code/xml_format_compress
XML代碼在線格式化美化工具:
http://tools.jb51.net/code/xmlcodeformat
更多關(guān)于Python相關(guān)內(nèi)容感興趣的讀者可查看本站專題:《Python操作xml數(shù)據(jù)技巧總結(jié)》、《Python操作Excel表格技巧總結(jié)》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進(jìn)階經(jīng)典教程》及《Python文件與目錄操作技巧匯總》
希望本文所述對大家Python程序設(shè)計有所幫助。
相關(guān)文章
使用python實(shí)現(xiàn)一個瀏覽器自動化的腳本
最近工作中有這樣一個需求:客戶反饋在瀏覽器操作過程中,重復(fù)流程操作太頻繁,能不能讓瀏覽器自動操作完成?所以本文給大家介紹了如何使用python實(shí)現(xiàn)一個瀏覽器自動化的腳本,感興趣的朋友可以參考下2024-04-04
Python實(shí)現(xiàn)簡單的列表冒泡排序和反轉(zhuǎn)列表操作示例
這篇文章主要介紹了Python實(shí)現(xiàn)簡單的列表冒泡排序和反轉(zhuǎn)列表操作,涉及Python列表遍歷、排序、追加等相關(guān)操作技巧,需要的朋友可以參考下2019-07-07
解決新django中的path不能使用正則表達(dá)式的問題
今天小編就為大家分享一篇解決新django中的path不能使用正則表達(dá)式的問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-12-12
python?DataFrame數(shù)據(jù)分組統(tǒng)計groupby()函數(shù)的使用
在python的DataFrame中對數(shù)據(jù)進(jìn)行分組統(tǒng)計主要使用groupby()函數(shù),本文主要介紹了python?DataFrame數(shù)據(jù)分組統(tǒng)計groupby()函數(shù)的使用,具有一定的參考價值,感興趣的可以了解一下2022-03-03
使用python opencv對目錄下圖片進(jìn)行去重的方法
今天小編就為大家分享一篇使用python opencv對目錄下圖片進(jìn)行去重的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-01-01
python實(shí)現(xiàn)刪除列表中空字符串元素的兩種方法
本文主要介紹了python實(shí)現(xiàn)刪除列表中空字符串元素的兩種方法,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2025-03-03

