進(jìn)一步了解Python中的XML 工具

更新時間：2015年04月13日 09:21:38 投稿：goldensun

這篇文章主要介紹了更為深入的的Python中的XML工具,本文來自于IBM官方開發(fā)者技術(shù)文檔,需要的朋友可以參考下

模塊：xmllib

xmllib 是一個非驗證的低級語法分析器。應(yīng)用程序員使用的 xmllib 可以覆蓋 XMLParser 類，并提供處理文檔元素（如特定或類屬標(biāo)記，或字符實體）的方法。從 Python 1.5x 到 Python 2.0+ 以來， xmllib 的使用方法并沒變化；在絕大多數(shù)情況下更好的選擇是使用 SAX 技術(shù)，它也是種面向流的技術(shù)，對語言和開發(fā)者來說更為標(biāo)準(zhǔn)。

本文中的示例與原來專欄中的相同：包括一個叫做 quotations.dtd 的 DTD 以及這個 DTD 的文檔 sample.xml （請參閱參考資料，以獲取本文中提到的文件的檔案）。以下的代碼顯示了 sample.xml 中每段引言的前幾行，并生成了非常簡單的未知標(biāo)記和實體的 ASCII 指示符。經(jīng)過分析的文本作為連續(xù)流來處理，所使用的任何累加器都由程序員負(fù)責(zé)（如標(biāo)記中的字符串 (#PCDATA)，或所遇到的標(biāo)記的列表或詞典）。
清單 1: try_xmllib.py

import
         xmllib, string
    
    classQuotationParser

        (xmllib.XMLParser):
  """Crude xmllib extractor for quotations.dtd document"""
  
    
    def__init__

        (self):
    xmllib.XMLParser.__init__(self)
    self.thisquote = ''       
    
    # quotation accumulator
     
     
     defhandle_data

        (self, data):
    self.thisquote = self.thisquote + data
  
    
    defsyntax_error
        (self, message):
    
    
    pass
  defstart_quotations
        (self, attrs): 
    
    # top level tag
         
     
     print

         '--- Begin Document ---'
  
    
    defstart_quotation
        (self, attrs):
    
    
    print
         'QUOTATION:'
  
    
    defend_quotation
        (self):
    
    
    print

         string.join(string.split(self.thisquote[:230]))+'...',
    
    
    print

         '('+str(len(self.thisquote))+' bytes)\n'
    self.thisquote = ''
  
    
    defunknown_starttag

        (self, tag, attrs):
    self.thisquote = self.thisquote + '{'
  
    
    defunknown_endtag

        (self, tag):
    self.thisquote = self.thisquote + '}'
  
    
    defunknown_charref

        (self, ref):
    self.thisquote = self.thisquote + '?'
  
    
    defunknown_entityref

        (self, ref):
    self.thisquote = self.thisquote + '#'
    
    if

         __name__ == '__main__':
  parser = QuotationParser()
  
    
    for
         c 
    
    in
         open("sample.xml").read():
    parser.feed(c)
  parser.close()

驗證

您可能需要展望標(biāo)準(zhǔn) XML 支持的未來的原因是，在進(jìn)行語法分析的同時需要進(jìn)行驗證。不幸的是，標(biāo)準(zhǔn) Python 2.0 XML 包并不包括驗證型語法分析器。

xmlproc 是 python 原有的語法分析器，它執(zhí)行幾乎完整的驗證。如果需要驗證型語法分析器， xmlproc 是 Python 當(dāng)前唯一的選擇。而且， xmlproc 提供其它語法分析器所不具備的各種高級和測試接口。

選擇一種語法分析器

如果決定使用 XML 的簡單 API (SAX) -- 它應(yīng)該用于復(fù)雜的事物，因為其它大部分工具都是在它的基礎(chǔ)上建立的 -- 將為您完成許多語法分析器的分類工作。 xml.sax 模塊包含一個自動選擇“最佳”語法分析器的設(shè)施。在標(biāo)準(zhǔn) Python 2.0 安裝中，唯一能選擇的語法分析器是 expat ，它是種 C 語言編寫的快速擴(kuò)展。然而，也可以在 $PYTHONLIB/xml/parsers 下安裝另一個語法分析器，以備選擇。設(shè)置語法分析器很簡單：
清單 2: Python 選擇最佳語法分析器的語句

import
         xml.sax
parser = xml.sax.make_parser()

您還可以通過傳遞參數(shù)來選擇特定的語法分析器；但考慮到可移植性 -- 也為了對今后更好的語法分析器的向上兼容性 -- 最佳方法是使用 make_parser() 來完成工作。

您可以直接導(dǎo)入 xml.parsers.expat 。如果這樣做，您就能獲得 SAX 界面并不提供的一些特殊技巧。這樣， xml.parsers.expat 與 SAX 相比有些“低級”。但 SAX 技術(shù)非常標(biāo)準(zhǔn)，對面向流的處理也非常好；大多數(shù)情況下 SAX 的級別正合適。通常情況下，由于 make_parser() 函數(shù)已經(jīng)能獲得 expat 提供的性能，因此純速度的差異很小。

什么是 SAX

考慮到背景因素，回答什么是 SAX 的較好答案是：

SAX （XML 的簡單 API）是 XML 語法分析器的公用語法分析器接口。它允許應(yīng)用程序作者編寫使用 XML 語法分析器的應(yīng)用程序，但是它卻獨立于所使用的語法分析器。（將它看作 XML 的 JDBC。）（Lars Marius Garshol，SAX for Python）

SAX -- 如同它提供的語法分析器模塊的 API -- 基本上是一個 XML 文檔的順序處理器。使用它的方法與 xmllib 示例極其相似，但更加抽象。應(yīng)用程序員將定義一個 handler 類，而不是語法分析器類，該 handler 類能注冊到任何所使用的語法分析器中。必須定義 4 個 SAX 接口（每個接口都有幾個方法）：DocumentHandler、DTDHandler、EntityResolver 和 ErrorHandler。創(chuàng)建語法分析器除非被覆蓋，否則它還連接默認(rèn)接口。這些代碼執(zhí)行與 xmllib 示例相同的任務(wù)：
清單 3: try_sax.py

"Simple SAX example, updated for Python 2.0+"
    
    import
         string
    
    import
         xml.sax
    
    from
         xml.sax.handler 
    
    import
         *
    
    classQuotationHandler

        
  (ContentHandler):
  """Crude extractor for quotations.dtd compliant XML document"""
  
    
    def__init__

        
  (self):
    self.in_quote = 0
    self.thisquote = ''
  
    
    defstartDocument
        
  (self):
    
    
    print

         '--- Begin Document ---'
  
    
    defstartElement

        
  (self, name, attrs):
    
    
    if

         name == 'quotation':
      
    
    print

         'QUOTATION:'
      self.in_quote = 1
    
    
    else:
    
    
      self.thisquote = self.thisquote + '{'
  
    
    defendElement

        
  (self, name):
    
    
    if

         name == 'quotation':
      
    
    print

         string.join(string.split(self.thisquote[:230]))+'...',
      
    
    print

         '('+str(len(self.thisquote))+' bytes)\n'
      self.thisquote = ''
      self.in_quote = 0
    
    
    else:
    
    
      self.thisquote = self.thisquote + '}'
  
    
    defcharacters
        
  (self, ch):
    
    
    if

         self.in_quote:
      self.thisquote = self.thisquote + ch
    
    if
         __name__ == '__main__':
  parser = xml.sax.make_parser()
  handler = QuotationHandler()
  parser.setContentHandler(handler)
  parser.parse("sample.xml")

與 xmllib 相比，上述示例中要注意兩件小事： .parse() 方法處理整個流或字符串，所以不必為語法分析器創(chuàng)建循環(huán)； .parse() 同樣能靈活地接收一個文件名、一個文件對象，或是眾多的類文件對象（一些具有 .read() 方式）。

包：DOM

DOM 是一種 XML 文檔的高級樹型表示。該模型并非只針對 Python，而是一種普通 XML 模型（請參閱參考資料以獲取進(jìn)一步信息）。Python 的 DOM 包是基于 SAX 構(gòu)建的，并且包括在 Python 2.0 的標(biāo)準(zhǔn) XML 支持里。由于篇幅所限，沒有將代碼示例加到本文中，但在 XML-SIG 的 "Python/XML HOWTO" 中給出了一個極好的總體描述：

文檔對象模型為 XML 文檔指定了樹型表示。頂級文檔實例是樹的根，它只有一個子代，即頂級元素實例；這個元素有表示內(nèi)容和子元素的子節(jié)點，他們也可以有子代，以此類推。定義的函數(shù)允許隨意遍歷結(jié)果樹，訪問元素和屬性值，插入和刪除節(jié)點，以及將樹轉(zhuǎn)換回 XML。

DOM 可以用于修改 XML 文檔，因為可以創(chuàng)建一棵 DOM 樹，通過添加新節(jié)點和來回移動子樹來修改這棵樹，然后生成一個新的 XML 文檔作為輸出。您也可以自己構(gòu)造一棵 DOM 樹，然后將它轉(zhuǎn)換成 XML；用這種方法生成 XML 輸出比僅將 <tag1>...</tag1> 寫入文件的方法更靈活。

使用 xml.dom 模塊的語法與早期的文章相比有了一些變動。Python 2.0 中自帶的 DOM 實現(xiàn)被稱為 xml.dom.minidom ，并提供輕量級和小型版本的 DOM。顯然，完整的 XML-SIG 的 DOM 中有些試驗性的特性并未被放入 xml.dom.minidom 中，但大家并不會注意到這一點。

生成 DOM 對象很簡單；只需：
清單 4: 在 XML 文件中創(chuàng)建 Python DOM 對象

from
         xml.dom.minidom 
    
    import

         parse, parseString
dom1 = parse('mydata.xml') 
    
    # parse an XML file by name

使用 DOM 對象是種非常直接的 OOP 模式的工作。然而，經(jīng)常在無法立刻簡單區(qū)分的層級（除了循環(huán)列舉）中碰到許多類似清單的屬性。例如，以下是一段普通的 DOM Python 代碼片斷：
清單 5: 通過 Python DOM 節(jié)點對象的迭代

for
         node 
    
    in
         dom_node.childNodes:
  
    
    if

         node.nodeName == '#text':   
    
    # PCDATA is a kind of node,
    PCDATA = node.nodeValue    
    
    # but not a new subtag
     
     
     elif

         node.nodeName == 'spam':
    spam_node_list.append(node) 
    
    # Create list of <spam> nodes

Python 標(biāo)準(zhǔn)說明文檔中有一些更詳細(xì)的 DOM 示例。我的早期文章中有關(guān)使用 DOM 對象的示例（請參閱參考資料）指出的方向仍然是正確的，但是文章發(fā)布后至今，一些方法和屬性名稱以更改，因此請查閱一下 Python 的說明文檔。

模塊： pyxie

pyxie 模塊是在 Python 標(biāo)準(zhǔn) XML 支持之上構(gòu)建的，它為 XML 文檔提供了附加的高級接口。 pyxie 將完成兩項基本操作：它將 XML 文檔轉(zhuǎn)換成一種更易于進(jìn)行語法分析的基于行的格式；并且它提供了將 XML 文檔當(dāng)作可操作樹處理的方法。 pyxie 所使用的基于行的 PYX 格式是不受語言限制的，其工具適用于幾種語言?？傊?，文檔的 PYX 表示與其 XML 表示相比，更易于使用常見的基于行的文本處理工具進(jìn)行處理，如 grep、sed、awk、bash、perl，或標(biāo)準(zhǔn) python 模塊，如 string 和 re 。根據(jù)結(jié)果，從 XML 轉(zhuǎn)換到 PYX 可能節(jié)省許多工作。

pyxie 將 XML 文檔當(dāng)作樹處理的概念與 DOM 中的思路相似。由于 DOM 標(biāo)準(zhǔn)得到許多編程語言的廣泛支持，那么如果 XML 文檔的樹型表示是必需的，大多數(shù)程序員會使用 DOM 標(biāo)準(zhǔn)而非 pyxie 。

更多模塊： xml_pickle 和 xml_objectify

我自行開發(fā)了處理 XML 的高級模塊，稱為 xml_pickle 和 xml_objectify 。我還在其它地方寫過許多類似模塊（請參閱參考資料），在此不必做過多的介紹。當(dāng)你“用 Python 思考”而不是“用 XML 思考”時，這些模塊非常有用。特別是 xml_objectify 自身對程序員隱藏了幾乎所有的 XML 線索，使您在程序中充分使用 Python “原始”對象。實際的 XML 數(shù)據(jù)格式幾乎被抽象得不可見。同樣， xml_pickle 使 Python 程序員以“原始” Python 對象開始，該對象的數(shù)據(jù)可以來源于任何源代碼，然后把它們（連續(xù)地）放入其他用戶以后可能需要的 XML 格式。

您可能感興趣的文章: