XML 指可擴展標(biāo)記語言(eXtensible Markup Language)。 你可以通過本站學(xué)習(xí)XML教程
XML 被設(shè)計用來傳輸和存儲數(shù)據(jù)。
XML 是一套定義語義標(biāo)記的規(guī)則,這些標(biāo)記將文檔分成許多部件并對這些部件加以標(biāo)識。
常見的 XML 編程接口有 DOM 和 SAX,這兩種接口處理 XML 文件的方式不同,當(dāng)然使用場合也不同。
python 有三種方法解析 XML,SAX,DOM,以及 ElementTree:
pyhton 標(biāo)準(zhǔn)庫包含 SAX 解析器,SAX 用事件驅(qū)動模型,通過在解析 XML 的過程中觸發(fā)一個個的事件并調(diào)用用戶定義的回調(diào)函數(shù)來處理 XML 文件。
將 XML 數(shù)據(jù)在內(nèi)存中解析成一個樹,通過對樹的操作來操作 XML。
ElementTree 就像一個輕量級的 DOM,具有方便友好的 API。代碼可用性好,速度快,消耗內(nèi)存少。
注:因 DOM 需要將 XML 數(shù)據(jù)映射到內(nèi)存中的樹,一是比較慢,二是比較耗內(nèi)存,而 SAX 流式讀取 XML 文件,比較快,占用內(nèi)存少,但需要用戶實現(xiàn)回調(diào)函數(shù)(handler)。
本章節(jié)使用到的 XML 實例文件 movies.xml 內(nèi)容如下:
<collection shelf="New Arrivals">
<movie title="Enemy Behind">
<type>War, Thriller</type>
<description>Talk about a US-Japan war</description>
<movie title="Transformers">
<type>Anime, Science Fiction</type>
<description>A schientific fiction</description>
<movie title="Trigun">
<type>Anime, Action</type>
<description>Vash the Stampede!</description>
<movie title="Ishtar">
<description>Viewable boredom</description>
SAX 是一種基于事件驅(qū)動的 API。
利用 SAX 解析 XML 文檔牽涉到兩個部分: 解析器和事件處理器。
解析器負責(zé)讀取 XML 文檔, 并向事件處理器發(fā)送事件, 如元素開始跟元素結(jié)束事件;
而事件處理器則負責(zé)對事件作出相應(yīng), 對傳遞的 XML 數(shù)據(jù)進行處理。
在 python 中使用 sax 方式處理 xml 要先引入 xml.sax 中的 parse 函數(shù),還有 xml.sax.handler 中的 ContentHandler。
characters(content) 方法
從行開始,遇到標(biāo)簽之前,存在字符,content 的值為這些字符串。
從一個標(biāo)簽,遇到下一個標(biāo)簽之前, 存在字符,content 的值為這些字符串。
從一個標(biāo)簽,遇到行結(jié)束符之前,存在字符,content 的值為這些字符串。
startDocument() 方法
endDocument() 方法
startElement(name, attrs) 方法
遇到 XML 開始標(biāo)簽時調(diào)用,name 是標(biāo)簽的名字,attrs 是標(biāo)簽的屬性值字典。
endElement(name) 方法
遇到 XML 結(jié)束標(biāo)簽時調(diào)用。
xml.sax.make_parser( [parser_list] )
以下方法創(chuàng)建一個 SAX 解析器并解析 xml 文檔:
xml.sax.parse( xmlfile, contenthandler[, errorhandler])
parseString 方法創(chuàng)建一個 XML 解析器并解析 xml 字符串:
xml.sax.parseString(xmlstring, contenthandler[, errorhandler])
import xml.sax
class MovieHandler( xml.sax.ContentHandler ):
def __init__(self):
self.CurrentData = ""
self.type = ""
self.format = ""
self.year = ""
self.rating = ""
self.stars = ""
self.description = ""
# 元素開始事件處理
def startElement(self, tag, attributes):
self.CurrentData = tag
if tag == "movie":
print "*****Movie*****"
title = attributes["title"]
print "Title:", title
# 元素結(jié)束事件處理
def endElement(self, tag):
if self.CurrentData == "type":
print "Type:", self.type
elif self.CurrentData == "format":
print "Format:", self.format
elif self.CurrentData == "year":
print "Year:", self.year
elif self.CurrentData == "rating":
print "Rating:", self.rating
elif self.CurrentData == "stars":
print "Stars:", self.stars
elif self.CurrentData == "description":
print "Description:", self.description
self.CurrentData = ""
# 內(nèi)容事件處理
def characters(self, content):
if self.CurrentData == "type":
self.type = content
elif self.CurrentData == "format":
self.format = content
elif self.CurrentData == "year":
self.year = content
elif self.CurrentData == "rating":
self.rating = content
elif self.CurrentData == "stars":
self.stars = content
elif self.CurrentData == "description":
self.description = content
if ( __name__ == "__main__"):
# 創(chuàng)建一個 XMLReader
parser = xml.sax.make_parser()
# turn off namepsaces
parser.setFeature(xml.sax.handler.feature_namespaces, 0)
# 重寫 ContextHandler
Handler = MovieHandler()
parser.setContentHandler( Handler )
Title: Enemy Behind
Type: War, Thriller
Format: DVD
Year: 2003
Rating: PG
Stars: 10
Description: Talk about a US-Japan war
Title: Transformers
Type: Anime, Science Fiction
Format: DVD
Year: 1989
Rating: R
Stars: 8
Description: A schientific fiction
Title: Trigun
Type: Anime, Action
Format: DVD
Rating: PG
Stars: 10
Description: Vash the Stampede!
Title: Ishtar
Type: Comedy
Format: VHS
Rating: PG
Stars: 2
Description: Viewable boredom
完整的 SAX API 文檔請查閱 Python SAX APIs
文件對象模型(Document Object Model,簡稱 DOM),是 W3C 組織推薦的處理可擴展置標(biāo)語言的標(biāo)準(zhǔn)編程接口。
一個 DOM 的解析器在解析一個 XML 文檔時,一次性讀取整個文檔,把文檔中所有元素保存在內(nèi)存中的一個樹結(jié)構(gòu)里,之后你可以利用 DOM 提供的不同的函數(shù)來讀取或修改文檔的內(nèi)容和結(jié)構(gòu),也可以把修改過的內(nèi)容寫入 xml 文件。
python 中用x ml.dom.minidom 來解析 xml 文件,實例如下:
from xml.dom.minidom import parse
import xml.dom.minidom
# 使用minidom解析器打開 XML 文檔
DOMTree = xml.dom.minidom.parse("movies.xml")
collection = DOMTree.documentElement
if collection.hasAttribute("shelf"):
print "Root element : %s" % collection.getAttribute("shelf")
# 在集合中獲取所有電影
movies = collection.getElementsByTagName("movie")
# 打印每部電影的詳細信息
for movie in movies:
print "*****Movie*****"
if movie.hasAttribute("title"):
print "Title: %s" % movie.getAttribute("title")
type = movie.getElementsByTagName('type')[0]
print "Type: %s" % type.childNodes[0].data
format = movie.getElementsByTagName('format')[0]
print "Format: %s" % format.childNodes[0].data
rating = movie.getElementsByTagName('rating')[0]
print "Rating: %s" % rating.childNodes[0].data
description = movie.getElementsByTagName('description')[0]
print "Description: %s" % description.childNodes[0].data
Root element : New Arrivals
Title: Enemy Behind
Type: War, Thriller
Format: DVD
Rating: PG
Description: Talk about a US-Japan war
Title: Transformers
Type: Anime, Science Fiction
Format: DVD
Rating: R
Description: A schientific fiction
Title: Trigun
Type: Anime, Action
Format: DVD
Rating: PG
Description: Vash the Stampede!
Title: Ishtar
Type: Comedy
Format: VHS
Rating: PG
Description: Viewable boredom
完整的 DOM API 文檔請查閱Python DOM APIs。