当前位置:Linux教程 - Linux综合 - XML 文档的理想语言分析 Python的特点

XML 文档的理想语言分析 Python的特点

  在许多情况下,Python 是使用 XML 文档的理想语言。像 Perl、REBOL、REXX 和 TCL 一样,它是一种灵活的脚本语言,并且有强大的文本操作能力。而且,除了对多数类型的文本文件(或流文件)编码外,XML 文档还编码大量复杂的数据结构。    继续在 Python 2.0 中对 XML 的支持  文本处理中常见的“读取几行,并将它们与一些规则表达式比较”样式通常不能很好地适合对 XML 进行彻底语法分析和处理。幸好,Python(与大多数其它语言相比)不仅有处理复杂数据结构的直接方法(通常使用类和属性),还有一系列 XML 相关的模块可以帮助语法分析、处理和生成 XML。    XML-SIG (专门兴趣组)的成员为维护 Python 一系列 XML 工具做了许多工作。与其它 Python 专门兴趣组一样,XML-SIG 要维护邮件发送列表、列表档案、有用的参考大全、文档、标准包和其它资源(请参阅本文后的参考资料)。    从 Python 2.0 开始,Python 在其标准发行版中包括大多数 XML-SIG 项目。最新的 XML-SIG 包可能包含一些 Python 标准发行版中没有的“极端先进”特性,但出于面向绝大多数人的目的 -- 包括本文中的讨论 -- Python 2.0 的 XML 支持将是您感兴趣的。幸运的是,早期 Python 版本对 xmllib 的基本支持在 Python 2.0+ 下有了很大进步。目前,Python 用户能正常的选择 DOM、SAX 和 eXPat 技术来处理 XML (使用其他编程语言的 XML 开发人员将会意识到这些)。    模块:xmllib  xmllib 是一个非验证的低级语法分析器。应用程序员使用的 xmllib 可以覆盖 XMLParser 类,并提供处理文档元素(如特定或类属标记,或字符实体)的方法。从 Python 1.5x 到 Python 2.0+ 以来,xmllib 的使用方法并没变化;在绝大多数情况下更好的选择是使用 SAX 技术,它也是种面向流的技术,对语言和开发者来说更为标准。    本文中的示例与原来专栏中的相同:包括一个叫做 quotations.dtd 的 DTD 以及这个 DTD 的文档 sample.xml (请参阅参考资料,以获取本文中提到的文件的档案)。以下的代码显示了 sample.xml 中每段引言的前几行,并生成了非常简单的未知标记和实体的 ASCII 指示符。经过分析的文本作为连续流来处理,所使用的任何累加器都由程序员负责(如标记中的字符串 (#PCDATA),或所遇到的标记的列表或词典)。    清单 1: try_xmllib.py    import xmllib, string    classQuotationParser(xmllib.XMLParser):    """Crude xmllib extractor for quotations.dtd document"""    def__init__(self):      xmllib.XMLParser.__init__(self)      self.thisquote = ''       # quotation accumulator    defhandle_data(self, data):      self.thisquote = self.thisquote + data    defsyntax_error(self, message):      pass    defstart_quotations(self, attrs): # top level tag      print '--- Begin Document ---'    defstart_quotation(self, attrs):      print 'QUOTATION:'    defend_quotation(self):      print string.join(string.split(self.thisquote[:230]))+'...',      print '('+str(len(self.thisquote))+' bytes)'      self.thisquote = ''    defunknown_starttag(self, tag, attrs):      self.thisquote = self.thisquote + '{'    defunknown_endtag(self, tag):      self.thisquote = self.thisquote + '}'    defunknown_charref(self, ref):      self.thisquote = self.thisquote + '?'    defunknown_entityref(self, ref):      self.thisquote = self.thisquote + '#'    if __name__ == '__main__':    parser = QuotationParser()    for c in open("sample.xml").read():      parser.feed(c)    parser.close()    验证  您可能需要展望标准 XML 支持的未来的原因是,在进行语法分析的同时需要进行验证。不幸的是,标准 Python 2.0 XML 包并不包括验证型语法分析器。    xmlproc 是 python 原有的语法分析器,它执行几乎完整的验证。如果需要验证型语法分析器, xmlproc 是 Python 当前唯一的选择。而且,xmlproc 提供其它语法分析器所不具备的各种高级和测试接口。    选择一种语法分析器  如果决定使用 XML 的简单 API (SAX) -- 它应该用于复杂的事物,因为其它大部分工具都是在它的基础上建立的 -- 将为您完成许多语法分析器的分类工作。xml.sax 模块包含一个自动选择“最佳”语法分析器的设施。在标准 Python 2.0 安装中,唯一能选择的语法分析器是 expat,它是种 C 语言编写的快速扩展。然而,也可以在 $PYTHONLIB/xml/parsers 下安装另一个语法分析器,以备选择。设置语法分析器很简单:    清单 2: Python 选择最佳语法分析器的语句    import xml.sax  parser = xml.sax.make_parser()    您还可以通过传递参数来选择特定的语法分析器;但考虑到可移植性 -- 也为了对今后更好的语法分析器的向上兼容性 -- 最佳方法是使用 make_parser() 来完成工作。    您可以直接导入 xml.parsers.expat。如果这样做,您就能获得 SAX 界面并不提供的一些特殊技巧。这样,xml.parsers.expat 与 SAX 相比有些“低级”。但 SAX 技术非常标准,对面向流的处理也非常好;大多数情况下 SAX 的级别正合适。通常情况下,由于 make_parser() 函数已经能获得 expat 提供的性能,因此纯速度的差异很小。    什么是 SAX  考虑到背景因素,回答什么是 SAX 的较好答案是:    SAX (XML 的简单 API)是 XML 语法分析器的公用语法分析器接口。它允许应用程序作者编写使用 XML 语法分析器的应用程序,但是它却独立于所使用的语法分析器。(将它看作 XML 的 JDBC。)(Lars Marius Garshol,SAX for Python)  SAX -- 如同它提供的语法分析器模块的 API -- 基本上是一个 XML 文档的顺序处理器。使用它的方法与 xmllib 示例极其相似,但更加抽象。应用程序员将定义一个 handler 类,而不是语法分析器类,该 handler 类能注册到任何所使用的语法分析器中。必须定义 4 个 SAX 接口(每个接口都有几个方法):DocumentHandler、DTDHandler、EntityResolver 和 ErrorHandler。创建语法分析器除非被覆盖,否则它还连接默认接口。这些代码执行与 xmllib 示例相同的任务:    清单 3: try_sax.py    "Simple SAX example, updated for Python 2.0+"  import string  import xml.sax  from xml.sax.handler import *    classQuotationHandler(ContentHandler):    """Crude extractor for quotations.dtd compliant XML document"""    def__init__(self):      self.in_quote = 0      self.thisquote = ''    defstartDocument(self):      print '--- Begin Document ---'    defstartElement(self, name, attrs):      if name == 'quotation':        print 'QUOTATION:'        self.in_quote = 1      else:        self.thisquote = self.thisquote + '{'    defendElement(self, name):      if name == 'quotation':        print string.join(string.split(self.thisquote[:230]))+'...',        print '('+str(len(self.thisquote))+' bytes)'        self.thisquote = ''        self.in_quote = 0      else:        self.thisquote = self.thisquote + '}'    defcharacters(self, ch):      if self.in_quote:        self.thisquote = self.thisquote + ch    if __name__ == '__main__':    parser = xml.sax.make_parser()    handler = QuotationHandler()    parser.setContentHandler(handler)    parser.parse("sample.xml")    与 xmllib 相比,上述示例中要注意两件小事:.parse() 方法处理整个流或字符串,所以不必为语法分析器创建循环;.parse() 同样能灵活地接收一个文件名、一个文件对象,或是众多的类文件对象(一些具有 .read() 方式)。    包:DOM  DOM 是一种 XML 文档的高级树型表示。该模型并非只针对 Python,而是一种普通 XML 模型(请参阅参考资料以获取进一步信息)。Python 的 DOM 包是基于 SAX 构建的,并且包括在 Python 2.0 的标准 XML 支持里。由于篇幅所限,没有将代码示例加到本文中,但在 XML-SIG 的 "Python/XML HOWTO" 中给出了一个极好的总体描述:    文档对象模型为 XML 文档指定了树型表示。顶级文档实例是树的根,它只有一个子代,即顶级元素实例;这个元素有表示内容和子元素的子节点,他们也可以有子代,以此类推。定义的函数允许随意遍历结果树,访问元素和属性值,插入和删除节点,以及将树转换回 XML。    DOM 可以用于修改 XML 文档,因为可以创建一棵 DOM 树,通过添加新节点和来回移动子树来修改这棵树,然后生成一个新的 XML 文档作为输出。您也可以自己构造一棵 DOM 树,然后将它转换成 XML;用这种方法生成 XML 输出比仅将 <
[1] [2] 下一页 

(出处:http://www.sheup.com)


上一页 [1] [2]