如何获取 BeautifulSoup Xml 解析器的数据
我正在尝试使用 BeautifulSoup 解析 XML 文件。在网上的所有教程中,都给出了 xml 的内容,
xml = "<doc><tag1>Contents 1<tag2>Contents 2<tag1>Contents 3"
soup = BeautifulStoneSoup(xml)
但我只想给出 xml 文件的路径。在 mechanize 中,可以使用 get_data() 方法,但它仅适用于 html 文件。有什么建议吗?
I'm trying to parse an XML file with BeautifulSoup. In all tutorials on the net, the content of the xml is given like
xml = "<doc><tag1>Contents 1<tag2>Contents 2<tag1>Contents 3"
soup = BeautifulStoneSoup(xml)
but I want to give only xml file's path. In mechanize one can use get_data() method but it only works for html files. Any sugestions ?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
BeautifulSoup 文档 说:
“美丽的汤构造函数接受字符串形式的 XML 或 HTML 文档(或打开的类似文件的对象),它解析该文档并在内存中创建相应的数据结构。”
在问题的表述中,您使用
BeautifulStoneSoup
,尽管在线文档使用字符串,但构造函数的文档字符串显示:“Soup 对象被初始化为‘根标记’,并且提供的标记(可以是字符串或类似文件的对象)被输入到底层解析器中。”
The BeautifulSoup documentation says that:
"A Beautiful Soup constructor takes an XML or HTML document in the form of a string (or an open file-like object). It parses the document and creates a corresponding data structure in memory."
In the formulation of your question, you use
BeautifulStoneSoup
, and allthough the online documentation uses strings, the docstring for the constructor reveals that:"The Soup object is initialized as the 'root tag', and the provided markup (which can be a string or a file-like object) is fed into the underlying parser."