从网页中提取元关键字?
我需要使用 Python 从网页中提取元关键字。我认为这可以使用 urllib 或 urllib2 来完成,但我不确定。有人有什么想法吗?
我在 Windows XP 上使用 Python 2.6
I need to extract the meta keywords from a web page using Python. I was thinking that this could be done using urllib or urllib2, but I'm not sure. Anyone have any ideas?
I am using Python 2.6 on Windows XP
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
lxml 比 BeautifulSoup 更快(我认为)并且具有更好的功能,同时保持相对简单使用。示例:
编辑:另一个示例。
顺便说一句:XPath 值得了解。
另一种编辑:
或者,您可以只使用 regexp:
...但我发现它的可读性较差且更容易出错(但仅涉及标准模块并且仍然适合一行)。
lxml is faster than BeautifulSoup (I think) and has much better functionality, while remaining relatively easy to use. Example:
Edit: another example.
BTW: XPath is worth knowing.
Another edit:
Alternatively, you can just use regexp:
...but I find it less readable and more error prone (but involves only standard module and still fits on one line).
BeautifulSoup 是使用 Python 解析 HTML 的好方法。
特别是检查 findAll 方法:
http://www.crummy.com/software/BeautifulSoup/documentation.html
BeautifulSoup is a great way to parse HTML with Python.
Particularly, check out the findAll method:
http://www.crummy.com/software/BeautifulSoup/documentation.html
为什么不使用正则表达式
Why not use a regular expression