Python lxml/beautiful soup 查找网页上的所有链接
我正在编写一个脚本来读取网页,并构建符合特定条件的链接数据库。现在我陷入了 lxml 并理解如何从 html 中获取所有 's ...
result = self._openurl(self.mainurl)
content = result.read()
html = lxml.html.fromstring(content)
print lxml.html.find_rel_links(html,'href')
I am writing a script to read a web page, and build a database of links that matches a certain criteria. Right now I am stuck with lxml and understanding how to grab all the <a href>
's from the html...
result = self._openurl(self.mainurl)
content = result.read()
html = lxml.html.fromstring(content)
print lxml.html.find_rel_links(html,'href')
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(4)
使用 XPath。像这样的东西(无法从这里测试):
Use XPath. Something like (can't test from here):
通过
iterlinks
,lxml 为此提供了一个出色的功能任务。With
iterlinks
, lxml provides an excellent function for this task.我想提供一种替代的基于 lxml 的解决方案。
解决方案使用lxml.cssselect中提供的函数
I want to provide an alternative lxml-based solution.
The solution uses the function provided in lxml.cssselect
你可以使用这个方法:
You can use this method: