Python 中的 URL 树遍历器?
对于显示文件树的 URL,例如 Pypi 包,
是否有一个小的实体模块可以遍历 URL 树并像 ls -lR 那样列出它?
我收集(纠正我)文件属性没有标准编码,
html 属性中的链接类型、大小、日期...
因此,在流沙上构建可靠的 URLtree 模块非常困难。
但肯定是这个轮子(Unix 文件树 -> html -> Treewalk API -> ls -lR 或 find
)
已经完成了吗?
(那里似乎有几个蜘蛛/网络爬虫/刮刀,但到目前为止,尽管有 BeautifulSoup 进行解析,但它们看起来很丑陋并且是临时的)。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
Apache 服务器非常常见,它们有一个相对标准的列出文件目录的方式。
这是一个足够简单的脚本,可以执行您想要的操作,您应该能够使其执行您想要的操作。
用法:python list_apache_dir.py
Apache servers are very common, and they have a relatively standard way of listing file directories.
Here's a simple enough script that does what you want, you should be able to make it do what you want.
Usage: python list_apache_dir.py
其他人推荐了 BeautifulSoup,但使用 lxml 更好。 尽管它的名字如此,它也用于解析和抓取 HTML。 它比 BeautifulSoup 快得多。 如果您不想学习 lxml API,它也有一个 BeautifulSoup 的兼容性 API。
Ian Blicking 同意。
没有理由再使用 BeautifulSoup,除非你使用的是 Google App Engine 或其他不允许使用非纯 Python 的东西。
它也有 CSS 选择器,所以这类事情很简单。
Others have recommended BeautifulSoup, but it's much better to use lxml. Despite its name, it is also for parsing and scraping HTML. It's much, much faster than BeautifulSoup. It has a compatibility API for BeautifulSoup too if you don't want to learn the lxml API.
Ian Blicking agrees.
There's no reason to use BeautifulSoup anymore, unless you're on Google App Engine or something where anything not purely Python isn't allowed.
It has CSS selectors as well so this sort of thing is trivial.
事实证明,BeautifulSoup 像这样的俏皮话可以让 rows into Python——
与上面 sysrqb 的单行正则表达式相比,这……更长;
谁说
Turns out that BeautifulSoup one-liners like these can turn <table> rows into Python --
Compared to sysrqb's one-line regexp above, this is ... longer;
who said