更改Python中的目录并通过scrapy Spider提取.html文件名
我编写了一个蜘蛛,它会爬行名为 fid 的文件夹,并提取所有子文件夹的名称作为链接。现在的问题是,每个子文件夹里面都有一个 html 页面,我想提取所有这些 html 文件的名称并添加到当前的“start_urls”,这样我就可以从所有这些 html 中抓取所需的信息页。我已经尝试过:
os.listdir()
glob.glob()
但这些都不起作用。请帮我解决这个问题。
I have written a spider that crawls through a folder named fid and extracts the names of all the sub-folders as a link. Now the problem is that each of these sub-folders have an html page inside them and i want to extract the names of all these html files and add to the current "start_urls", so that i can scrape out required information from all these html pages. I have tried:
os.listdir()
glob.glob()
but none of these worked. Please help me with this.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
一种 stdlib 方法是将 os.walk 与 fnmatch 结合使用:
One stdlib approach is using
os.walk
in combination withfnmatch
: