当前位置：文江博客话题详情

.NET webserver web-crawler

当目录列表被停用时，有没有办法从网络服务器获取文件？

发布于 2024-11-18 09:59:47 字数 224 浏览 4 评论 0原文

我尝试为每个基于网络服务器/网页的文件构建一个“爬虫”或“自动下载器”。

所以我认为有两种方法：

1）启用目录列表。很简单，读出列表中的数据并下载您看到的每个文件。

2) 目录列表被禁用。然后呢？唯一的想法是必须暴力破解文件名并查看服务器的反应（例如：404 表示没有文件，403 表示找到的目录，data 表示正确找到的数据）。

我的想法对吗？有更好的办法吗？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

冰之心 2024-11-25 09:59:48

您始终可以解析 HTML 并查看并跟踪（“抓取”）您获得的链接。这是大多数爬虫的实现方式。

查看这些可以帮助您做到这一点的库：

始终查找 robots.txt在网站的根目录中，并确保您遵守网站关于允许抓取哪些页面的规则。

回复收藏 0 原文

维持三分热 2024-11-25 09:59:48

您不应该为网站站长阻止您索引的页面建立索引。

这就是 Robots.txt 的全部内容。

您应该检查 SiteMap 文件，该文件在每个文件夹中的此处中有描述

它通常是 sitemap.xml 或者有时它的名称在 Robots.txt 中提到

回复收藏 0 原文

~没有更多了~

关于作者

还不是爱你

暂无简介

0 文章

0 评论

23 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

Gabu-gabumon

文章 0 评论 0

qq_CgiN62

文章 0 评论 0

荔枝明

文章 0 评论 0

赏烟花じ飞满天

文章 0 评论 0

独守阴晴ぅ圆缺

文章 0 评论 0

¤→小豸慧

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文