当前位置：文江博客话题详情

使用 htmlagilitypack 如何确定 URI 是否为文件

发布于 2024-12-10 04:42:14 字数 488 浏览 4 评论 0原文

例如，对于此网址，它不会将其显示为文件

http ://www.darty.com.tr/e_commerce/ximg/yeniyil/darty%20garanty%20brosur.pdf

但它是一个pdf文件。所以我想要的只是确定所有无法抓取的网址，例如 pdf 或 doc 或 docx 等。我如何使用 c# 4.0 和 htmlagilitypack 做到这一点？

谢谢。

无法识别为文件： http://img695.imageshack.us/img695/61/notshowasfile .png

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

司马昭之心 2024-12-17 04:42:14

Uri 是基础 .NET Framework 的一部分 - 这与 HTML Agility Pack 无关。

这也与它是 PDF 无关。 Uri.IsFile 说：

当Scheme 属性等于UriSchemeFile 时，IsFile 属性为true。

换句话说，IsFile 回答了这个问题：“这是一个 文件吗： // URI"?由于这是一个 http:// URI，所以答案是否定的。

您似乎将 URL 与内容混淆了。 Uri 只是一个奇特的字符串；它的工作是成为一个URI，而不是访问服务器并询问有关该URL的内容的问题。 “这是我知道如何抓取的文件类型吗？”通过查看 URL 无法回答； http://example.com/articles/123 可以是网页、PDF、文本文件、JPEG 或上千种其他内容中的任何一个。您必须向服务器发出 GET 或 HEAD 请求，并查看返回的 Content-Type，才能了解该 URL 代表的内容类型。