wget:如何抓取带有shop(#)字符的url

发布于 2024-12-12 06:13:50 字数 160 浏览 0 评论 0原文

我发现 URL 中的 # 字符使 wget 的行为与我的预期不同。本质上,# 之前的 url 字符串将被保留,# 中的子字符串将被丢弃。我猜这是因为 # 是页内导航链接?但显然某些网站似乎将其用作“?” (url 参数的开头)。有什么解决方案可以使用 wget 解决这个问题吗?我尝试了curl但没有成功。

I found that # character in URL makes wget behaving differently from my expectation. Essentially url string up to # will be kept and the substring from # will be discarded. I guess that's because # is in-page navigation link? But obviously certain sites seems to be using it as "?" (beginning of url parameters). Any solution to work this around with wget? I tried curl but no luck.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

不交电费瞎发啥光 2024-12-19 06:13:50

不确定这是否对您有帮助,但我假设您正在为 ajax 使用主题标签 (#)。如果是这种情况,使用 wget 就没有意义,因为它将无法执行 JavaScript。因此,通常使用 JavaScript 生成的任何内容都会丢失。

如果您想下载网页内容并执行 JavaScript,那么您需要所谓的“无头浏览器”。查看这些:

htmlunit

phantomjs

zombiejs

Not sure if this will help you, but I am presuming that you are using the hashtag (#) for ajax. If that is the case, using wget is pointless because it will not be able to execute the JavaScript. So if any content that is normally been generated with JavaScript will be missing.

If you want to download the contents of a webpage, with the JavaScript executed, then you need what is called a 'headless browser'. Check these out:

htmlunit

phantomjs

zombiejs

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文