wget:如何抓取带有shop(#)字符的url
我发现 URL 中的 # 字符使 wget 的行为与我的预期不同。本质上,# 之前的 url 字符串将被保留,# 中的子字符串将被丢弃。我猜这是因为 # 是页内导航链接?但显然某些网站似乎将其用作“?” (url 参数的开头)。有什么解决方案可以使用 wget 解决这个问题吗?我尝试了curl但没有成功。
I found that # character in URL makes wget behaving differently from my expectation. Essentially url string up to # will be kept and the substring from # will be discarded. I guess that's because # is in-page navigation link? But obviously certain sites seems to be using it as "?" (beginning of url parameters). Any solution to work this around with wget? I tried curl but no luck.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
不确定这是否对您有帮助,但我假设您正在为 ajax 使用主题标签 (#)。如果是这种情况,使用 wget 就没有意义,因为它将无法执行 JavaScript。因此,通常使用 JavaScript 生成的任何内容都会丢失。
如果您想下载网页内容并执行 JavaScript,那么您需要所谓的“无头浏览器”。查看这些:
htmlunit
phantomjs
zombiejs
Not sure if this will help you, but I am presuming that you are using the hashtag (#) for ajax. If that is the case, using wget is pointless because it will not be able to execute the JavaScript. So if any content that is normally been generated with JavaScript will be missing.
If you want to download the contents of a webpage, with the JavaScript executed, then you need what is called a 'headless browser'. Check these out:
htmlunit
phantomjs
zombiejs