从 Javascript HREFS 获取文档
我目前正在设计一个专注的网络爬虫。我在一些网站上对其进行了测试,直到遇到下面的锚点(“):
href="javascript: openDocument('DATA//PCP200803.pdf');"
我的 html 解析例程结果为
javascript: openDocument('DATA//PCP200803.pdf');
有人知道如何下载参考文档吗?
多谢。
I am currently designing a focused webcrawler. I have it tested with some websites until i encountered below anchor ("the <a href="...">):
href="javascript: openDocument('DATA//PCP200803.pdf');"
My html parsing routine results to
javascript: openDocument('DATA//PCP200803.pdf');
Does anyone have any idea on how to download the referenced document?
Thanks a lot.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
对于
openDocument()
命令,您只需将“DATA/PCP200803.pdf”添加到其他资源集合中即可获取/抓取,就像页面中的任何其他超链接一样。但其他 JavaScript 方法(例如,XMLHttpRequest 的
open()
)可能不那么简单。In the case of the
openDocument()
command, you could just add "DATA/PCP200803.pdf" to your collection of other resources to fetch/crawl, same as any other hyperlink in the page.Other JavaScript methods, though, (e.g., XMLHttpRequest's
open()
) may not be as straightforward.