从 Javascript HREFS 获取文档

发布于 2024-08-25 18:03:45 字数 308 浏览 4 评论 0原文

我目前正在设计一个专注的网络爬虫。我在一些网站上对其进行了测试,直到遇到下面的锚点(“):

href="javascript: openDocument('DATA//PCP200803.pdf');"

我的 html 解析例程结果为

javascript: openDocument('DATA//PCP200803.pdf');

有人知道如何下载参考文档吗?

多谢。

I am currently designing a focused webcrawler. I have it tested with some websites until i encountered below anchor ("the <a href="...">):

href="javascript: openDocument('DATA//PCP200803.pdf');"

My html parsing routine results to

javascript: openDocument('DATA//PCP200803.pdf');

Does anyone have any idea on how to download the referenced document?

Thanks a lot.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

夏天碎花小短裙 2024-09-01 18:03:45

对于 openDocument() 命令,您只需将“DATA/PCP200803.pdf”添加到其他资源集合中即可获取/抓取,就像页面中的任何其他超链接一样。

但其他 JavaScript 方法(例如,XMLHttpRequest 的 open())可能不那么简单。

In the case of the openDocument() command, you could just add "DATA/PCP200803.pdf" to your collection of other resources to fetch/crawl, same as any other hyperlink in the page.

Other JavaScript methods, though, (e.g., XMLHttpRequest's open()) may not be as straightforward.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文