具有 JavaScript 功能的命令行 URL 获取
我在php中使用curl,在python中使用httplib2来获取URL。
但是,有些页面在加载页面后使用 JavaScript (AJAX) 检索数据,然后它们只是覆盖页面的特定部分。
那么,有没有可以处理 JavaScript 的命令行实用程序呢?
要了解我的意思,请访问 Monster.com 并尝试寻找工作。
您将看到 Ajax 之后会获取作业列表。 因此,如果我想根据关键字搜索拉入职位,我会得到没有职位的页面。
但通过浏览器它可以工作。
I use curl, in php and httplib2 in python to fetch URL.
However, there are some pages that use JavaScript (AJAX) to retrieve the data after you have loaded the page and they just overwrite a specific section of the page afterward.
So, is there any command line utility that can handle JavaScript?
To know what I mean go to: monster.com and try searching for a job.
You'll see that the Ajax is getting the list of jobs afterward. So, if I wanted to pull in the jobs based on my keyword search, I would get the page with no jobs.
But via browser it works.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(6)
你可以使用 PhantomJS
http://phantomjs.org
您可以按如下方式使用它:
you can use PhantomJS
http://phantomjs.org
You can use it as below :
获取 FireBug 并查看该 Ajax 请求的 URL。 然后您可以将curl 与该URL 一起使用。
Get FireBug and see the URL for that Ajax request. You may then use curl with that URL.
有两种方法可以处理这个问题。 使用基于浏览器的完整客户端(例如 Webkit)编写屏幕抓取工具,或者转到实际页面并了解 AJAX 的内容请求就是做,并且直接请求。 当然,您还需要解析结果。 使用 firebug 来帮助你。
查看这篇文章以获取有关该主题的更多信息。 赞成的答案建议使用测试工具来驱动真正的浏览器。
什么是支持 Javascript 的屏幕抓取好工具?
There are 2 ways to handle this. Write your screen scraper using a full browser based client like Webkit, or go to the actual page and find out what the AJAX requesting is doing and do request that directly. You then need to parse the results of course. Use firebug to help you out.
Check out this post for more info on the subject. The upvoted answer suggests using a test tool to drive a real browser.
What's a good tool to screen-scrape with Javascript support?
我认为 env.js 可以处理
元素。 它在 Rhino JavaScript 解释器 中运行,并拥有自己的 XMLHttpRequest 对象,因此您应该能够如果它不会自动运行脚本,则至少要手动运行脚本(选择所有
标记,获取 .js 文件,然后调用
eval
)。 但运行您不信任的脚本时要小心,因为它们可以使用任何 Java 类。自从 John Resig 的第一个版本以来我就没有玩过它,所以我不太了解如何使用它,但是有一个 Google 网上论坛上的讨论组。
I think env.js can handle
<script>
elements. It runs in the Rhino JavaScript interpreter and has it's own XMLHttpRequest object, so you should be able to at least run the scripts manually (select all the<script>
tags, get the .js file, and calleval
) if it doesn't automatically run them. Be careful about running scripts you don't trust though, since they can use any Java classes.I haven't played with it since John Resig's first version, so I don't know much about how to use it, but there's a discussion group on Google Groups.
也许您可以尝试在自己的实用程序中使用 HtmlUnit 的功能?
Maybe you could try and use features of HtmlUnit in your own utility?
使用 LiveHttpHeaders(一个 Firefox 插件)查看所有 URL 详细信息,然后将 cURL 与该 url 结合使用。
LiveHttpHeaders 显示所有信息,例如方法类型(post 或 get)和标头正文等。
它还在标头中显示发布或获取参数
我想这可能对你有帮助。
Use LiveHttpHeaders a plug in for Firefox to see all URL details and then use the cURL with that url.
LiveHttpHeaders shows all information like type of method(post or get) and headers body etc.
it also show post or get parameters in headers
i think this may help you.