具有 JavaScript 功能的命令行 URL 获取

发布于 2024-07-26 08:49:54 字数 285 浏览 5 评论 0原文

我在php中使用curl,在python中使用httplib2来获取URL。

但是,有些页面在加载页面后使用 JavaScript (AJAX) 检索数据,然后它们只是覆盖页面的特定部分。

那么,有没有可以处理 JavaScript 的命令行实用程序呢?

要了解我的意思,请访问 Monster.com 并尝试寻找工作。

您将看到 Ajax 之后会获取作业列表。 因此,如果我想根据关键字搜索拉入职位,我会得到没有职位的页面。

但通过浏览器它可以工作。

I use curl, in php and httplib2 in python to fetch URL.

However, there are some pages that use JavaScript (AJAX) to retrieve the data after you have loaded the page and they just overwrite a specific section of the page afterward.

So, is there any command line utility that can handle JavaScript?

To know what I mean go to: monster.com and try searching for a job.

You'll see that the Ajax is getting the list of jobs afterward. So, if I wanted to pull in the jobs based on my keyword search, I would get the page with no jobs.

But via browser it works.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(6

月亮邮递员 2024-08-02 08:49:54

你可以使用 PhantomJS
http://phantomjs.org

您可以按如下方式使用它:

var page=require("webpage");
page.open("http://monster.com",function(status){
  page.evaluate(function(){
    /* your javascript code here 
        $.ajax("....",function(result){


            phantom.exit(0);
           }); */
  });
});

you can use PhantomJS
http://phantomjs.org

You can use it as below :

var page=require("webpage");
page.open("http://monster.com",function(status){
  page.evaluate(function(){
    /* your javascript code here 
        $.ajax("....",function(result){


            phantom.exit(0);
           }); */
  });
});
听你说爱我 2024-08-02 08:49:54

获取 FireBug 并查看该 Ajax 请求的 URL。 然后您可以将curl 与该URL 一起使用。

Get FireBug and see the URL for that Ajax request. You may then use curl with that URL.

沙沙粒小 2024-08-02 08:49:54

有两种方法可以处理这个问题。 使用基于浏览器的完整客户端(例如 Webkit)编写屏幕抓取工具,或者转到实际页面并了解 AJAX 的内容请求就是做,并且直接请求。 当然,您还需要解析结果。 使用 firebug 来帮助你。

查看这篇文章以获取有关该主题的更多信息。 赞成的答案建议使用测试工具来驱动真正的浏览器。
什么是支持 Javascript 的屏幕抓取好工具?

There are 2 ways to handle this. Write your screen scraper using a full browser based client like Webkit, or go to the actual page and find out what the AJAX requesting is doing and do request that directly. You then need to parse the results of course. Use firebug to help you out.

Check out this post for more info on the subject. The upvoted answer suggests using a test tool to drive a real browser.
What's a good tool to screen-scrape with Javascript support?

GRAY°灰色天空 2024-08-02 08:49:54

我认为 env.js 可以处理

自从 John Resig 的第一个版本以来我就没有玩过它,所以我不太了解如何使用它,但是有一个 Google 网上论坛上的讨论组

I think env.js can handle <script> elements. It runs in the Rhino JavaScript interpreter and has it's own XMLHttpRequest object, so you should be able to at least run the scripts manually (select all the <script> tags, get the .js file, and call eval) if it doesn't automatically run them. Be careful about running scripts you don't trust though, since they can use any Java classes.

I haven't played with it since John Resig's first version, so I don't know much about how to use it, but there's a discussion group on Google Groups.

虫児飞 2024-08-02 08:49:54

也许您可以尝试在自己的实用程序中使用 HtmlUnit 的功能?

HtmlUnit 是一个“无 GUI 浏览器”
Java 程序”。它对 HTML 进行建模
文档并提供 API
允许您调用页面,填写
表格、点击链接等...就像
您可以在“普通”浏览器中执行此操作。

它有相当好的 JavaScript 支持
(不断改进)并且是
即使非常复杂也能工作
AJAX 库,模拟
Firefox 或 Internet Explorer,具体取决于
您要使用的配置。

通常用于测试
目的或检索信息
来自网站。

Maybe you could try and use features of HtmlUnit in your own utility?

HtmlUnit is a "GUI-Less browser for
Java programs". It models HTML
documents and provides an API that
allows you to invoke pages, fill out
forms, click links, etc... just like
you do in your "normal" browser.

It has fairly good JavaScript support
(which is constantly improving) and is
able to work even with quite complex
AJAX libraries, simulating either
Firefox or Internet Explorer depending
on the configuration you want to use.

It is typically used for testing
purposes or to retrieve information
from web sites.

陌若浮生 2024-08-02 08:49:54

使用 LiveHttpHeaders(一个 Firefox 插件)查看所有 URL 详细信息,然后将 cURL 与该 url 结合使用。
LiveHttpHeaders 显示所有信息,例如方法类型(post 或 get)和标头正文等。
它还在标头中显示发布或获取参数
我想这可能对你有帮助。

Use LiveHttpHeaders a plug in for Firefox to see all URL details and then use the cURL with that url.
LiveHttpHeaders shows all information like type of method(post or get) and headers body etc.
it also show post or get parameters in headers
i think this may help you.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文