在（任何）Java 程序中渲染 JavaScript 和 HTML（访问渲染的 DOM 树）？

发布于 2024-08-19 18:08:52 字数 601 浏览 4 评论 0原文

什么是最好的 Java 库来“完全下载任何网页并渲染内置 JavaScript，然后以编程方式访问渲染的网页（即 DOM 树！）并将 DOM 树作为“HTML 源” （

与 firebug 最后所做的类似，它渲染页面，并且我可以访问完全渲染的 DOM 树，就像页面在浏览器中的样子一样！相反，如果我单击“显示源代码”，我只会获得 JavaScript 不是我想要的。我需要访问渲染的页面...）

（渲染我的意思是仅渲染 DOM 树而不视觉渲染...）

源代码。这不必是一个单独的库，可以有多个库一起完成此任务（一个将下载，一个将渲染......），但由于 JavaScript 的动态特性，很可能 JavaScript 库也必须有一些一种完全渲染任何异步 JS 的下载器...

背景：
在“美好的过去”，HttpClient（Apache 库）是构建您自己的非常简单的爬虫程序所需的一切。（很多像Nutch或Heretrix这样的爬虫仍然围绕这个核心原则构建，主要关注标准HTML解析，所以我无法向他们学习）我的问题是，我需要抓取一些严重依赖 JavaScript 的网站，并且我无法使用 HttpClient 解析这些网站，因为我确实需要先执行 JavaScript...

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

桃扇骨 2024-08-26 18:08:52

您可以使用 JavaFX 2 WebEngine。下载 JavaFX SDK （如果您安装了 JDK7u2 或更高版本，则可能已经拥有它）并尝试下面的代码。

它将使用经过处理的 javascript 打印 html。
您也可以取消中间行的注释来查看渲染。

public class WebLauncher extends Application {

    @Override
    public void start(Stage stage) {
        final WebView webView = new WebView();
        final WebEngine webEngine = webView.getEngine();
        webEngine.load("http://stackoverflow.com");
        //stage.setScene(new Scene(webView));
        //stage.show();

        webEngine.getLoadWorker().workDoneProperty().addListener(new ChangeListener<Number>() {
            @Override
            public void changed(ObservableValue<? extends Number> observable, Number oldValue, Number newValue) {
                if (newValue.intValue() == 100 /*percents*/) {
                    try {
                        org.w3c.dom.Document doc = webEngine.getDocument();
                        new XMLSerializer(System.out, new OutputFormat(doc, "UTF-8", true)).serialize(doc);
                    } catch (IOException ex) { 
                        ex.printStackTrace();
                    }
                }
            }
        });

    }

    public static void main(String[] args) {
        launch();
    }

}

You can use JavaFX 2 WebEngine. Download JavaFX SDK (you may already have it if you installed JDK7u2 or later) and try code below.

It will print html with processed javascript.
You can uncomment lines in the middle to see rendering as well.

public class WebLauncher extends Application {

    @Override
    public void start(Stage stage) {
        final WebView webView = new WebView();
        final WebEngine webEngine = webView.getEngine();
        webEngine.load("http://stackoverflow.com");
        //stage.setScene(new Scene(webView));
        //stage.show();

        webEngine.getLoadWorker().workDoneProperty().addListener(new ChangeListener<Number>() {
            @Override
            public void changed(ObservableValue<? extends Number> observable, Number oldValue, Number newValue) {
                if (newValue.intValue() == 100 /*percents*/) {
                    try {
                        org.w3c.dom.Document doc = webEngine.getDocument();
                        new XMLSerializer(System.out, new OutputFormat(doc, "UTF-8", true)).serialize(doc);
                    } catch (IOException ex) { 
                        ex.printStackTrace();
                    }
                }
            }
        });

    }

    public static void main(String[] args) {
        launch();
    }

}

回复收藏 0 原文

全部不再 2024-08-26 18:08:52

这有点超出常规，但如果您计划在可以完全控制环境的服务器中运行代码，那么它可能会起作用...

安装 Firefox（或 XulRunner，如果您想保持轻量级）在你的机器上。

使用 Firefox 插件系统，编写一个小插件，加载给定的 URL，等待几秒钟，然后将页面的 DOM 复制到字符串中。

在此插件中，使用 Java LiveConnect API（请参阅 http://jdk6.java.net/plugin2/ liveconnect/ 和 https://developer.mozilla.org/en/LiveConnect ）将该字符串推送到某些嵌入式 Java 代码中的公共静态函数，该函数可以自行执行所需的处理，也可以将其外包给一些更复杂的代码。

优点：您使用的是大多数应用程序开发人员所针对的浏览器，因此观察到的行为应该具有可比性。您还可以按照正常的升级路径升级浏览器，这样您的库就不会随着 HTML 标准的变化而过时。

缺点：您需要拥有在服务器上启动非无头应用程序的权限。您还需要担心进程间通信的复杂性。

我之前用过插件API调用Java，还是蛮可以实现的。如果您想要一些示例代码，您应该看一下 XQuery 插件 - 它从 DOM 加载 XQuery 代码，将其传递到 Java Saxon 库进行处理，然后将结果推回浏览器。这里有一些关于它的详细信息：

https://developer.mozilla.org/en/XQuery