当前位置：文江博客话题详情

用于响应的 HTML 解析器 - Java

发布于 2024-12-26 07:26:05 字数 110 浏览 2 评论 0原文

我使用 HttpClient 访问特定网站，得到的响应是 HTML 形式。我应该使用哪个解析器或方法来解析 HTML 并从响应中获取我想要的内容。注意：我将 HttpClient 与 Java 一起使用

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

葮薆情 2025-01-02 07:26:06

使用 jsoup。

jsoup 是一个用于处理实际 HTML 的 Java 库。它
提供了非常方便的API来提取和操作数据，
使用最好的 DOM、CSS 和类似 jquery 的方法。
jsoup 实现 WHATWG HTML5 规范，并将 HTML 解析为
与现代浏览器相同的 DOM。
从 URL、文件或字符串中抓取并解析 HTML
使用 DOM 遍历或 CSS 选择器查找和提取数据
操作 HTML 元素、属性和文本
根据安全白名单清理用户提交的内容，以防止 XSS 攻击
输出整洁的 HTML
jsoup 旨在处理各种 HTML
荒野;从原始和验证，到无效的标签汤； jsoup 会
创建一个合理的解析树。

回复收藏 0 原文

浅暮の光 2025-01-02 07:26:06

我会尝试 htmlcleaner 。

HTMLCleaner 是一个 Java 库，用于安全地解析 Web 上的任何 HTML 并将其转换为格式良好的 XML。它被设计为小型、快速、灵活和独立。 HtmlCleaner 可以在 java 代码中作为命令行工具或 Ant 任务使用。解析的结果是轻量级文档对象模型，可以轻松转换为 DOM 或 JDom 等标准，或以各种方式序列化为 XML 输出（紧凑、漂亮的打印等）。

您可以将 XPath 与 htmlcleaner 一起使用来获取 xml/html 标记内的内容。这是一个不错的
示例 Xpath 示例< /a>

回复收藏 0 原文

信仰 2025-01-02 07:26:06

使用 jsoup 和 Java8 的示例代码：

// Imports:
...
import java.nio.charset.StandardCharsets;
import org.apache.commons.io.IOUtils;
...

// Execute the GET request:
...
HttpClient clientGet = HttpClientBuilder.create().build();
HttpGet get = new HttpGet(url);
HttpResponse res = clientGet.execute(get);

// Use jsoup to parse the html response:
// E.g. find all links with reference to myapp:
//  <a href="myapp">HelloWorldApp</a>
Document doc = Jsoup.parse(IOUtils.toString(res.getEntity().getContent(), StandardCharsets.UTF_8));
Elements links = doc.select("a[href~=myapp]");
for (Element link : links)
    String appName = link.html();
...

Sample code with jsoup and Java8:

// Imports:
...
import java.nio.charset.StandardCharsets;
import org.apache.commons.io.IOUtils;
...

// Execute the GET request:
...
HttpClient clientGet = HttpClientBuilder.create().build();
HttpGet get = new HttpGet(url);
HttpResponse res = clientGet.execute(get);

// Use jsoup to parse the html response:
// E.g. find all links with reference to myapp:
//  <a href="myapp">HelloWorldApp</a>
Document doc = Jsoup.parse(IOUtils.toString(res.getEntity().getContent(), StandardCharsets.UTF_8));
Elements links = doc.select("a[href~=myapp]");
for (Element link : links)
    String appName = link.html();
...

回复收藏 0 原文

~没有更多了~