HtmlCleaner

投稿关注

文章 1 浏览 48

使用 jsoup 转义不允许的标签

我正在评估 jsoup 的功能，该功能可以清理（但不会删除！）非白名单标签。假设只允许使用标签，因此以下输入 foo bar baz 必须产生以下结果： foo ba…

靖瑶 2025-01-07 04:26:11 6 0

使用 JavaScript 整洁的 HTML 输出

我有一大块 HTML。为了使其适合特定容器，我将 HTML（不仅仅是文本）裁剪为 200 个字符。显然，在这种情况下，某些标签将保持未关闭状态。除了自己编…

暗恋未遂 2025-01-07 01:36:55 3 0

在java中从文档中删除html标签的最快方法是什么？

我有一堆网页文档，想从中删除 html 标签。我在 StackOverflow 上看到了一些关于如何使用 java 的帖子，从正则表达式到 HtmlCleaner 和 Jsoup。我有…

终止放荡 2024-12-24 19:53:26 5 0

从 Windows 桌面应用程序使用 readability.js

我需要使用 readability.js 和 webbrowser 控件以编程方式获取网页的精简版本。 http://arc90labs-readability.googlecode.com/svn/trunk/js /readabi…

南七夏 2024-12-06 05:56:29 7 0

Android 中具有两个子文本节点的节点的 Xpath 表达式

我有一个示例 XML（Android 平台），我想知道获取文本节点的节点值的最简单、最有效的方法。 Unwanted textWANTED TEXT 我可以使用 XPath 2.0 轻松获…

你对谁都笑 2024-12-06 02:17:29 4 0

从html文件中获取链接

我使用 htmlcleaner 来解析 HTML 文件。这是 html 文件的示例。 .......Name;...... 我在代码中使用此构造得到了单词 Name HtmlCleaner cleaner = new…

孤凫 2024-12-05 03:27:33 5 0

在 Java 中使用同级标签解析 HTML 内容（或）在两个之间查找内容标签

背景：我正在编写一个 Java 程序来遍历 HTML 文件，并将标签中除或之外的所有内容替换为 Lorem Ipsum 。我最初是用正则表达式来做到这一点的，只是…

指尖上的星空 2024-12-01 14:56:10 6 0

从 HtmlCleaner 获取文本中经过清理的 HTML

我想查看从 HTMLCleaner 获得的清理后的 HTML。我看到TagNode上有一个名为serialize的方法，但不知道如何使用它。有人有它的示例代码吗？谢谢纳恩…

∞梦里开花 2024-12-01 05:26:57 6 0

HttpUrlConnection 获取内容标题并获得“永久移动”

这是我用 Groovy 编写的代码，用于从 URL 中获取页面标题。然而，有些网站我得到了“永久移动”，我认为这是因为 301 重定向。我如何避免这种情况并让…

酸甜透明夹心 2024-11-29 21:49:36 9 0

HtmlCleaner 如何处理网页中的 Iframe

我想了解 HtmlCleaner 在清理原始 html 以生成有效的 xml 输出时如何处理 Iframe。带有 iframe 的页面的一个示例是此 eBay 产品页面。当我打印此页…

悲欢浪云 2024-11-27 15:23:56 5 0

HtmlCleaner 返回“???”解析非英语网站时

当我尝试解析 Google 或 Apple 与 HtmlCleaner 一切顺利。但是当我尝试解析中文网站时，文本看起来像这样“???”。是什么原因导致这个问题以及如何…

鹿港巷口少年归 2024-11-25 22:47:52 5 0

获取HTML页面文本中的特定单词

如果我有以下 HTML 页面， Hello world! Hello and Hello again this is an example 我想获取特定的单词，例如“hello”，并将其更改为“welcome”，…

云淡月浅 2024-11-19 01:53:43 9 0

网页抓取 java 初学者

Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …

转身以后 2024-11-16 20:50:54 9 0

使用什么库来构建 HTML 文档？

请有人推荐能够做与这些库相反的事情的库吗？ HtmlCleaner、TagSoup、HtmlParser、HtmlUnit、jSoup、jTidy、nekoHtml、WebHarvest 或 Jericho。我需…

落叶缤纷 2024-11-11 15:38:42 8 0

HtmlCleaner 在 XPather 生成的某些 xpath 上失败

我正在使用 HtmlCleaner2.1 库来根据 html 评估 XPather 插件生成的 xpath，以从中抓取内容。但有时，HtmlCleaner 无法评估 xpath。对于前 http://ww…

绿阴红影里的.如风往事 2024-10-08 19:05:48 7 0

共 2 页
1
2
下一页

友情链接

文江博客