HtmlCleaner

HtmlCleaner

文章 1 浏览 48

使用 jsoup 转义不允许的标签

我正在评估 jsoup 的功能,该功能可以清理(但不会删除!)非白名单标签。假设只允许使用 标签,因此以下输入 foo bar baz 必须产生以下结果: foo ba…

靖瑶 2025-01-07 04:26:11 6 0

使用 JavaScript 整洁的 HTML 输出

我有一大块 HTML。为了使其适合特定容器,我将 HTML(不仅仅是文本)裁剪为 200 个字符。显然,在这种情况下,某些标签将保持未关闭状态。除了自己编…

暗恋未遂 2025-01-07 01:36:55 3 0

在java中从文档中删除html标签的最快方法是什么?

我有一堆网页文档,想从中删除 html 标签。我在 StackOverflow 上看到了一些关于如何使用 java 的帖子,从正则表达式到 HtmlCleaner 和 Jsoup。 我有…

终止放荡 2024-12-24 19:53:26 5 0

从 Windows 桌面应用程序使用 readability.js

我需要使用 readability.js 和 webbrowser 控件以编程方式获取网页的精简版本。 http://arc90labs-readability.googlecode.com/svn/trunk/js /readabi…

南七夏 2024-12-06 05:56:29 7 0

Android 中具有两个子文本节点的节点的 Xpath 表达式

我有一个示例 XML(Android 平台),我想知道获取文本节点的节点值的最简单、最有效的方法。 Unwanted textWANTED TEXT 我可以使用 XPath 2.0 轻松获…

你对谁都笑 2024-12-06 02:17:29 4 0

从html文件中获取链接

我使用 htmlcleaner 来解析 HTML 文件。这是 html 文件的示例。 .......Name;...... 我在代码中使用此构造得到了单词 Name HtmlCleaner cleaner = new…

孤凫 2024-12-05 03:27:33 5 0

在 Java 中使用同级标签解析 HTML 内容(或)在两个之间查找内容标签

背景:我正在编写一个 Java 程序来遍历 HTML 文件,并将标签中除 或 之外的所有内容替换为 Lorem Ipsum 。我最初是用正则表达式来做到这一点的,只是…

指尖上的星空 2024-12-01 14:56:10 6 0

从 HtmlCleaner 获取文本中经过清理的 HTML

我想查看从 HTMLCleaner 获得的清理后的 HTML。 我看到TagNode上有一个名为serialize的方法,但不知道如何使用它。 有人有它的示例代码吗? 谢谢 纳恩…

∞梦里开花 2024-12-01 05:26:57 6 0

HttpUrlConnection 获取内容标题并获得“永久移动”

这是我用 Groovy 编写的代码,用于从 URL 中获取页面标题。然而,有些网站我得到了“永久移动”,我认为这是因为 301 重定向。我如何避免这种情况并让…

酸甜透明夹心 2024-11-29 21:49:36 9 0

HtmlCleaner 如何处理网页中的 Iframe

我想了解 HtmlCleaner 在清理原始 html 以生成有效的 xml 输出时如何处理 Iframe。带有 iframe 的页面的一个示例是 此 eBay 产品页面。 当我打印此页…

悲欢浪云 2024-11-27 15:23:56 5 0

HtmlCleaner 返回“???”解析非英语网站时

当我尝试解析 Google 或 Apple 与 HtmlCleaner 一切顺利。 但是当我尝试解析中文网站时,文本看起来像这样“???”。 是什么原因导致这个问题以及如何…

鹿港巷口少年归 2024-11-25 22:47:52 5 0

获取HTML页面文本中的特定单词

如果我有以下 HTML 页面, Hello world! Hello and Hello again this is an example 我想获取特定的单词,例如“hello”,并将其更改为“welcome”,…

云淡月浅 2024-11-19 01:53:43 9 0

网页抓取 java 初学者

Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …

转身以后 2024-11-16 20:50:54 9 0

使用什么库来构建 HTML 文档?

请有人推荐能够做与这些库相反的事情的库吗? HtmlCleaner、TagSoup、HtmlParser、HtmlUnit、jSoup、jTidy、nekoHtml、WebHarvest 或 Jericho。 我需…

落叶缤纷 2024-11-11 15:38:42 8 0

HtmlCleaner 在 XPather 生成的某些 xpath 上失败

我正在使用 HtmlCleaner2.1 库来根据 html 评估 XPather 插件生成的 xpath,以从中抓取内容。但有时,HtmlCleaner 无法评估 xpath。 对于前 http://ww…

绿阴红影里的.如风往事 2024-10-08 19:05:48 7 0
更多

推荐作者

alipaysp_snBf0MSZIv

文章 0 评论 0

梦断已成空

文章 0 评论 0

瞎闹

文章 0 评论 0

寄意

文章 0 评论 0

似梦非梦

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文