使用 jsoup 转义不允许的标签
我正在评估 jsoup 的功能,该功能可以清理(但不会删除!)非白名单标签。假设只允许使用 标签,因此以下输入 foo bar baz 必须产生以下结果: foo ba…
使用 JavaScript 整洁的 HTML 输出
我有一大块 HTML。为了使其适合特定容器,我将 HTML(不仅仅是文本)裁剪为 200 个字符。显然,在这种情况下,某些标签将保持未关闭状态。除了自己编…
在java中从文档中删除html标签的最快方法是什么?
我有一堆网页文档,想从中删除 html 标签。我在 StackOverflow 上看到了一些关于如何使用 java 的帖子,从正则表达式到 HtmlCleaner 和 Jsoup。 我有…
从 Windows 桌面应用程序使用 readability.js
我需要使用 readability.js 和 webbrowser 控件以编程方式获取网页的精简版本。 http://arc90labs-readability.googlecode.com/svn/trunk/js /readabi…
Android 中具有两个子文本节点的节点的 Xpath 表达式
我有一个示例 XML(Android 平台),我想知道获取文本节点的节点值的最简单、最有效的方法。 Unwanted textWANTED TEXT 我可以使用 XPath 2.0 轻松获…
从html文件中获取链接
我使用 htmlcleaner 来解析 HTML 文件。这是 html 文件的示例。 .......Name;...... 我在代码中使用此构造得到了单词 Name HtmlCleaner cleaner = new…
在 Java 中使用同级标签解析 HTML 内容(或)在两个之间查找内容标签
背景:我正在编写一个 Java 程序来遍历 HTML 文件,并将标签中除 或 之外的所有内容替换为 Lorem Ipsum 。我最初是用正则表达式来做到这一点的,只是…
从 HtmlCleaner 获取文本中经过清理的 HTML
我想查看从 HTMLCleaner 获得的清理后的 HTML。 我看到TagNode上有一个名为serialize的方法,但不知道如何使用它。 有人有它的示例代码吗? 谢谢 纳恩…
HttpUrlConnection 获取内容标题并获得“永久移动”
这是我用 Groovy 编写的代码,用于从 URL 中获取页面标题。然而,有些网站我得到了“永久移动”,我认为这是因为 301 重定向。我如何避免这种情况并让…
HtmlCleaner 如何处理网页中的 Iframe
我想了解 HtmlCleaner 在清理原始 html 以生成有效的 xml 输出时如何处理 Iframe。带有 iframe 的页面的一个示例是 此 eBay 产品页面。 当我打印此页…
HtmlCleaner 返回“???”解析非英语网站时
当我尝试解析 Google 或 Apple 与 HtmlCleaner 一切顺利。 但是当我尝试解析中文网站时,文本看起来像这样“???”。 是什么原因导致这个问题以及如何…
获取HTML页面文本中的特定单词
如果我有以下 HTML 页面, Hello world! Hello and Hello again this is an example 我想获取特定的单词,例如“hello”,并将其更改为“welcome”,…
网页抓取 java 初学者
Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …
使用什么库来构建 HTML 文档?
请有人推荐能够做与这些库相反的事情的库吗? HtmlCleaner、TagSoup、HtmlParser、HtmlUnit、jSoup、jTidy、nekoHtml、WebHarvest 或 Jericho。 我需…
HtmlCleaner 在 XPather 生成的某些 xpath 上失败
我正在使用 HtmlCleaner2.1 库来根据 html 评估 XPather 插件生成的 xpath,以从中抓取内容。但有时,HtmlCleaner 无法评估 xpath。 对于前 http://ww…