HtmlCleaner

HtmlCleaner

文章 1 浏览 45

从 Windows 桌面应用程序使用 readability.js

我需要使用 readability.js 和 webbrowser 控件以编程方式获取网页的精简版本。 http://arc90labs-readability.googlecode.com/svn/trunk/js /readabi…

南七夏 2024-12-06 05:56:29 0 0

Android 中具有两个子文本节点的节点的 Xpath 表达式

我有一个示例 XML(Android 平台),我想知道获取文本节点的节点值的最简单、最有效的方法。 Unwanted textWANTED TEXT 我可以使用 XPath 2.0 轻松获…

你对谁都笑 2024-12-06 02:17:29 0 0

从html文件中获取链接

我使用 htmlcleaner 来解析 HTML 文件。这是 html 文件的示例。 .......Name;...... 我在代码中使用此构造得到了单词 Name HtmlCleaner cleaner = new…

孤凫 2024-12-05 03:27:33 0 0

在 Java 中使用同级标签解析 HTML 内容(或)在两个之间查找内容标签

背景:我正在编写一个 Java 程序来遍历 HTML 文件,并将标签中除 或 之外的所有内容替换为 Lorem Ipsum 。我最初是用正则表达式来做到这一点的,只是…

指尖上的星空 2024-12-01 14:56:10 1 0

从 HtmlCleaner 获取文本中经过清理的 HTML

我想查看从 HTMLCleaner 获得的清理后的 HTML。 我看到TagNode上有一个名为serialize的方法,但不知道如何使用它。 有人有它的示例代码吗? 谢谢 纳恩…

∞梦里开花 2024-12-01 05:26:57 1 0

HttpUrlConnection 获取内容标题并获得“永久移动”

这是我用 Groovy 编写的代码,用于从 URL 中获取页面标题。然而,有些网站我得到了“永久移动”,我认为这是因为 301 重定向。我如何避免这种情况并让…

酸甜透明夹心 2024-11-29 21:49:36 2 0

HtmlCleaner 如何处理网页中的 Iframe

我想了解 HtmlCleaner 在清理原始 html 以生成有效的 xml 输出时如何处理 Iframe。带有 iframe 的页面的一个示例是 此 eBay 产品页面。 当我打印此页…

悲欢浪云 2024-11-27 15:23:56 0 0

HtmlCleaner 返回“???”解析非英语网站时

当我尝试解析 Google 或 Apple 与 HtmlCleaner 一切顺利。 但是当我尝试解析中文网站时,文本看起来像这样“???”。 是什么原因导致这个问题以及如何…

鹿港巷口少年归 2024-11-25 22:47:52 0 0

获取HTML页面文本中的特定单词

如果我有以下 HTML 页面, Hello world! Hello and Hello again this is an example 我想获取特定的单词,例如“hello”,并将其更改为“welcome”,…

云淡月浅 2024-11-19 01:53:43 3 0

网页抓取 java 初学者

Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …

转身以后 2024-11-16 20:50:54 3 0

使用什么库来构建 HTML 文档?

请有人推荐能够做与这些库相反的事情的库吗? HtmlCleaner、TagSoup、HtmlParser、HtmlUnit、jSoup、jTidy、nekoHtml、WebHarvest 或 Jericho。 我需…

落叶缤纷 2024-11-11 15:38:42 3 0

HtmlCleaner 在 XPather 生成的某些 xpath 上失败

我正在使用 HtmlCleaner2.1 库来根据 html 评估 XPather 插件生成的 xpath,以从中抓取内容。但有时,HtmlCleaner 无法评估 xpath。 对于前 http://ww…

绿阴红影里的.如风往事 2024-10-08 19:05:48 3 0

如何让HtmlCleaner处理空内容标签时不生成自闭合的标签?

1. 现在有一HTML片段: I Love OSChina.net nothing. 2. 使用 HtmlCleaner + XPath 获取到myclass标签内的内容:  HtmlCleaner cleaner = new HtmlCle…

奢华的一滴泪 2021-11-16 15:48:31 758 0
更多

推荐作者

胡图图

文章 0 评论 0

zt006

文章 0 评论 0

z祗昰~

文章 0 评论 0

冰葑

文章 0 评论 0

野の

文章 0 评论 0

天空

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文