从 Windows 桌面应用程序使用 readability.js
我需要使用 readability.js 和 webbrowser 控件以编程方式获取网页的精简版本。 http://arc90labs-readability.googlecode.com/svn/trunk/js /readabi…
Android 中具有两个子文本节点的节点的 Xpath 表达式
我有一个示例 XML(Android 平台),我想知道获取文本节点的节点值的最简单、最有效的方法。 Unwanted textWANTED TEXT 我可以使用 XPath 2.0 轻松获…
从html文件中获取链接
我使用 htmlcleaner 来解析 HTML 文件。这是 html 文件的示例。 .......Name;...... 我在代码中使用此构造得到了单词 Name HtmlCleaner cleaner = new…
在 Java 中使用同级标签解析 HTML 内容(或)在两个之间查找内容标签
背景:我正在编写一个 Java 程序来遍历 HTML 文件,并将标签中除 或 之外的所有内容替换为 Lorem Ipsum 。我最初是用正则表达式来做到这一点的,只是…
从 HtmlCleaner 获取文本中经过清理的 HTML
我想查看从 HTMLCleaner 获得的清理后的 HTML。 我看到TagNode上有一个名为serialize的方法,但不知道如何使用它。 有人有它的示例代码吗? 谢谢 纳恩…
HttpUrlConnection 获取内容标题并获得“永久移动”
这是我用 Groovy 编写的代码,用于从 URL 中获取页面标题。然而,有些网站我得到了“永久移动”,我认为这是因为 301 重定向。我如何避免这种情况并让…
HtmlCleaner 如何处理网页中的 Iframe
我想了解 HtmlCleaner 在清理原始 html 以生成有效的 xml 输出时如何处理 Iframe。带有 iframe 的页面的一个示例是 此 eBay 产品页面。 当我打印此页…
HtmlCleaner 返回“???”解析非英语网站时
当我尝试解析 Google 或 Apple 与 HtmlCleaner 一切顺利。 但是当我尝试解析中文网站时,文本看起来像这样“???”。 是什么原因导致这个问题以及如何…
获取HTML页面文本中的特定单词
如果我有以下 HTML 页面, Hello world! Hello and Hello again this is an example 我想获取特定的单词,例如“hello”,并将其更改为“welcome”,…
网页抓取 java 初学者
Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …
使用什么库来构建 HTML 文档?
请有人推荐能够做与这些库相反的事情的库吗? HtmlCleaner、TagSoup、HtmlParser、HtmlUnit、jSoup、jTidy、nekoHtml、WebHarvest 或 Jericho。 我需…
HtmlCleaner 在 XPather 生成的某些 xpath 上失败
我正在使用 HtmlCleaner2.1 库来根据 html 评估 XPather 插件生成的 xpath,以从中抓取内容。但有时,HtmlCleaner 无法评估 xpath。 对于前 http://ww…
如何让HtmlCleaner处理空内容标签时不生成自闭合的标签?
1. 现在有一HTML片段: I Love OSChina.net nothing. 2. 使用 HtmlCleaner + XPath 获取到myclass标签内的内容: HtmlCleaner cleaner = new HtmlCle…
- 共 1 页
- 1