Android 上解析 HTML,主要性能问题
我需要解析大约 100 kB 的 HTML 数据,这只会在 Android 上导致巨大的性能问题。我尝试过内置的 XML 解析器和 JTidy。 内置的 XML 解析器给了我大约半…
格式错误的 XML/HTML 解析
我需要解析多个(读取大约 1600 个)HTML 页面,并从每个文件中提取以下标记的内容。 textarea name="line" cols="66" rows="5" class="textbox" id="…
如何使用 jtidy 和 xpath 提取数据
我必须从中提取 d 公司名称和面值 http://money.rediff.com/companies/20-microns-ltd/15110088 我注意到这个任务可以使用 xpath api 来完成。 因为这…
Java 中的漂亮打印(“仅缩进”)HTML 文档(无 JTidy)
我们使用 apaches Velocity 通用模板引擎生成 HTML 文件。生成的 HTML 有点难看,而且没有正确的缩进。 就我而言,我已将 HTML 存储在一个字符串中,…
Java 中标题文本的问题
我在java中使用Jtidy解析器来获取标题文本。 String titleText=null; try { titleText = doc.getElementsByTagName("title").item(0) .getFirstChild(…
jTidy - 漂亮的无头打印,标题标签
我正在尝试使用 jTidy 来漂亮地打印我拥有的 HTML 片段。到目前为止我已经做了以下事情。 protected String prettyPrintHTML(String rawHTML) { Tidy …
如何在java中设置文档对象的解析持续时间限制
我在java中使用Jtidy解析器。这是我的代码... URL url = new URL("www.yahoo.com"); HttpURLConnection conn = (HttpURLConnection) url.openConnecti…
如何去除java中Jtidy中的警告
我在java中使用Jtidy解析器。 URL url = new URL("www.yahoo.com"); HttpURLConnection conn = (HttpURLConnection) url.openConnection(); InputStre…
阅读时出现问题java中网页的标签
我正在使用 jtidy 解析器来解析网页。它正在工作,有点: InputStream in=new URL("http://www.medicinenet.com/alopecia_areata/article.htm").openS…
如何使用java从给定的url获取基本url
我正在尝试使用 java 获取基本 URL。我在代码中使用了 jtidy 解析器来获取标题。我使用 jtidy 正确获取了标题,但没有从给定 URL 获取基本 url。 我有…
如何通过在属性周围添加引号来清理用于 Java 解析的 XML 文件
我有一系列 xml 文件,看起来像这样: Some text here More text ... 我试图使用标准 DOM 方式解析 xml,但由于 P 的属性值没有用引号引起来,Java 抱…
XPath 如何从 html 文档中检索表格单元格的值
我有一个 html 文档,文档中的某处位于表格下方,我可以获取表格行和 java DOM 对象。我不清楚的是,当值是字符串并且是二进制资源时,如何提取表格单…
JTidy 和 XHTML 1.1:可能吗?
我需要将 HTML 转换为 XHTML 1.1。 我正在 Java 程序中执行此操作,因此我决定使用 JTidy。但是,如果您告诉 JTidy 将输出转换为 XHTML,您将得到 XHT…