如何给JTidy添加新标签?

发布于 2024-12-28 18:34:56 字数 345 浏览 0 评论 0原文

我正在尝试使用 jTidy 从(现实世界)HTML 中提取数据。但是 jTidy 不解析自定义标签。

<html>
  <body>
    <myCustomTag>some text</myCustomTag>
    <anotherCustom>more text</anotherCustom>
  </body>
</html>

我无法获取自定义标签之间的文本。我必须使用 jTidy,因为我将使用 xpath。

我尝试了 HTMLCleaner,但它不支持完整的 xpath 功能。

I am trying to use jTidy for extract data from (real world)HTML.But jTidy doesnt parse custom tags.

<html>
  <body>
    <myCustomTag>some text</myCustomTag>
    <anotherCustom>more text</anotherCustom>
  </body>
</html>

I cant get texts between custom tags.I have to use jTidy because i ll use xpath.

I tried HTMLCleaner but it doesnt support full xpath functions.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

黒涩兲箜 2025-01-04 18:34:56

您还可以使用 Java Properties 对象设置属性,例如:

import java.util.Properties;
Properties oProps = new Properties();
oProps.setProperty("new-blocklevel-tags", "header hgroup article footer nav");

Tidy tidy = new Tidy();
tidy.setConfigurationFromProps(oProps);

这将使您不必创建和加载配置文件。

You can also set the properties using a Java Properties object, for example:

import java.util.Properties;
Properties oProps = new Properties();
oProps.setProperty("new-blocklevel-tags", "header hgroup article footer nav");

Tidy tidy = new Tidy();
tidy.setConfigurationFromProps(oProps);

This should save you having to create and load a configuration file.

追风人 2025-01-04 18:34:56

查看 http://tidy.sourceforge.net/docs/quickref.html #new-blocklevel-tags

快速而肮脏的方法是创建一个文件,我将我的文件命名为 jTidyTags 并调用:

Tidy tidy = new Tidy();
tidy.setConfigurationFromFile("jTidyTags");

之后它会抛出一个警告,说它不符合 W3C 标准,但谁在乎呢。这将让您解析该文件。

jTidyTags 的一个例子是:

new-blocklevel-tags: myCustomTag anotherCustom

希望这有帮助!

Check out http://tidy.sourceforge.net/docs/quickref.html#new-blocklevel-tags

The quick and dirty of it is to create a file, I named mine jTidyTags and call:

Tidy tidy = new Tidy();
tidy.setConfigurationFromFile("jTidyTags");

After that it will throw up a warning saying it isn't W3C compliant but who cares. That will let you parse the file.

An example of jTidyTags for you would be:

new-blocklevel-tags: myCustomTag anotherCustom

Hope this helps!

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文