如何给JTidy添加新标签?
我正在尝试使用 jTidy 从(现实世界)HTML 中提取数据。但是 jTidy 不解析自定义标签。
<html>
<body>
<myCustomTag>some text</myCustomTag>
<anotherCustom>more text</anotherCustom>
</body>
</html>
我无法获取自定义标签之间的文本。我必须使用 jTidy,因为我将使用 xpath。
我尝试了 HTMLCleaner,但它不支持完整的 xpath 功能。
I am trying to use jTidy for extract data from (real world)HTML.But jTidy doesnt parse custom tags.
<html>
<body>
<myCustomTag>some text</myCustomTag>
<anotherCustom>more text</anotherCustom>
</body>
</html>
I cant get texts between custom tags.I have to use jTidy because i ll use xpath.
I tried HTMLCleaner but it doesnt support full xpath functions.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
您还可以使用 Java Properties 对象设置属性,例如:
这将使您不必创建和加载配置文件。
You can also set the properties using a Java Properties object, for example:
This should save you having to create and load a configuration file.
查看 http://tidy.sourceforge.net/docs/quickref.html #new-blocklevel-tags
快速而肮脏的方法是创建一个文件,我将我的文件命名为 jTidyTags 并调用:
之后它会抛出一个警告,说它不符合 W3C 标准,但谁在乎呢。这将让您解析该文件。
jTidyTags 的一个例子是:
希望这有帮助!
Check out http://tidy.sourceforge.net/docs/quickref.html#new-blocklevel-tags
The quick and dirty of it is to create a file, I named mine jTidyTags and call:
After that it will throw up a warning saying it isn't W3C compliant but who cares. That will let you parse the file.
An example of jTidyTags for you would be:
Hope this helps!