如何在 Java 中使用 HTML 解析器和 Apache Tika 来提取所有 HTML 标签?
我下载了 tika-core 和 tika-parser 库,但找不到将 HTML 文档解析为字符串的示例代码。我必须删除网页源的所有 html 标签。我能做些什么?如何使用 Apache Tika 进行编码?
I download tika-core and tika-parser libraries, but I could not find the example codes to parse HTML documents to string. I have to get rid of all html tags of source of a web page. What can I do? How do I code that using Apache Tika?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
您想要 html 文件的纯文本版本吗?如果是这样,您所需要的只是:
BodyContentHandler 在创建时没有构造函数参数或有字符限制,将捕获(仅)html 正文的文本并将其返回给您。
Do you want a plain text version of a html file? If so, all you need is something like:
The BodyContentHandler, when created with no constructor arguments or with a character limit, will capture the text (only) of the body of the html and return it to you.
您还可以使用 Tika AutoDetectParser 来解析任何类型的文件,例如 HTML。
这是一个简单的例子:
You can also you Tika AutoDetectParser to parse any type of files such as HTML.
Here is a simple example of that: