ikanalyzer 分词如何保留完整html标签

发布于 2021-11-27 09:46:59 字数 257 浏览 865 评论 4

ikanalyzer 分词的时候 比如这种:<p>发送佛挡杀佛第三方第三方的手</p><br/><br/>法国放松放松的辅导书

分出来会变成这样:p|发....br|...

就是标签会被去掉 < >这种符号

我工作中的需求是给文章中关键字添加关键字而已 如果按照ik的这种方式 会破坏文章的样式结构

请问该如何做? 


如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(4

倚栏听风 2021-11-29 06:30:10

 一度绝望的我

就这样看到了曙光

难道是命运对我的考验

让我坚持到底

无人问我粥可暖 2021-11-28 01:55:18

问题解决了 还是ik的 CharacterUtil类里 identifyCharType方法 默认把CHAR_USELESS改成返回 CHAR_CHINESE就不会有问题

问题是我已经改了还是有问题结果 我调试断点进去看了下 发下调试这么一跑完这个问题就没了,标点符号什么的也回来了 ,奇怪了 难道java有缓存?

檐上三寸雪 2021-11-27 19:26:08

没用过分析,但照你这个问题来看,个人觉得应该先去除html标签然后分词,分词后根据分词结果再去匹配关键字给他们添加关键字吧,个人拙见

滥情空心 2021-11-27 11:50:28

自己顶一下

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文