ikanalyzer 分词如何保留完整html标签
ikanalyzer 分词的时候 比如这种:<p>发送佛挡杀佛第三方第三方的手</p><br/><br/>法国放松放松的辅导书
分出来会变成这样:p|发....br|...
就是标签会被去掉 < >这种符号
我工作中的需求是给文章中关键字添加关键字而已 如果按照ik的这种方式 会破坏文章的样式结构
请问该如何做?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(4)
一度绝望的我
就这样看到了曙光
难道是命运对我的考验
让我坚持到底
问题解决了 还是ik的 CharacterUtil类里 identifyCharType方法 默认把CHAR_USELESS改成返回 CHAR_CHINESE就不会有问题
问题是我已经改了还是有问题结果 我调试断点进去看了下 发下调试这么一跑完这个问题就没了,标点符号什么的也回来了 ,奇怪了 难道java有缓存?
没用过分析,但照你这个问题来看,个人觉得应该先去除html标签然后分词,分词后根据分词结果再去匹配关键字给他们添加关键字吧,个人拙见
自己顶一下