IKAnalyzer分词时能保留原文中的所有字符,包括标点符号吗

发布于 2021-11-29 16:29:56 字数 69 浏览 875 评论 6

我查看了一下IK的文档示例,在中文分词后的结果中原字符串中的标点符号都被忽略掉了,有没有办法保留原字符串中的所有字符,只是做分割的动作呢?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(6

成熟的代价 2021-11-30 20:51:19

明白怎么保留标点了。在类CharacterUtil的identifyCharType方法里面,让标点判断成目前已知的中文字符UTF-8集合(CHAR_CHINESE)就能保留下来。默认把标点判断成了CHAR_USELESS

策马西风 2021-11-30 20:27:37

我只想要分词的功能,并且保持原文的完整性,并不是为搜索而做的,如果IK不适合的话,是否有其他开源的软件更适合做分词呢

谢绝鈎搭 2021-11-30 19:58:40

那就自己实现

私藏温柔 2021-11-30 19:46:27

我只想要分词的功能,并且保持原文的完整性,并不是为搜索而做的,如果IK不适合的话,是否有其他开源的软件更适合做分词呢

裸钻 2021-11-30 18:51:13

我也遇到啦,不是指单一的留着问号,你搜“我们!”,怎么搜?搜“我们”这个能搜出来,但你搜“我们!”就没结果了。。。。

谢绝鈎搭 2021-11-29 18:09:53

问题是留着干嘛呢,然后搜索个逗也能出来一堆文档?

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文