当前位置：文江博客话题详情

IKAnalyzer分词时能保留原文中的所有字符，包括标点符号吗

发布于 2021-11-29 16:29:56 字数 69 浏览 878 评论 6

我查看了一下IK的文档示例，在中文分词后的结果中原字符串中的标点符号都被忽略掉了，有没有办法保留原字符串中的所有字符，只是做分割的动作呢？

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

成熟的代价 2021-11-30 20:51:19

明白怎么保留标点了。在类CharacterUtil的identifyCharType方法里面，让标点判断成目前已知的中文字符UTF-8集合（CHAR_CHINESE）就能保留下来。默认把标点判断成了CHAR_USELESS

回复收藏 0

策马西风 2021-11-30 20:27:37

我只想要分词的功能，并且保持原文的完整性，并不是为搜索而做的，如果IK不适合的话，是否有其他开源的软件更适合做分词呢

回复收藏 0

谢绝鈎搭 2021-11-30 19:58:40

那就自己实现

回复收藏 0

私藏温柔 2021-11-30 19:46:27

我只想要分词的功能，并且保持原文的完整性，并不是为搜索而做的，如果IK不适合的话，是否有其他开源的软件更适合做分词呢

回复收藏 0

裸钻 2021-11-30 18:51:13

我也遇到啦，不是指单一的留着问号，你搜“我们！”，怎么搜？搜“我们”这个能搜出来，但你搜“我们！”就没结果了。。。。

回复收藏 0

谢绝鈎搭 2021-11-29 18:09:53

问题是留着干嘛呢，然后搜索个逗也能出来一堆文档？

回复收藏 0

~没有更多了~

关于作者

成熟的代价

暂无简介

0 文章

0 评论

375 人气

关注发私信

離殇

文章 0 评论 0

关注

小姐丶请自重

文章 0 评论 0

关注

Aik

文章 0 评论 0

关注

国产ˉ祖宗

文章 0 评论 0

关注

猥琐帝

文章 0 评论 0

关注

半仙

文章 0 评论 0

友情链接

文江博客

IKAnalyzer分词时能保留原文中的所有字符，包括标点符号吗

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

关于作者

相关话题

热门标签

推荐作者

離殇

小姐丶请自重

Aik

国产ˉ祖宗

猥琐帝

半仙

友情链接

IKAnalyzer分词时能保留原文中的所有字符，包括标点符号吗

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

关于作者

相关话题

热门标签

推荐作者

離殇

小姐丶请自重

Aik

国产ˉ祖宗

猥琐帝

半仙

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。