IKAnalyzer分词时能保留原文中的所有字符,包括标点符号吗
我查看了一下IK的文档示例,在中文分词后的结果中原字符串中的标点符号都被忽略掉了,有没有办法保留原字符串中的所有字符,只是做分割的动作呢?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
我查看了一下IK的文档示例,在中文分词后的结果中原字符串中的标点符号都被忽略掉了,有没有办法保留原字符串中的所有字符,只是做分割的动作呢?
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(6)
明白怎么保留标点了。在类CharacterUtil的identifyCharType方法里面,让标点判断成目前已知的中文字符UTF-8集合(CHAR_CHINESE)就能保留下来。默认把标点判断成了CHAR_USELESS
我只想要分词的功能,并且保持原文的完整性,并不是为搜索而做的,如果IK不适合的话,是否有其他开源的软件更适合做分词呢
那就自己实现
我只想要分词的功能,并且保持原文的完整性,并不是为搜索而做的,如果IK不适合的话,是否有其他开源的软件更适合做分词呢
我也遇到啦,不是指单一的留着问号,你搜“我们!”,怎么搜?搜“我们”这个能搜出来,但你搜“我们!”就没结果了。。。。
问题是留着干嘛呢,然后搜索个逗也能出来一堆文档?