停用词中如何添加回车、换行、制表符等?

发布于 2021-11-26 05:32:52 字数 159 浏览 817 评论 8

@狮子的魂 你好,想跟你请教个问题:在 jcseg 停用词库中,如何添加回车(r)、换行(n)、制表符(t)等特殊字符呢?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(8

成熟的代价 2021-11-27 04:26:04

我也遇到了相同的问题 请问这个问题您解决了吗?

疾风者 2021-11-27 04:24:16

java.io.IOException: Pushback buffer overflow

        at java.io.PushbackReader.unread(PushbackReader.java:138)

        at org.lionsoul.jcseg.ASegment.pushBack(ASegment.java:94)

        at org.lionsoul.jcseg.ASegment.nextBasicLatin(ASegment.java:1205)

        at org.lionsoul.jcseg.ASegment.next(ASegment.java:488)

帮看看这是什么情况,数据量大的时候报错

葬花如无物 2021-11-27 04:23:12

顺便说一下,我这里用 https 下载不了文件,不知道别人是不是也这样。每次,我都得把链接改成 http 的下载。

刘备忘录 2021-11-27 04:22:55

回复
google code访问一直受限制. 后期会移到其他地方的. 你也可以到git@osc下载. 不过需要自己ant一下...

晚风撩人 2021-11-27 04:08:47

顺便提醒一下, jcseg-1.9.1里面的词库以及前面发布的完整词库因为词库转换工具的bug, 有些格式不错. 新版本的词库已经上传到google code, 请下载新上传的jcseg-1.9.1或者完整词库....

坐在坟头思考人生 2021-11-26 22:22:30

哦,我就是希望这些过滤掉,我还奇怪为什么会保留这些内容。原来是这个参数控制的。我也不太清楚这个参数是干什么用的,不过给的代码里这个参数默认是1的。 谢谢

深巷少女 2021-11-26 10:36:21

回复
默认是过滤掉的. 不过在你的应用建议将jcseg.keepuregword=0, 也就是过滤掉不识别的词条, 这些词条都是没有用的...

刘备忘录 2021-11-26 06:41:03

考虑到绝大部分的应用中, 这些东西都是多余的. 

恩, 这些符号自动过滤了.   如果需要保留这些字符可以设置jcseg.keepunregword=1

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文