@狮子的魂 你好,想跟你请教个问题:在 jcseg 停用词库中,如何添加回车(r)、换行(n)、制表符(t)等特殊字符呢?
我也遇到了相同的问题 请问这个问题您解决了吗?
java.io.IOException: Pushback buffer overflow at java.io.PushbackReader.unread(PushbackReader.java:138) at org.lionsoul.jcseg.ASegment.pushBack(ASegment.java:94) at org.lionsoul.jcseg.ASegment.nextBasicLatin(ASegment.java:1205)
at org.lionsoul.jcseg.ASegment.next(ASegment.java:488)
帮看看这是什么情况,数据量大的时候报错
顺便说一下,我这里用 https 下载不了文件,不知道别人是不是也这样。每次,我都得把链接改成 http 的下载。
回复google code访问一直受限制. 后期会移到其他地方的. 你也可以到git@osc下载. 不过需要自己ant一下...
顺便提醒一下, jcseg-1.9.1里面的词库以及前面发布的完整词库因为词库转换工具的bug, 有些格式不错. 新版本的词库已经上传到google code, 请下载新上传的jcseg-1.9.1或者完整词库....
哦,我就是希望这些过滤掉,我还奇怪为什么会保留这些内容。原来是这个参数控制的。我也不太清楚这个参数是干什么用的,不过给的代码里这个参数默认是1的。 谢谢
回复默认是过滤掉的. 不过在你的应用建议将jcseg.keepuregword=0, 也就是过滤掉不识别的词条, 这些词条都是没有用的...
考虑到绝大部分的应用中, 这些东西都是多余的.
恩, 这些符号自动过滤了. 如果需要保留这些字符可以设置jcseg.keepunregword=1
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
暂无简介
文章 0 评论 0
接受
发布评论
评论(8)
我也遇到了相同的问题 请问这个问题您解决了吗?
java.io.IOException: Pushback buffer overflow
at java.io.PushbackReader.unread(PushbackReader.java:138)
at org.lionsoul.jcseg.ASegment.pushBack(ASegment.java:94)
at org.lionsoul.jcseg.ASegment.nextBasicLatin(ASegment.java:1205)
at org.lionsoul.jcseg.ASegment.next(ASegment.java:488)
帮看看这是什么情况,数据量大的时候报错
顺便说一下,我这里用 https 下载不了文件,不知道别人是不是也这样。每次,我都得把链接改成 http 的下载。
回复
google code访问一直受限制. 后期会移到其他地方的. 你也可以到git@osc下载. 不过需要自己ant一下...
哦,我就是希望这些过滤掉,我还奇怪为什么会保留这些内容。原来是这个参数控制的。我也不太清楚这个参数是干什么用的,不过给的代码里这个参数默认是1的。 谢谢
回复
默认是过滤掉的. 不过在你的应用建议将jcseg.keepuregword=0, 也就是过滤掉不识别的词条, 这些词条都是没有用的...
考虑到绝大部分的应用中, 这些东西都是多余的.
恩, 这些符号自动过滤了. 如果需要保留这些字符可以设置jcseg.keepunregword=1