@狮子的魂 你好,想跟你请教个问题:
我现在想在jcseg基础上,加一个最多分词的功能,比如我想对“软件运行环境”进行分词,想要得到的结果类似这样的“软件、运行、软件运行、环境、运行环境”,现在的jcseg好像还不支持此功能。
我想自己尝试下,实现此功能,但是又没什么好的思路……
能给我提供一个好的思路吗,谢谢了哈。
写好了,就直接合并到jcseg主分支!
哈,这个是我一直打算要加的功能!是下一个版本的计划,不过我还没开始开发!
我是打算做成一个配置选项,方便点的方式是做成另外一种切分模式!
建议你可以做成另外一种切分模式,也就是单独写个ISeg实现,这样实现方便些!
如果合并到现在的ASegment实现,思路初步有两个:
1, 记录mmseg切分过程中的全部组合,然后在追加到分词结果即可!
2. 中文二次切分,将切分过的中文在细化再切分。
我自己是打算使用第一种方式!
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
每个人心里都住着一个人,或眷念,或暗恋,或想念。
文章 0 评论 0
接受
发布评论
评论(3)
写好了,就直接合并到jcseg主分支!
引用来自“狮子的魂”的评论
哈,这个是我一直打算要加的功能!是下一个版本的计划,不过我还没开始开发!
我是打算做成一个配置选项,方便点的方式是做成另外一种切分模式!
建议你可以做成另外一种切分模式,也就是单独写个ISeg实现,这样实现方便些!
如果合并到现在的ASegment实现,思路初步有两个:
1, 记录mmseg切分过程中的全部组合,然后在追加到分词结果即可!
2. 中文二次切分,将切分过的中文在细化再切分。
我自己是打算使用第一种方式!
哈,这个是我一直打算要加的功能!是下一个版本的计划,不过我还没开始开发!
我是打算做成一个配置选项,方便点的方式是做成另外一种切分模式!
建议你可以做成另外一种切分模式,也就是单独写个ISeg实现,这样实现方便些!
如果合并到现在的ASegment实现,思路初步有两个:
1, 记录mmseg切分过程中的全部组合,然后在追加到分词结果即可!
2. 中文二次切分,将切分过的中文在细化再切分。
我自己是打算使用第一种方式!