@杨尚川 川哥你好,请教一个问题。
目前我们公司自己的垂直搜索,用的就是你的word分词器,效果也比较好,也比较稳定。目前我们采用的算法是最大Ngram分值算法。
这里想问一下的是,最大Ngram算法需要依赖2个点(1.词库,2.语料库),这些数据如何进行维护呢,或者说有没有哪个地方有提供下载,这样每隔一段时间我能够更新一次基础数据?
@杨尚川 川哥好。怎么解析,怎么处理,看这个工具类确实知道。
我想了解的是,像这个corpora.zip这个包,我可以到哪儿去更新吗?现在用的包,是你github上的那个包,也一直没变过。原数据需要更新的时候,我到哪去更新这个包呢。
维护一个自己的词库,在分词器中指定,多个词库之间逗号分隔开
如:dic.path=classpath:dic.txt,classpath:custom_dic,d:/dic_more.txt,d:/DIC,D:/DIC2
语料库可以看一下这个工具:
https://github.com/ysc/word/blob/master/src/main/java/org/apdplat/word/corpus/CorpusTools.java
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
暂无简介
文章 0 评论 0
接受
发布评论
评论(3)
引用来自“清风-蓝魔泪”的评论
@杨尚川 川哥好。怎么解析,怎么处理,看这个工具类确实知道。
我想了解的是,像这个corpora.zip这个包,我可以到哪儿去更新吗?现在用的包,是你github上的那个包,也一直没变过。原数据需要更新的时候,我到哪去更新这个包呢。
@杨尚川 川哥好。怎么解析,怎么处理,看这个工具类确实知道。
我想了解的是,像这个corpora.zip这个包,我可以到哪儿去更新吗?现在用的包,是你github上的那个包,也一直没变过。原数据需要更新的时候,我到哪去更新这个包呢。
维护一个自己的词库,在分词器中指定,多个词库之间逗号分隔开
如:dic.path=classpath:dic.txt,classpath:custom_dic,d:/dic_more.txt,d:/DIC,D:/DIC2
语料库可以看一下这个工具:
https://github.com/ysc/word/blob/master/src/main/java/org/apdplat/word/corpus/CorpusTools.java