如题
打个比方:我的文章标题是《2011年地税局党组书记在三八妇女节致辞讲话》
经过分词处理后的结果://调用了SmartChineseAnalyzer方法2011 | 年 | 地税局 | 党组 | 书记 | 在 | 三 | 八 | 妇女节 | 致辞 | 讲话//直接用IKSegmentation2011 | 年 | 地税局 | 地税 | 税局 | 党组书记 | 党组 | 书记 | 记在 | 在三 | 三八妇女节 | 三八 | 八 | 妇女节 | 妇女 | 致辞 | 讲话
按照上面显然肯定不是最好的,合理的应该是:2011年 | 地税局 | 党组书记 | 三八妇女节 | 致辞 | 讲话如果能这样切割出来,那中间估计不是这样简单就能实现了,所以这个问题估计有点深度。不知道哪位童鞋有研究过呢?
这个需要语义识别...
可能楼上有点误解,也许是我没说清楚,其实我想表达的意思是中title中提取关键词,现在我知道了这个实现有点困难,不是一般就可以实现的
.
#4:
lex.getLexemeText()
这个不就是获得了单个分词嘛? 没明白你意识.
可以独立.
IKSegmentation iks = new IKSegmentation(read);while (true) {Lexeme lex = null;...lex = iks.next();lex.getLexemeText();....}
IKSegmentation iks = new IKSegmentation(read);
while (true) {
Lexeme lex = null;
...
lex = iks.next();
lex.getLexemeText();
....
}
似乎不行吧,加个lucene的jar包就可以了啊
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
暂无简介
文章 0 评论 0
接受
发布评论
评论(10)
引用来自#9楼“小鸵鸟”的帖子
引用来自#8楼“冰封情”的帖子
打个比方:我的文章标题是《2011年地税局党组书记在三八妇女节致辞讲话》
经过分词处理后的结果:
//调用了SmartChineseAnalyzer方法
2011 | 年 | 地税局 | 党组 | 书记 | 在 | 三 | 八 | 妇女节 | 致辞 | 讲话
//直接用IKSegmentation
2011 | 年 | 地税局 | 地税 | 税局 | 党组书记 | 党组 | 书记 | 记在 | 在三 | 三八妇女节 | 三八 | 八 | 妇女节 | 妇女 | 致辞 | 讲话
按照上面显然肯定不是最好的,合理的应该是:
2011年 | 地税局 | 党组书记 | 三八妇女节 | 致辞 | 讲话
如果能这样切割出来,那中间估计不是这样简单就能实现了,所以这个问题估计有点深度。不知道哪位童鞋有研究过呢?
这个需要语义识别...
引用来自#8楼“冰封情”的帖子
打个比方:我的文章标题是《2011年地税局党组书记在三八妇女节致辞讲话》
经过分词处理后的结果:
//调用了SmartChineseAnalyzer方法
2011 | 年 | 地税局 | 党组 | 书记 | 在 | 三 | 八 | 妇女节 | 致辞 | 讲话
//直接用IKSegmentation
2011 | 年 | 地税局 | 地税 | 税局 | 党组书记 | 党组 | 书记 | 记在 | 在三 | 三八妇女节 | 三八 | 八 | 妇女节 | 妇女 | 致辞 | 讲话
按照上面显然肯定不是最好的,合理的应该是:
2011年 | 地税局 | 党组书记 | 三八妇女节 | 致辞 | 讲话
如果能这样切割出来,那中间估计不是这样简单就能实现了,所以这个问题估计有点深度。不知道哪位童鞋有研究过呢?
打个比方:我的文章标题是《2011年地税局党组书记在三八妇女节致辞讲话》
经过分词处理后的结果:
//调用了SmartChineseAnalyzer方法
2011 | 年 | 地税局 | 党组 | 书记 | 在 | 三 | 八 | 妇女节 | 致辞 | 讲话
//直接用IKSegmentation
2011 | 年 | 地税局 | 地税 | 税局 | 党组书记 | 党组 | 书记 | 记在 | 在三 | 三八妇女节 | 三八 | 八 | 妇女节 | 妇女 | 致辞 | 讲话
按照上面显然肯定不是最好的,合理的应该是:
2011年 | 地税局 | 党组书记 | 三八妇女节 | 致辞 | 讲话
如果能这样切割出来,那中间估计不是这样简单就能实现了,所以这个问题估计有点深度。不知道哪位童鞋有研究过呢?
可能楼上有点误解,也许是我没说清楚,其实我想表达的意思是中title中提取关键词,现在我知道了这个实现有点困难,不是一般就可以实现的
.
#4:
lex.getLexemeText()
这个不就是获得了单个分词嘛? 没明白你意识.
引用来自#3楼“小鸵鸟”的帖子
可以独立.
可以独立.
似乎不行吧,加个lucene的jar包就可以了啊