如题,最好是c++写的,而且开源。
中科院中文分词 FreeICTCLAS,目前是开源;LibMMSeg,它是Coreseek.com为 Sphinx 全文搜索引擎设计的中文分词软件包,其在GPL协议下发行的中文分词法,采用Chih-Hao Tsai的MMSEG算法;bamboo,是一个中文语言处理系统。目前包括中文分词和词性标注部分,bamboo提供了C,PHP,PostgreSQL的编程接口。
中科院的HTTPCWS:http://blog.s135.com/demo/httpcws/一些算法文档:http://technology.chtsai.org/基于MMSEG算法的分词功能(PHP的扩展):http://code.google.com/p/xsplit/
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
有一天你能到我的心里去,你会看到那里全是你给的伤悲。
文章 0 评论 0
接受
发布评论
评论(2)
中科院中文分词 FreeICTCLAS,目前是开源;
LibMMSeg,它是Coreseek.com为 Sphinx 全文搜索引擎设计的中文分词软件包,其在GPL协议下发行的中文分词法,采用Chih-Hao Tsai的MMSEG算法;
bamboo,是一个中文语言处理系统。目前包括中文分词和词性标注部分,bamboo提供了C,PHP,PostgreSQL的编程接口。
中科院的HTTPCWS:http://blog.s135.com/demo/httpcws/
一些算法文档:http://technology.chtsai.org/
基于MMSEG算法的分词功能(PHP的扩展):http://code.google.com/p/xsplit/