Paoding 庖丁解牛分词器基于 Lucene4.x

发布于 2021-01-08 23:50:49 字数 1363 浏览 1391 评论 0

Paoding's Knives 中文分词具有极高效率和高扩展性。引入隐喻，采用完全的面向对象设计，构思先进。

高效率：在PIII 1G内存个人机器上，1秒可准确分词 100万汉字。
采用基于不限制个数的词典文件对文章进行有效切分，使能够将对词汇分类定义。
能够对未知的词汇进行合理解析

原项目托管于 google code，但是现在已不能访问，github 和 gitee 上有镜像项目：

分词示例

TokenStream ts = analyzer.tokenStream("text", new StringReader(text));
//添加工具类  注意：以下这些与之前lucene2.x版本不同的地方
CharTermAttribute offAtt = (CharTermAttribute) ts.addAttribute(CharTermAttribute.class);
// 循环打印出分词的结果，及分词出现的位置
while (ts.incrementToken()) {
    System.out.print(offAtt.toString() + "\t");
}

编译说明

项目默认可以使用Maven直接编译.

如果使用 Ant，可把依赖的 lib 放入 {pro_workspace}/target/dependency/ 下。然后使用 ant 可以直接编译，编译的结果存放在 {pro_workspace}/target/dist/{version}/ 下。

可使用 Maven 的 copy-dependencies 命令直接 copy 依赖到 {pro_workspace}/target/dependency/，然后使用 ant 编译。

mvn dependency：copy-dependencies

Solr 4.x 使用说明

Solr 4.x 以上可以直接配置 Lucene 的 Analyzer 配置如:

<fieldType name="text_general" class="solr.TextField">
  <analyzer class="net.paoding.analysis.analyzer.PaodingAnalyzer" />
</fieldType>

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

编写 .htaccess 配置规则详细教程

Fabric.js 简单强大的 Canvas 图形编辑库

Hotkeys.js 简单的设置快捷键键盘热键

SQL 多表连接 join 查询详细介绍

fakeLoader.js 全屏覆盖加载动画插件

iOS 与 Android 平台上问题列表

怎样批量下载俏货网商品主图、详情页图片到电脑上

将微信公众号上多篇文章的全部图片批量下载到同一目录上

上一篇： CppJieba 是结巴（Jieba）中文分词的 C++ 版本

下一篇： Three.js 图层 Layers 对象和 .layers 属性

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

关于作者

JSmiles

生命进入颠沛而奔忙的本质状态，并将以不断告别和相遇的陈旧方式继续下去。

文章

84965 人气

关注发私信

动次打次papapa

文章 0 评论 0

关注

我是有多爱你

文章 0 评论 0

关注

原来分手还会想你

文章 0 评论 0

关注

linces

文章 0 评论 0

关注

霓裳挽歌倾城醉

文章 0 评论 0

关注

玍銹的英雄夢

文章 0 评论 0

友情链接

文江博客

Paoding 庖丁解牛分词器基于 Lucene4.x

分词示例

编译说明

Solr 4.x 使用说明

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

你可能也喜欢

编写 .htaccess 配置规则详细教程

Fabric.js 简单强大的 Canvas 图形编辑库

Hotkeys.js 简单的设置快捷键键盘热键

SQL 多表连接 join 查询详细介绍

fakeLoader.js 全屏覆盖加载动画插件

iOS 与 Android 平台上问题列表

怎样批量下载俏货网商品主图、详情页图片到电脑上

将微信公众号上多篇文章的全部图片批量下载到同一目录上

发布评论

关于作者

热门标签

推荐作者

动次打次papapa

我是有多爱你

原来分手还会想你

linces

霓裳挽歌倾城醉

玍銹的英雄夢

友情链接

Paoding 庖丁解牛 分词器基于 Lucene4.x

分词示例

编译说明

Solr 4.x 使用说明

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

你可能也喜欢

发布评论

关于作者

热门标签

推荐作者

友情链接

Paoding 庖丁解牛分词器基于 Lucene4.x

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。