当前位置：文江博客文章教程详情

Node.js 中文分词结巴分词结巴中文分词 NodeJieba Jieba

NodeJieba 结巴分词的 Node.js 版本

发布于 2020-12-31 23:41:39 字数 3428 浏览 2057 评论 0

NodeJieba 是结巴中文分词的 Node.js 版本实现，由 CppJieba 提供底层分词算法实现，是兼具高性能和易用性两者的 Node.js 中文分词组件。

特点

词典载入方式灵活，无需配置词典路径也可使用，需要定制自己的词典路径时也可灵活定制。
底层算法实现是C++，性能高效。
支持多种分词算法，各种分词算法见CppJieba的README.md介绍。
支持动态补充词库。

下载

npm install nodejieba

因为npm速度很慢而且经常因为墙的原因出现莫名其妙的问题，可以试试使用cnpm，命令如下：

npm --registry=http://r.cnpmjs.org install nodejieba

用法

var nodejieba = require("nodejieba");
var result = nodejieba.cut("南京市长江大桥");
console.log(result);
//["南京市","长江大桥"]

更详细的其他用法请看 test/demo.js

词典载入可灵活配置

如果没有主动调用词典函数时，则会在第一次调用cut等功能函数时，自动载入默认词典。

如果要主动触发词典载入，则使用以下函数主动触发。

nodejieba.load();

以上用法会自动载入所有默认词典，如果需要载入自己的词典，而不是默认词典。比如想要载入自己的用户词典，则使用以下函数：

nodejieba.load({
  userDict: './test/testdata/userdict.utf8',
});

字典载入函数load的参数项都是可选的，如果没有对应的项则自动填充默认参数。所以上面这段代码和下面这代代码是等价的。

nodejieba.load({
  dict: nodejieba.DEFAULT_DICT,
  hmmDict: nodejieba.DEFAULT_HMM_DICT,
  userDict: './test/testdata/userdict.utf8',
  idfDict: nodejieba.DEFAULT_IDF_DICT,
  stopWordDict: nodejieba.DEFAULT_STOP_WORD_DICT,
});

【词典说明】

dict: 主词典，带权重和词性标签，建议使用默认词典。
hmmDict: 隐式马尔科夫模型，建议使用默认词典。
userDict: 用户词典，建议自己根据需要定制。
idfDict: 关键词抽取所需的idf信息。
stopWordDict: 关键词抽取所需的停用词列表。

词性标注

var nodejieba = require("nodejieba");
console.log(nodejieba.tag("红掌拨清波"));
//[ { word: '红掌', tag: 'n' },
//  { word: '拨', tag: 'v' },
//  { word: '清波', tag: 'n' } ]

更详细的其他用法请看 test/demo.js

关键词抽取

var nodejieba = require("nodejieba");
var topN = 4;
console.log(nodejieba.extract("升职加薪，当上CEO，走上人生巅峰。", topN));
//[ { word: 'CEO', weight: 11.739204307083542 },
//  { word: '升职', weight: 10.8561552143 },
//  { word: '加薪', weight: 10.642581114 },
//  { word: '巅峰', weight: 9.49395840471 } ]

更详细的其他用法请看 test/demo.js

测试

以下版本中测试通过:

node v0.10.2
node v0.12.1
iojs v1.3.0
iojs v2.2.1
node v4.0.0
node v5.7.0

应用

支持中文搜索的 gitbook 插件: gitbook-plugin-search-pro
汉字拼音转换工具: pinyin

github 地址：https://github.com/yanyiwu/nodejieba

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

你可能也喜欢

CanvasQuery 基于 Canvas 画布和 jQuery 的游戏开发库

Highlight.js 让 Web 网页中代码语法高亮

Vue 重写 localStorage.setItem 方法实现双向绑定

Snoopy 模仿 Web 浏览器的功能网络请求 PHP 类

淘宝主图视频和商品链接如何一键下载获取导出？

批量下载义乌购商品的主图、细节图的技巧

如何批量下载唯品会商品的主图视频

PHP 最佳实践中文版一份简短的关于 PHP 容易混淆知识点的实用指南

上一篇： Pinyin 多音字的汉字转拼音解决方案

下一篇： Three.js 图层 Layers 对象和 .layers 属性

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

关于作者

生命进入颠沛而奔忙的本质状态，并将以不断告别和相遇的陈旧方式继续下去。

文章

评论

84965 人气

关注发私信

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

一笔一画续写前缘

文章 0 评论 0

mb_XvqQsWhl

文章 0 评论 0

我不在是我

文章 0 评论 0

依靠

文章 0 评论 0

L.W.

文章 0 评论 0

暗里之光

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文