中文分词

中文分词

文章 31 浏览 1.1k

Nodejs 实现可训练的中文分词实践

前段时间在研究 TF-IDF、杰卡德相似系数计算文本的相似度的时候(目前我的博客中部分文章底部的“猜你喜欢”推荐的文章就是用这种算法计算出来的),…

绝影如岚 2021-11-17 12:45:30 1211 0 0

Elasticsearch 常规设置示例

1、修改集群只读 PUT _settings { "index":{ "blocks":{ "read_only_allow_delete":"false" } } } 2、修改限流阈值 默认值是 20 MB/s,对机械磁盘应该…

JSmiles 2021-06-01 12:46:57 1252 0 0

Sphinx 基于 SQL 的全文检索 / 搜索引擎

主要特性 高速建立索引(10MB/sec) 快速搜索(在2到4G的文本中只需0.1秒) 可扩展(可达100G文本,10亿个文档) 支持分布式 支持MySQL(MyIASAM和Inn…

JSmiles 2021-04-09 12:21:57 2127 0 0

elasticsearch 搜索引擎安装和使用

安装:手工下载 官方参考 安装环境是centos7.3(c7303,/e/vagrant10): $ cd /opt $ curl -L -O https://artifacts.elastic.co/downloads/elasticsearch…

JSmiles 2021-03-31 19:22:03 1376 0 0

MMSG 中文分词库

MMSG 最初由蔡志浩发明,是一种非常流行的中文分词算法。许多实现可以在不同的平台上使用,包括 Python、Java 等。 此包提供 Node.js 版本的 MMSG 算…

JSmiles 2021-01-26 12:21:54 1160 0 0

Pinyin 汉字拼音转换工具

转换中文字符为拼音。可以用于汉字注音、排序、检索。 注:这个版本同时支持在 Node 和 Web 浏览器环境运行,Python 版请关注 mozillazg/python-pinyi…

JSmiles 2021-01-24 00:16:37 1895 0 0

mmseg-node 是中文分词 libmmseg 的 NodeJS 驱动程序中间件连接器

libmmseg 中文分词库使用非常广泛,目前本站的搜索部分就是用的他,结合 Sphinx 和 Coreseek 做全文搜索。 Coreseek 官网已关闭,目前正在查找其他能…

JSmiles 2021-01-17 12:30:33 1687 0 0

zh-solr-se 基于 solr 的中文搜索引擎框架

本搜索引擎框架实现了针对中文文本索引、搜索的基本功能和扩展接口。在 solr/lucence 和 paoding 基础上封装,结合中文文本特点,单独定制开发的一款…

JSmiles 2021-01-12 00:06:46 1442 0 0

TextGrocery 短文本分类工具中文文档 v0.1.3

TextGrocery是一个基于 LibLinear 和 结巴分词 的短文本分类工具,特点是高效易用,同时支持中文和英文语料。 GitHub 项目链接 性能 训练集:来自32个…

JSmiles 2021-01-09 14:41:50 1407 0 0

Paoding 庖丁解牛 分词器基于 Lucene4.x

Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。 高效率:在PIII 1G内存个人机器上,1秒 可准…

JSmiles 2021-01-08 23:50:49 1373 0 0

SCWS 简易中文分词系统

SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。 这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文…

JSmiles 2021-01-07 14:23:27 1243 0 0

CppJieba 是结巴(Jieba)中文分词的 C++ 版本

特性 源代码都写进头文件 include/cppjieba/*.hpp 里,include 即可使用。 支持 utf8 编码。 项目自带较为完善的单元测试,核心功能中文分词(utf8)的…

JSmiles 2021-01-05 23:43:21 2801 0 0

NodeJieba 结巴分词的 Node.js 版本

NodeJieba 是结巴中文分词的 Node.js 版本实现, 由 CppJieba 提供底层分词算法实现, 是兼具高性能和易用性两者的 Node.js 中文分词组件。 特点 词典…

JSmiles 2020-12-31 23:41:39 2040 0 0

盘古分词使用手册中文文档

文件说明 PanGuSegment 这个是盘古分词的组件包,包括 PanGu.dll,盘古分词的核心组件 DictManage.exe 字典管理工具 Demo.exe 分词演示程序 PanGu.Hig…

JSmiles 2020-12-27 12:35:46 1887 0 0

pangusegment 盘古分词 开源中文分词组件

Pan Gu Segment is a library that can segment Chinese and English words from sentence. 盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTD…

JSmiles 2020-06-22 19:10:05 1984 0 0
更多

推荐作者

linfzu01

文章 0 评论 0

可遇━不可求

文章 0 评论 0

枕梦

文章 0 评论 0

qq_3LFa8Q

文章 0 评论 0

JP

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文