中文分词

投稿关注

文章 31 浏览 1.1k

Nodejs 实现可训练的中文分词实践

前段时间在研究 TF-IDF、杰卡德相似系数计算文本的相似度的时候（目前我的博客中部分文章底部的“猜你喜欢”推荐的文章就是用这种算法计算出来的），…

绝影如岚 2021-11-17 12:45:30 1249 0 0

Elasticsearch 常规设置示例

1、修改集群只读 PUT _settings { "index":{ "blocks":{ "read_only_allow_delete":"false" } } } 2、修改限流阈值默认值是 20 MB/s，对机械磁盘应该…

JSmiles 2021-06-01 12:46:57 1272 0 0

Sphinx 基于 SQL 的全文检索 / 搜索引擎

主要特性高速建立索引（10MB/sec）快速搜索（在2到4G的文本中只需0.1秒）可扩展（可达100G文本，10亿个文档）支持分布式支持MySQL（MyIASAM和Inn…

JSmiles 2021-04-09 12:21:57 2146 0 0

elasticsearch 搜索引擎安装和使用

安装：手工下载官方参考安装环境是centos7.3(c7303,/e/vagrant10): $ cd /opt $ curl -L -O https://artifacts.elastic.co/downloads/elasticsearch…

JSmiles 2021-03-31 19:22:03 1389 0 0

MMSG 中文分词库

MMSG 最初由蔡志浩发明，是一种非常流行的中文分词算法。许多实现可以在不同的平台上使用，包括 Python、Java 等。此包提供 Node.js 版本的 MMSG 算…

JSmiles 2021-01-26 12:21:54 1179 0 0

Pinyin 汉字拼音转换工具

转换中文字符为拼音。可以用于汉字注音、排序、检索。注：这个版本同时支持在 Node 和 Web 浏览器环境运行，Python 版请关注 mozillazg/python-pinyi…

JSmiles 2021-01-24 00:16:37 1909 0 0

mmseg-node 是中文分词 libmmseg 的 NodeJS 驱动程序中间件连接器

libmmseg 中文分词库使用非常广泛，目前本站的搜索部分就是用的他，结合 Sphinx 和 Coreseek 做全文搜索。 Coreseek 官网已关闭，目前正在查找其他能…

JSmiles 2021-01-17 12:30:33 1703 0 0

zh-solr-se 基于 solr 的中文搜索引擎框架

本搜索引擎框架实现了针对中文文本索引、搜索的基本功能和扩展接口。在 solr/lucence 和 paoding 基础上封装，结合中文文本特点，单独定制开发的一款…

JSmiles 2021-01-12 00:06:46 1459 0 0

TextGrocery 短文本分类工具中文文档 v0.1.3

TextGrocery是一个基于 LibLinear 和结巴分词的短文本分类工具，特点是高效易用，同时支持中文和英文语料。 GitHub 项目链接性能训练集：来自32个…

JSmiles 2021-01-09 14:41:50 1419 0 0

Paoding 庖丁解牛分词器基于 Lucene4.x

Paoding's Knives 中文分词具有极高效率和高扩展性。引入隐喻，采用完全的面向对象设计，构思先进。高效率：在PIII 1G内存个人机器上，1秒可准…

JSmiles 2021-01-08 23:50:49 1392 0 0

SCWS 简易中文分词系统

SCWS 是 Simple Chinese Word Segmentation 的首字母缩写（即：简易中文分词系统）。这是一套基于词频词典的机械式中文分词引擎，它能将一整段的中文…

JSmiles 2021-01-07 14:23:27 1263 0 0

CppJieba 是结巴（Jieba）中文分词的 C++ 版本

特性源代码都写进头文件 include/cppjieba/*.hpp 里，include 即可使用。支持 utf8 编码。项目自带较为完善的单元测试，核心功能中文分词(utf8)的…

JSmiles 2021-01-05 23:43:21 2822 0 0

NodeJieba 结巴分词的 Node.js 版本

NodeJieba 是结巴中文分词的 Node.js 版本实现，由 CppJieba 提供底层分词算法实现，是兼具高性能和易用性两者的 Node.js 中文分词组件。特点词典…

JSmiles 2020-12-31 23:41:39 2058 0 0

盘古分词使用手册中文文档

文件说明 PanGuSegment 这个是盘古分词的组件包，包括 PanGu.dll，盘古分词的核心组件 DictManage.exe 字典管理工具 Demo.exe 分词演示程序 PanGu.Hig…

JSmiles 2020-12-27 12:35:46 1911 0 0

pangusegment 盘古分词开源中文分词组件

Pan Gu Segment is a library that can segment Chinese and English words from sentence. 盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTD…

JSmiles 2020-06-22 19:10:05 2004 0 0

共 2 页
1
2
下一页

友情链接

文江博客