Elasticsearch 常规设置示例
1、修改集群只读 PUT _settings { "index":{ "blocks":{ "read_only_allow_delete":"false" } } } 2、修改限流阈值 默认值是 20 MB/s,对机械磁盘应该…
Sphinx 基于 SQL 的全文检索 / 搜索引擎
主要特性 高速建立索引(10MB/sec) 快速搜索(在2到4G的文本中只需0.1秒) 可扩展(可达100G文本,10亿个文档) 支持分布式 支持MySQL(MyIASAM和Inn…
elasticsearch 搜索引擎安装和使用
安装:手工下载 官方参考 安装环境是centos7.3(c7303,/e/vagrant10): $ cd /opt $ curl -L -O https://artifacts.elastic.co/downloads/elasticsearch…
Pinyin 汉字拼音转换工具
转换中文字符为拼音。可以用于汉字注音、排序、检索。 注:这个版本同时支持在 Node 和 Web 浏览器环境运行,Python 版请关注 mozillazg/python-pinyi…
mmseg-node 是中文分词 libmmseg 的 NodeJS 驱动程序中间件连接器
libmmseg 中文分词库使用非常广泛,目前本站的搜索部分就是用的他,结合 Sphinx 和 Coreseek 做全文搜索。 Coreseek 官网已关闭,目前正在查找其他能…
zh-solr-se 基于 solr 的中文搜索引擎框架
本搜索引擎框架实现了针对中文文本索引、搜索的基本功能和扩展接口。在 solr/lucence 和 paoding 基础上封装,结合中文文本特点,单独定制开发的一款…
TextGrocery 短文本分类工具中文文档 v0.1.3
TextGrocery是一个基于 LibLinear 和 结巴分词 的短文本分类工具,特点是高效易用,同时支持中文和英文语料。 GitHub 项目链接 性能 训练集:来自32个…
Paoding 庖丁解牛 分词器基于 Lucene4.x
Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。 高效率:在PIII 1G内存个人机器上,1秒 可准…
SCWS 简易中文分词系统
SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。 这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文…
CppJieba 是结巴(Jieba)中文分词的 C++ 版本
特性 源代码都写进头文件 include/cppjieba/*.hpp 里,include 即可使用。 支持 utf8 编码。 项目自带较为完善的单元测试,核心功能中文分词(utf8)的…
NodeJieba 结巴分词的 Node.js 版本
NodeJieba 是结巴中文分词的 Node.js 版本实现, 由 CppJieba 提供底层分词算法实现, 是兼具高性能和易用性两者的 Node.js 中文分词组件。 特点 词典…
盘古分词使用手册中文文档
文件说明 PanGuSegment 这个是盘古分词的组件包,包括 PanGu.dll,盘古分词的核心组件 DictManage.exe 字典管理工具 Demo.exe 分词演示程序 PanGu.Hig…
pangusegment 盘古分词 开源中文分词组件
Pan Gu Segment is a library that can segment Chinese and English words from sentence. 盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTD…