分词

分词

文章 18 浏览 18

Elastic 中文分词问题

项目中会对各种附件:Word、Excel、Pdf 等做 Elastic 存储并使用中文分词插件(目前使用 ik),但很多专业领域的分词或简历中的 人名、公司 等默认分…

英雄似剑 2022-09-13 01:28:36 25 0

elasticsearch 关于英文连词问题比如用户搜索iphonex怎么展示iphone x的结果

比如用户搜索iphonex怎么展示iphone x的结果,很多用户搜的都是连词,或许建立索引的时候可以多建个iphonex, 但是一些更特殊的问题,比如商品名字nike…

谁的新欢旧爱 2022-09-11 16:35:57 47 0

mecab分词

听说mecab分词很好用,想试下 但下载不下来 求助路过的大神帮传一份吧 谢谢 官网地址 http://taku910.github.io/meca... Windows版地址 https://driv…

一桥轻雨一伞开 2022-09-07 22:14:24 19 0

wordcloud2.js可以指定词云的形状吗

需要画一个人形的词云,搜完之后发现wordcloud2 R语言可以有接口指定,但是没有找到js如何指定词云形状,在github上看了文档,shape的描述如下:shape…

離殇 2022-09-07 04:32:31 28 0

在Python2下利用thulac进行分词处理为什么一直报错文件不存在?

# -*- coding: utf-8 -*- """ Created on Wed Mar 28 17:06:34 2018 @author: Administrator """ import sys import thulac import sys import os imp…

夏末染殇 2022-09-06 22:41:47 24 0

R语言 tm包 文本分析 分词 删除停用词

segmentCN(file.choose(),returnType="tm")mydoc<-readLines(file.choose(),encoding = "UTF-8")mydoc.vec<-VectorSource(mydoc)mydoc.corpus<-Corpu…

孤星 2022-09-05 23:05:51 25 0

lucene全文检索2G文档效率问题

最近写了个数据报告的搜索引擎,发现全文检索2G大小pdf文档效率很低。业务逻辑: 解析pdf文档,获取文本流。 lucene索引title/content等内容,生成索…

流云如水 2022-09-05 03:43:20 25 0

如何统计一份英文 API 开发文档(如 javadoc文档)的词频?

如题,简单一点的功能是如何对一份英文 API 开发文档进行词频的统计?(文档可能是多个 html 文件,也可能是 chm 文件,不是简单的 txt 文本); 复…

私野 2022-09-05 03:32:11 22 0

nltk无法把'-'连接符分词出来?

比如co-author,我希望分出co、author,但是nltk好像无法分出。 text_tokenized=[word.lower() for word in word_tokenize(item)] …

熊抱啵儿 2022-09-05 00:29:35 17 0

jieba分词,同一个词却被分成了两个词,该怎么解决?

对一篇文章进行分词,打算统计词频,但有个问题是对于同一个词,比如说刘德华,jieba分词返回的结果会出现刘德华出现13次,刘德出现7次,但那7个刘德…

枯寂 2022-09-04 08:38:36 19 0

elasticsearch分词后搜不到的问题, 因为分词不够多

我这个词叫 task2.txt, 用ik分词后得到 task,2,txt这3个词, 因此用户搜索task2就搜不到这个文档了啊! 我有个笨方法:索引的时候 多存一个字段,比如: t…

穿透光 2022-09-04 00:55:59 28 0

elasticsearch日文分词哪个好用?

我使用的是: { "name": "Power Man", "cluster_name": "elasticsearch", "version": { "number": "2.3.3", "build_hash": "218bdf10790eef486ff2c41…

沉溺在你眼里的海 2022-09-03 00:41:19 21 0

在网页中一段文字里按住Ctrl和方向键可以按词组来移动光标?求它是如何实现的?

在网页中一段文字里按住Ctrl和方向键可以按词组来移动光标?求它是如何实现的? 好像各种编辑器都有这种功能? 谢谢 UPD::在markdown编辑器中输入连…

霓裳挽歌倾城醉 2022-09-01 05:07:46 31 0

segmentfault个人设置中的城市检索怎么实现的

不知道 segmentfault 个人设置中的城市检索怎么实现的 ·· 中文 拼音 英文都支持 要单独把这些国家 城市 进行分词分析么·· …

晌融 2022-08-31 20:47:59 17 0

PHP 英文分词 有什么好介绍的吗?

http://www.ftphp.com/scws/这种是中文的, 对英文分词,仅仅将其打散成单词。不知道是否有分词的开源 产品。多谢。…

小苏打饼 2022-08-24 09:28:00 25 0
更多

推荐作者

已经忘了多久

文章 0 评论 0

15867725375

文章 0 评论 0

LonelySnow

文章 0 评论 0

走过海棠暮

文章 0 评论 0

轻许诺言

文章 0 评论 0

信馬由缰

文章 0 评论 0

更多

友情链接

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文