当前位置：文江博客话题详情

生成词典的字数统计

发布于 2024-12-11 15:25:15 字数 163 浏览 0 评论 0原文

我有索引过程，它从 mysql 数据库获取文档并将它们放入 solr 中。

我想记录每个单词出现的次数以进行拼写纠正。

显然，我可以将它们全部转储到一个纯文本文件中，然后排序 | uniq -c 该文件，并保留所有计数超过 N 的单词 - 这是要走的路，还是有一些更聪明的方法？

需要登录才能够评论，你可以免费注册一个本站的账号。

第几種人 2024-12-18 15:25:15

在 SOLR 中，你有多个方面。您可以尝试使用指向存储您感兴趣的文本数据的字段的facet.field 来执行构面搜索。您可以使用facet.mincount在特定频率级别上剪切输出列表。确保设置facet.zeroes = false以从结果频率列表中排除任何可能的零。

~没有更多了~

暂无简介

0 文章

0 评论

23 人气

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0