当前位置：文江博客话题详情

我应该在哪里存储停用词列表？

发布于 2024-10-13 22:58:47 字数 440 浏览 8 评论 0原文

我的函数解析文本并删除短单词，例如“a”、“the”、“in”、“on”、“at”等。

这些单词的列表将来可能会被修改。此外，在不同列表（即不同语言）之间切换也可能是一种选择。

那么，我应该在哪里存储这样的列表呢？

大约 50-200 个单词
每分钟很多人读取
几乎没有写入（修改） - 例如，几个月一次，

我脑海中就会出现以下选项：

代码内的列表（最快，但这听起来不是一个好的做法）
一个单独的文件“stop_words.txt”（从文件读取的速度有多快？我应该每隔几秒钟从同一个文件中读取相同的数据我调用相同的函数吗？）
一个数据库表。当单词列表几乎是静态的时，它真的有效吗？

我正在使用 Ruby on Rails（如果这有什么区别的话）。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

篱下浅笙歌 2024-10-20 22:58:47

如果只有大约 50-200 个单词，我会将其存储在内存中支持快速查找的数据结构中，例如哈希映射（我不知道这种结构在 Ruby 中叫什么）。

您可以使用选项 2 或 3（将数据保留在文件或数据库表中，具体取决于对您来说更容易的方式），然后在应用程序启动时将数据读入内存。存储读取数据的时间，如果收到请求并且数据在 X 分钟内没有更新，则从持久存储中重新读取数据。

这基本上是一个缓存。 Ruby on Rails 可能已经提供了这样的机制，但我对此知之甚少，无法回答这个问题。

回复收藏 0 原文

冷清清 2024-10-20 22:58:47

由于停用词的查找需要快速，因此我将停用词存储在哈希表中。这样，验证一个单词是否是停用词就可以摊销 O(1) 复杂度。

现在，由于停用词列表可能会发生变化，因此将列表保留在文本文件中，并在程序启动时读取该文件（或者每隔几分钟/在文件修改时读取该文件，如果您的程序连续运行）。

回复收藏 0 原文

~没有更多了~

关于作者

执手闯天涯

暂无简介

文章

25 人气

关注发私信

佚名

文章 0 评论 0

关注

羁客

文章 0 评论 0

关注

天天爱笑的徐老师

文章 0 评论 0

关注

星

文章 0 评论 0

关注

夏日落

文章 0 评论 0

关注

隐诗

文章 0 评论 0

友情链接

文江博客

我应该在哪里存储停用词列表？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

佚名

羁客

天天爱笑的徐老师

星

夏日落

隐诗

友情链接

我应该在哪里存储停用词列表？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

佚名

羁客

天天爱笑的徐老师

星

夏日落

隐诗

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。