当前位置：文江博客话题详情

String hashmap Java data-structures

计算文件中重复的单词数

发布于 2024-09-27 18:46:43 字数 263 浏览 1 评论 0原文

目标：查找文件中所有单词的计数。文件包含 1000 多个单词

我的方法：使用 HashMap() 来存储并统计每个单词在文件中出现的次数。

问题： HashMap() 是最好的方法还是使用二叉树来确保更快的查找会更好，因为文件中有大量单词？

或者有更好的方法来做到这一点吗？

HashMap 会导致大量的内存开销，这是不希望的。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（5）

悲凉≈ 2024-10-04 18:46:43

那么您正在寻找不同的单词吗？

我能想到的最有效的结构是 Trie

这是一个开源实现：Google Code patricia-trie

虽然我倾向于同意 Mitch Wheat 的观点——听起来 HashMap 应该可以工作很好（最好避免过早优化......所以你应该使用 HashMap，直到你证明它是一个瓶颈）

回复收藏 0 原文

虫児飞 2024-10-04 18:46:43

1000-10000字是非常小的。

哈希图就可以了。

回复收藏 0 原文

沉鱼一梦 2024-10-04 18:46:43

我建议在 Perl/PHP 中完成这样的任务。用机关枪打死苍蝇是非常困难的。

回复收藏 0 原文

合久必婚 2024-10-04 18:46:43

HashMap 是完美的。您需要存储

遇到的每个单词的副本
每个

HashMap 确实不会存储更多！

回复收藏 0 原文

墨落成白 2024-10-04 18:46:43

假设字符串不是太长，迈克尔建议的“Trie”方法会很好。 Trie 中的节点可以存储该字符以及以该字符结尾的字符串的“计数”。这应该大大减少存储要求（再次假设字符串均匀分布和重叠）
假设计数不会在调用之间持久化，在使用 HashMap 时，让 Map 来自 Integer =>整数 - 其中“键”是字符串的哈希码，值是计数。这应该是一个有效的解决方案 - 具有快速查找和减少内存占用的功能。

回复收藏 0 原文

~没有更多了~

关于作者

落花随流水

暂无简介

0 文章

0 评论

23 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

qq_FjTq5B

文章 0 评论 0

18273202778

文章 0 评论 0

WordPress小学生

文章 0 评论 0

〃温暖了心ぐ

文章 0 评论 0

迷乱花海

文章 0 评论 0

niuniu

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文