从大型 Set 中获取重复项的最佳性能方法是什么?
我有一个很大的Set
,其中包含许多单词,例如:
“aaa,cCc,dDD,AAA,bbB,BBB,AaA,CCc,...”
我想对集合中的所有重复单词进行分组,忽略单词的大小写敏感性,然后将它们保存在 Vector
或其他内容中,因此每个Vector
项将包含一组相似的单词,如下所示:
Vector
: aaa, AAA, AaA, ...
矢量
:cCc、CCc、...
矢量
:bbB、BBB、 ...
我关心性能,因为这个集合包含很多单词。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(4)
我将创建一个
HashMap>哈希映射
。接下来,对于集合中的每个“字符串”
最后,如果需要,创建一个向量向量,或者使用 hashmap.valueSet()
I would create a
HashMap<String, Vector<String>> hashMap
.Next, for each 'string' in your set
At the end, create a Vector of vectors if needed, or work with the hashmap.valueSet()
如果您可以选择
Set
实现,则可以将TreeSet
与Comparator
一起使用,比较忽略大小写的字符串。然后您将能够迭代排序列表并轻松对重复项进行分组。If you can choose
Set
implementation you can useTreeSet
withComparator
that compares strings ignoring case. Then you will be able to iterate over sorted list and easily group duplicates.这会迭代输入集一次,我怀疑您能否获得比这更快的速度。将 ArrayList 替换为 LinkedList 可能会以局部性换取更少的复制,这可能会提高性能,但我对此表示怀疑。这是代码:
This iterates over the input set once and I doubt you can get much faster than that. Swapping the
ArrayList
s forLinkedLists
may trade locality for less copying, which may be an performance gain, but I doubt it. Here's the code:如果您真正关心性能,您就不会使用
Vector
。至于排序问题,一种解决方案是使用 TreeMap 或 TreeSet 对象并创建一个 Comparator 来执行您想要的相等(排序) 。实例化可以是:
用法:
If you truly care about performance you would not use
Vector
. As for the sorting problem one solution would be to use theTreeMap
orTreeSet
object and create aComparator
that does the equality (sorting) you want.The instantiation could be:
Usage: