当前位置：文江博客话题详情

hadoop Java programming-languages large-files

将长字符串读入内存

发布于 2024-09-25 19:40:39 字数 104 浏览 4 评论 0原文

我有一个非常大的字符串，当我用 Java 读取它时，出现内存不足错误。实际上，我需要将所有这些字符串读入内存，然后分成单独的字符串并根据值对它们进行排序。最好的方法是什么？

谢谢

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（4）

征﹌骨岁月お 2024-10-02 19:40:39

你的大字符串从哪里来？正如你所说，你读过它，我假设它来自一个文件。您是否必须知道整个字符串才能知道在哪里拆分它？如果没有，您可以逐个字符地读取文件，直到遇到分割标记，将迄今为止读取的所有字符放入字符串中，然后开始读取下一个字符串。你大概知道在哪里对你刚刚读到的单个字符串进行排序吗？如果是这样，您可以在第一次运行时将部分字符串写入单独的文件（例如，当您按字母顺序对字符串进行排序时，以 A 开头的所有字符串都会转到 A.tmp）。之后，您可以对创建的文件内容（希望现在足够小以适合您的内存）进行排序，最后将内容附加到新的输出文件中。

回复收藏 0 原文

謸气贵蔟 2024-10-02 19:40:39

如果您受到内存限制，那么您可以尝试应用合并排序，否则使用虚拟机参数 -Xmx 和 -Xms 增加堆大小

回复收藏 0 原文

芸娘子的小脾气 2024-10-02 19:40:39

如果您希望 Hadoop “逐行”处理 100 GiB 的 apache 日志文件，您实际上所做的与您想要的相同：将大量文本分割成多个片段。

在 Hadoop 中执行此操作的正常方法（当您用此标记问题时）是使用 TextInputFormat 使用 LineRecordReader 使用 LineReader 用于分割文本文件“行尾”分隔符。你想要的本质上是相同的，但有一个区别：在不同的东西上分开。

对结果值进行排序（在 Hadoop 中）本质上是通过使用所谓的“二次排序”来完成的（查看 Hadoop 示例和 Tom 的解释书）。

所以我建议做的是

在 TextInputFormat/LineRecordReader/LineReader 根据分隔符读取并提取字符串的各个部分。
创建一个重写信息的映射以进行二次排序。
创建正确的分区、组和键比较器类/方法来进行排序。
创建一个reduce，您可以在其中接收排序后的信息，您可以进一步处理这些信息。

华泰

回复收藏 0 原文

静若繁花 2024-10-02 19:40:39

你可以看看
外部排序算法

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

24 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

烙印

文章 0 评论 0

singlesman

文章 0 评论 0

给自己一个微笑

文章 0 评论 0

独孤求败

文章 0 评论 0

晨钟暮鼓

文章 0 评论 0

我是自愿种绣球花的

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文