当前位置：文江博客话题详情

将平面文件读取为转置，python

发布于 2024-10-19 09:23:25 字数 190 浏览 1 评论 0原文

我有兴趣以尽可能高效的方式在 Python 中读取固定宽度的文本文件。具体来说，大多数时候我对平面文件中的一列或多列感兴趣，而不是整个记录。

我觉得一次读取一行文件并在将整行读入内存后提取所需的列效率很低。我想我宁愿选择只阅读所需的列，从上到下，从左到右（而不是从左到右，从上到下阅读）。

这样的事情是可取的吗？如果是的话，有可能吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

_失温 2024-10-26 09:23:25

文件被布置为（一维）位序列。 “线条”只是我们添加的一种便利措施，目的是让人们更容易阅读内容。因此，一般来说，您所要求的内容在普通文件上是不可能的。为了实现这一点，您需要某种方法来查找记录的开始位置。两种最常见的方法是：

搜索换行符（换句话说，读取整个文件）。
使用特殊的间隔布局，以便每条记录都使用固定的布局。这样，您就可以使用低级文件操作（例如 seek）直接转到您需要去的地方。这可以避免读取整个文件，但手动执行会很痛苦。

我不会太担心文件读取性能，除非它成为问题。是的，您可以内存映射该文件，但您的操作系统可能已经为您缓存了。是的，您可以使用数据库格式（例如，通过 sqlalchemy 的 sqlite3 文件格式），但它可能不值得这么麻烦。

关于“固定宽度”的旁注：这到底是什么意思？如果您的意思确实是“每列始终以相对于记录开头的相同偏移量开始”，那么您绝对可以使用 Python 的 seek 跳过您不感兴趣的过去数据。

回复收藏 0 原文

逐鹿 2024-10-26 09:23:25

线条有多大？除非每条记录都很大，否则仅阅读您感兴趣的字段而不是整行可能没有什么区别。

对于具有固定格式的大文件，您可能会从映射文件中得到一些东西。我只使用 C 而不是 Python 完成此操作，但似乎映射文件然后直接访问适当的字段可能相当有效。

回复收藏 0 原文

往事风中埋 2024-10-26 09:23:25

平面文件不适合您想要做的事情。我的建议是将文件转换为 SQL 数据库（使用 sqlite3），然后只读取您想要的列。 SQLite3 速度极快。

回复收藏 0 原文

爱要勇敢去追 2024-10-26 09:23:25

如果它确实是固定宽度，那么您应该能够只调用 read(N) 来跳过从一行的列末尾到下一行的开头的固定字节数。

回复收藏 0 原文

~没有更多了~

关于作者

享受孤独

暂无简介

0 文章

0 评论

22 人气

关注发私信

友情链接

文江博客

将平面文件读取为转置，python

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

1CH1MKgiKxn9p

ゞ记忆︶ㄣ

JackDx

信远

yaoduoduo1995

霞映澄塘

友情链接

将平面文件读取为转置，python

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

1CH1MKgiKxn9p

ゞ记忆︶ㄣ

JackDx

信远

yaoduoduo1995

霞映澄塘

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。