平面文件数据分析
我有一个由以下结构组成的平面文件:
A1 B1 C1 D1 E1 F1 G1
A2 B2 C2 D2 E2 F2 G2
A3 B3 C3 D3 E3 F3 G3
该文件大约有100 万行。
我想生成以下统计信息:
- 文件中的行数。
- 特定行中的唯一记录数(例如B)。
- 按行排序 F 并创建一个包含该行中前 n 条记录的文件。
进行此分析的最佳方法是什么?我目前使用的是 Mac OSX,因此首选 Linux/Mac 解决方案。
I have a flat file that consists of the following structure:
A1 B1 C1 D1 E1 F1 G1
A2 B2 C2 D2 E2 F2 G2
A3 B3 C3 D3 E3 F3 G3
This file has around 1 million rows.
I would like to generate the following statistics:
- Number of rows in the file.
- Number of unique records in a particular row (e.g. B).
- Sort by row F and create a file containing the top n records in that row.
What would be the best way of doing this analysis? I'm currently using Mac OSX, so a Linux/Mac solution would be preferred.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
在 bash(你的 mac 命令行 shell)中很容易做到。
像这样的东西:
Pretty easy to do in bash (your mac command line shell).
Something like: