Python 或 awk/sed 用于清理数据

发布于 2024-12-05 10:35:06 字数 499 浏览 0 评论 0原文

我使用 R 进行数据分析，并且对此非常满意。然而，清理数据可能会更容易一些。我正在考虑学习另一种适合这项任务的语言。具体来说，我正在寻找一种工具来获取原始数据，删除不必要的变量或观察结果，并对其进行格式化以便于在 R 中加载。内容主要是数字和字符串数据，而不是多行文本。

我正在考虑 awk/sed 组合与 Python 的比较。（我认识到 Perl 将是另一种选择，但是，如果我要学习另一种完整的语言，Python 似乎是一个更好、更具可扩展性的选择。）

sed/awk 的优点是学习起来更快。缺点是这种组合不如 Python 那样可扩展。事实上，如果我学习 Python，我可能会想象一些“任务蔓延”，这很好，但不是我的目标。

我的另一个考虑因素是对大数据集的应用。据我了解，awk/sed 是逐行操作的，而 Python 通常会将所有数据拉入内存。这可能是 sed/awk 的另一个优势。

还有其他我遗漏的问题吗？如果您能提供任何建议，我们将不胜感激。（我添加了 R 标签，供 R 用户提供他们的清洁建议。）

需要登录才能够评论，你可以免费注册一个本站的账号。

不想破坏你的冒险，但我想说不，原因如下：

最重要的是：您已经了解 R。

也就是说，当然 sed/awk 非常适合小型程序甚至单行程序，而 Python 是一门很好的语言。但我会考虑继续使用 R。

初见你 2024-12-12 10:35:06

我经常使用 Python 和 Perl。我对 sed 非常了解，并且曾经经常使用 awk。我曾断断续续地使用过 R。 Perl 的数据转换功能和速度是最好的。

Perl 基本上可以做 sed 和 awk 能做的所有事情，但还有更多。（事实上，perl 附带的 a2p 和 s2p 将 awk 和 sed 脚本转换为 Perl。）
Perl 包含在大多数 Linux/Unix 系统中。如果情况并非如此，那么就有充分的理由学习 sed 和 awk。这个理由早已死了。
Perl 拥有一组丰富的模块，比 awk 或 sed 提供的功能要强大得多。例如，这些模块支持逆向互补 DNA 序列、计算统计数据、解析 CSV 文件或计算 MD5 的单行程序。（有关软件包，请参阅 http://cpan.org/）
Perl 本质上与 sed 和 awk 一样简洁。对于像我这样的人（我怀疑还有你）来说，在命令行上快速转换数据是一个很大的福音。 Python 过于冗长，无法有效地使用命令行。

老实说，我不知道为什么人们会学习 sed 和 awk 而不是 Perl。

郑重声明，我不是“Perl 人”。我喜欢它作为一把瑞士军刀，而不是作为一种宗教。