在 Windows 中,对 500k 行文件执行 dos2unix 的最佳方法是什么?
问题说明了一切,我有一个 500,000 行的文件,该文件作为 Windows 机器上自动构建过程的一部分生成,并且充满了 ^M。 当它走出门时,它需要*nix友好,这里最好的方法是什么,是否有一个方便的代码片段可以为我做到这一点? 或者我需要编写一些 C# 或 Java 应用程序吗?
Question says it all, I've got a 500,000 line file that gets generated as part of an automated build process on a Windows box and it's riddled with ^M's. When it goes out the door it needs to *nix friendly, what's the best approach here, is there a handy snippet of code that could do this for me? Or do I need to write a little C# or Java app?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(7)
这是 Perl 的一行代码,摘自 http://www.technocage.com/~caskey/ dos2unix/
您可以按如下方式运行它:
或者,您也可以以这种方式运行它(转换是就地完成的):
这是我的(天真的)C 版本:
您应该使用输入和输出重定向:
Here is a Perl one-liner, taken from http://www.technocage.com/~caskey/dos2unix/
You can run it as follows:
Or, you can run it also in this way (the conversion is done in-place):
And here is my (naive) C version:
You should run it with input and output redirection:
如果安装一个基本的 cygwin 太重,有许多独立的
dos2unix
和unix2dos
网上基于 Windows 独立控制台的程序,许多都提供 C/C++ 源代码。 如果我正确理解了需求,那么这些解决方案都可以很好地适合自动构建脚本。If installing a base cygwin is too heavy, there are a number of standalone
dos2unix
andunix2dos
Windows standalone console-based programs on the net, many with C/C++ source available. If I'm understanding the requirement correctly, either of these solutions would fit nicely into an automated build script.如果您使用的是 Windows 并且需要在批处理脚本中运行某些内容,您可以编译一个简单的 C 程序来实现这一目的。
用法:
就地编辑会有点困难。 此外,您可能出于某种原因想要保留原始文件的备份(例如,以防您不小心删除了二进制文件)。
该版本删除了所有 CR 字符; 如果您只想删除 CR-LF 对中的那些,您可以使用(这是经典的单字符返回方法:-):
您可以使用模式“r+”就地编辑文件。 下面是一个通用的 myd2u 程序,它接受文件名作为参数。 注意:该程序使用 ftruncate 来截断末尾多余的字符。 如果有更好的(标准)方法来做到这一点,请编辑或评论。 谢谢!
If you're on Windows and need something run in a batch script, you can compile a simple C program to do the trick.
Usage:
Editing in-place would be a bit more difficult. Besides, you may want to keep backups of the originals for some reason (in case you accidentally strip a binary file, for example).
That version removes all CR characters; if you only want to remove the ones that are in a CR-LF pair, you can use (this is the classic one-character-back method :-):
You can edit the file in-place using mode "r+". Below is a general myd2u program, which accepts file names as arguments. NOTE: This program uses ftruncate to chop off extra characters at the end. If there's any better (standard) way to do this, please edit or comment. Thanks!
您将键入 ^M 为: ctrl+V ,输入
编辑:您可以使用“\r”而不是手动输入回车符,[感谢@strager]
< em>编辑2:'tr'是一个unix实用程序,您可以从http://下载本机Windows版本/unxutils.sourceforge.net[感谢 @Rob Kennedy] 或使用 cygwin 的unix 模拟。
You will type ^M as : ctrl+V , Enter
Edit: You can use '\r' instead of manually entering a carriage return, [thanks to @strager]
Edit 2: 'tr' is a unix utility, you can download a native windows version from http://unxutils.sourceforge.net[thanks to @Rob Kennedy] or use cygwin's unix emulation.
将其作为 ascii 文件而不是二进制文件从 dos 框 ftp 到 unix 框。
Ftp 将删除 crlf,并插入 lf。 将其作为二进制文件传回dos框,并且lf将被保留。
Ftp it from the dos box, to the unix box, as an ascii file, instead of a binary file.
Ftp will strip the crlf, and insert a lf. Transfer it back to the dos box as a binary file, and the lf will be retained.
某些文本编辑器(例如 UltraEdit/UEStudio)内置了此功能。
文件> 转换> DOS 到 UNIX
Some text editors, such as UltraEdit/UEStudio have this functionality built-in.
File > Conversions > DOS to UNIX
如果只是一个文件我使用notepad++。 很好,因为它是免费的。 我安装了 cygwin 并使用我为多个文件编写的单行脚本。 如果您对脚本感兴趣,请发表评论。 (我现在没有可用的。)
If it is just one file I use notepad++. Nice because it is free. I have cygwin installed and use a one liner script I wrote for multiple files. If your interest in the script leave a comment. (I don't have it available to me a this moment.)