如何使用 Perl 计算大型 CSV 文件中的行数?

发布于 2024-07-16 11:32:04 字数 149 浏览 5 评论 0原文

我在工作中必须在Windows环境下使用Perl,并且我需要能够找出一个大的csv文件包含的行数(大约1.4Gb)。 知道如何以最少的资源浪费来做到这一点吗?

谢谢

PS 这必须在 Perl 脚本内完成,并且我们不允许在系统上安装任何新模块。

I have to use Perl on a Windows environment at work, and I need to be able to find out the number of rows that a large csv file contains (about 1.4Gb).
Any idea how to do this with minimum waste of resources?

Thanks

PS This must be done within the Perl script and we're not allowed to install any new modules onto the system.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(6

灵芸 2024-07-23 11:32:04

你指的是行还是行? 单元格可能包含换行符,这会将行添加到文件中,但不会添加行。 如果保证没有单元格包含新行,则只需使用 Perl 常见问题。 否则,您将需要一个适当的 CSV 解析器,例如 Text ::xSV

Do you mean lines or rows? A cell may contain line breaks which would add lines to the file, but not rows. If you are guaranteed that no cells contain new lines, then just use the technique in the Perl FAQ. Otherwise, you will need a proper CSV parser like Text::xSV.

唐婉 2024-07-23 11:32:04

是的,不要使用 perl。

相反,使用简单的实用程序来计算行数; wc.exe

它是从 unix 原始版本移植的 windows 实用程序套件的一部分。

http://unxutils.sourceforge.net/

例如;

PS D:\> wc test.pl
     12      26     271 test.pl
PS D:\>

其中 12 == 行数,26 == 字数,271 == 字符数。

如果你真的必须使用perl;

D:\>perl -lne "END{print $.;}" < test.pl
12

Yes, don't use perl.

Instead use the simple utility for counting lines; wc.exe

It's part of a suite of windows utilities ported from unix originals.

http://unxutils.sourceforge.net/

For example;

PS D:\> wc test.pl
     12      26     271 test.pl
PS D:\>

Where 12 == number of lines, 26 == number of words, 271 == number of characters.

If you really have to use perl;

D:\>perl -lne "END{print $.;}" < test.pl
12
放我走吧 2024-07-23 11:32:04
perl -lne "END { print $. }" myfile.csv

一次只读取一行,因此不会浪费任何内存,除非每一行都非常长。

perl -lne "END { print $. }" myfile.csv

This only reads one line at a time, so it doesn't waste any memory unless each line is enormously long.

赢得她心 2024-07-23 11:32:04

这一行处理行中的新行:

  1. 考虑具有奇数个引号的行。
  2. 考虑到双引号是在字段内指示引号的一种方式。
  3. 它使用很棒触发器运算符。

    perl -ne 'BEGIN{$re=qr/^[^"]*(?:"[^"]*"[^"]*)*?"[^"]*$/; }END{print"计数:$t\n";}$t++ 除非 /$re/../$re/' 
      

考虑一下:

  • wc 不会起作用。 它非常适合计算行数,但不适用于 CSV 行数
  • 应该安装——或者努力安装——Text::CSV 或一些类似的标准包以进行正确处理。
  • 尽管如此,这可能会让你到达那里。

EDIT: It slipped my mind that this was windows:

perl -ne "BEGIN{$re=qr/^[^\"]*(?:\"[^\"]*\"[^\"]*)*?\"[^\"]*$/;}END{print qq/Count: $t\n/;};$t++ unless $pq and $pq = /$re/../$re/;"

奇怪的是,The Broken OS 的 shell 将 && 解释为操作系统条件执行,而我无法做任何事情来改变它的想法!如果我逃脱了它只是将其传递给 Perl。

This one-liner handles new lines within the rows:

  1. Considering lines with an odd number of quotes.
  2. Considering that doubled quotes is a way of indicating quotes within the field.
  3. It uses the awesome flip-flop operator.

    perl -ne 'BEGIN{$re=qr/^[^"]*(?:"[^"]*"[^"]*)*?"[^"]*$/;}END{print"Count: $t\n";}$t++ unless /$re/../$re/'
    

Consider:

  • wc is not going to work. It's awesome for counting lines, but not CSV rows
  • You should install--or fight to install--Text::CSV or some similar standard package for proper handling.
  • This may get you there, nonetheless.


EDIT: It slipped my mind that this was windows:

perl -ne "BEGIN{$re=qr/^[^\"]*(?:\"[^\"]*\"[^\"]*)*?\"[^\"]*$/;}END{print qq/Count: $t\n/;};$t++ unless $pq and $pq = /$re/../$re/;"

The weird thing is that The Broken OS' shell interprets && as the OS conditional exec and I couldn't do anything to change its mind!! If I escaped it, it would just pass it that way to perl.

浊酒尽余欢 2024-07-23 11:32:04

支持 edg 的答案,另一个选择是安装 cygwin 来在 Windows 上获取 wc 和其他一些方便的实用程序。

Upvote for edg's answer, another option is to install cygwin to get wc and a bunch of other handy utilities on Windows.

べ繥欢鉨o。 2024-07-23 11:32:04

我很白痴,在脚本中执行此操作的简单方法是:

open $extract, "<${extractFileName}" or die ("Cannot read row count of $extractFileName");
$rowCount=0;    
while (<$extract>)
{
    $rowCount=$rowCount+1;
}

close($extract);

I was being idiotic, the simple way to do it in the script is:

open $extract, "<${extractFileName}" or die ("Cannot read row count of $extractFileName");
$rowCount=0;    
while (<$extract>)
{
    $rowCount=$rowCount+1;
}

close($extract);
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文