我可以将网页源从curl 传输到perl 吗?
我正在解析许多网站的源代码,这是一个包含数千页的庞大网络。现在我想在 perĺ 中搜索内容,我想查找关键字出现的次数。
为了解析网页,我使用curl并将输出通过管道传输到“grep -c”,但这不起作用,所以我想使用perl。可以完全利用perl来抓取页面吗?
例如
cat RawJSpiderOutput.txt | grep parsed | awk -F " " '{print $2}' | xargs -I replaceStr curl replaceStr?myPara=en | perl -lne '$c++while/myKeywordToSearchFor/g;END{print$c}'
说明:在上面的文本文件中,我有可用和不可用的 URL。通过“Grep parsed”我获取可用的 URL。使用 awk,我选择包含纯可用 URL 的第二列。到目前为止,一切都很好。现在回答这个问题:使用 Curl,我获取源代码(也附加一些参数)并将每个页面的整个源代码通过管道传输到 perl,以便计算“myKeywordToSearchFor”的出现次数。如果可能的话,我很乐意在 Perl 中执行此操作。
谢谢!
I'm parsing the sourcecode of many websites, an entire huge web with thousands of pages. Now I want to search for stuff in perĺ, I want to find the number of occurrences of a keyword.
For parsing the webpages I use curl and pipe the output to "grep -c" which doesn't work, so I want to use perl. Can be perl utilised completely to crawl a page?
E.g.
cat RawJSpiderOutput.txt | grep parsed | awk -F " " '{print $2}' | xargs -I replaceStr curl replaceStr?myPara=en | perl -lne '$c++while/myKeywordToSearchFor/g;END{print$c}'
Explanation: In the textfile above I have usable and unusable URLs. With "Grep parsed" I fetch the usable URLs. With awk I select the 2nd column with contains the pure usable URL. So far so good. Now to this question: With Curl I fetch the source (appending some parameter, too) and pipe the whole source code of each page to perl in order to count "myKeywordToSearchFor" occurrences. I would love to do this in perl only if it is possible.
Thanks!
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
这仅使用 Perl(未经测试):
This uses Perl only (untested):
尝试一些更像,
即
或,拼写出
strict
之类的内容Try something more like,
i.e.
or, spelled out
strict
-like