如何存储 /*url* 的实际名称?
我正在将脚本转换为 HDFS (Hadoop),并且我有这个 cmd:
tail -n+$indexedPlus1 $seedsDir/*url* | head -n$it_size > $it_seedsDir/urls
使用 HDFS,我需要使用 -get 获取文件,这可以工作。
bin/hadoop dfs -get $seedsDir/*url* .
但是我不知道下载的文件名是什么,更不用说我想存储在 $local_seedsDir/url 中。 我可以知道吗?
KISS 告诉我:
bin/hadoop dfs -get $seedsDir/*url* $local_seedsDir/urls
即只需在本地将文件命名为 url 即可。
I'm converting a script to HDFS (Hadoop) and I have this cmd:
tail -n+$indexedPlus1 $seedsDir/*url* | head -n$it_size > $it_seedsDir/urls
With HDFS I need to get the file using -get and this works.
bin/hadoop dfs -get $seedsDir/*url* .
However I don't know what downloaded file name is, let alone that I wanted to store in $local_seedsDir/url.
Can I know?
KISS tells me:
bin/hadoop dfs -get $seedsDir/*url* $local_seedsDir/urls
i.e. just name the file as urls locally.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
然后使用 tail 和 head 从 url 中提取实际文件名并将其存储在 $urls 中
,否则,只需 KISS
then tail and head to extract from url the actual file name and store it in $urls
But otherwise, just KISS