AWS胶水横梁排除模式功能
我们需要忽略几条路径,同时爬行特定路径。以下是详细信息:
Include Path: s3://dev-bronze/api/sp/reports/xyz/
Exclude Path: brand=abc/client=xxx/**
完整路径:“ s3:// dev-bronze/api/sp/sp/reports/xyz/brand = abc/client = xxx/”
我们想忽略一些客户的数据。因此,我正在使用上面的地球,但似乎不起作用。任何帮助将不胜感激。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
阐明排除模式之间的区别
brand = abc/client = xxx/**
和brand = abc/client = xxx **
(请注意缺少/)。
排除模式
brand = abc/client = xxx/**
匹配:此模式将匹配
brand> brand = abc/client = xxx/
的所有子文件夹中的对象。排除模式
brand = abc/client = xxx **
匹配:此模式将与
brand = abc/client = xxx/
中的所有对象匹配。如果要在
brand = abc/client = xxx/
中排除文件,请使用Dublude Patternbrand = abc/client = xxx **
。参考:
Clarifying the difference between exclude patterns
brand=abc/client=xxx/**
andbrand=abc/client=xxx**
(note the missing/
).Exclude pattern
brand=abc/client=xxx/**
matches:This pattern will match objects in all subfolders of
brand=abc/client=xxx/
.Exclude pattern
brand=abc/client=xxx**
matches:This pattern will match all objects in
brand=abc/client=xxx/
.If you want to exclude files in
brand=abc/client=xxx/
, then use the exclude patternbrand=abc/client=xxx**
.Reference: Crawler Properties > Include and Exclude Patterns (AWS)