URL去重后续~
唉,真不好意思,自己awk功力实在没到位,厚着脸皮再次向各位求助
目前需求如下
原始文件:
www.123.com/ff.php?a=1&b=1&c=1
www.123.com/ff.php?a=2&b=1&c=3
www.123.com/ff.php?a=1&b=1&c=1
www.123.com/ff.php?a=1&b=2
www.fff.com/index.html
现在认为前3个为重复的,也就是不管GET提交的变量顺序和值是怎样的,如果变量都一样就只取一个,得到结果如下
www.123.com/ff.php?a=1&b=1&c=1
www.123.com/ff.php?a=1&b=2
www.fff.com/index.html
真心求教好方法
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(9)
perl -F"\?|=.+?&?" -ane 'chomp @F;$a="@{[sort @F]}";if(!$a{$a}){$a{$a}=print}' file
这位perl大拿,我很佩服,可是我这环境限制,最好还是能用shell实现~~
awk -F "?|&" '\
{
if ($1 in array){
if (array[$1] == NF)
next
}
array[$1] = NF
print $0
}
'
没有测试过
可能会有点小问题
不过思路是没问题的
awk也一样
复制代码
小弟着实佩服,请问学习哪本书可以比较深入呢,又不晦涩
sed & awk 第二版
没看过书 网上查就行
复制代码