Linux-两条sed命令删除所有的HTML代码的区别
[root@CentOS5 ~]# cat 121.txt
<HTML>
<HEAD>
<TITLE> New Document </TITLE>
<META NAME="Generator" CONTENT="EditPlus">
<META NAME="Author" CONTENT="">
<META NAME="Keywords" CONTENT="">
<META NAME="Description" CONTENT="">
</HEAD>
<BODY>
This is boby!
</BODY>
</HTML>
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(4)
sed -e 's/<[^<]*.[>$]//g' -e '/^s*$/d' 121.txt
这个命令可以实现上述功能:
sed 's/<[^<]*.[>$]//g;/^$/d' 121.txt > file.txt
sed 's/<[^<].[>$]//g' a.log |sed '/^[ t]$/d'
sed 's/<[^<].[>$]//g;/^[ t]$/d' a.log
sed 's/[^<].[>$]//g;s@<@@g' a.log|sed '/^[ t]$/d'
当然可以哇
区别就是``第一个以<开始匹配`
第二个就是非<开头的数据开始匹配
给个awk的
awk -vRS="<[^<>]*>" 'NF=NF{printf $0}'
加上删除前后空格,还有删除空行
sed -e 's/<[^<]*.[>$]//g' -e 's/^[ t]*//g' -e 's/[ t]*$//g' -e /^$/d 121.txt