使用 awk 以模式读取文件

发布于 2024-09-09 03:20:52 字数 414 浏览 15 评论 0原文

我有一个以下方式的输入文件

<td> Name1 </td>
<td> <span class="test"><a href="url1">Link </a></span></td>
<td> Name2 </td>
<td> <span class="test"><a href="url2">Link </a></span></td>

我想要一个 awk 脚本来读取该文件并以以下方式输出

url1 Name1
url2 Name2

任何人都可以帮我解决这个看似琐碎的问题吗？谢谢。

原文

I have an input file in following manner

<td> Name1 </td>
<td> <span class="test"><a href="url1">Link </a></span></td>
<td> Name2 </td>
<td> <span class="test"><a href="url2">Link </a></span></td>

I want a awk script to read this file and output in following manner

url1 Name1
url2 Name2

Can anyone help me out in this trivial looking problem? Thanks.

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

尐籹人 2024-09-16 03:20:52

~~为每个提取一个 href 相对简单，只要它们符合 XHTML 标准，并且一行中最多只有一个，并且您不关心封闭标签，但 perl 更容易：~~

~~$ perl -ne 'print "$1\n" if /href="([^"]+)"/'~~

如果您关心封闭标签或者它们不符合标准，则无法使用正则表达式来解析 HTML。这是不可能的。

补充：哎呀，你确实关心上下文，忘记正则表达式并使用真正的 HTML 解析器

~~Extracting one href per is relatively simple, so long as they conform to XHTML standards and there is only at most one on a line and you don't care about enclosing tags, but perl is easier:~~

~~$ perl -ne 'print "$1\n" if /href="([^"]+)"/'~~

If you care about enclosing tags or they are not standard conformant, you cannot use regular expressions to parse HTML. It is impossible.

added: oops, you do care about context, forget about regexps and use a real HTML parser

回复收藏 0 原文

吃→可爱长大的 2024-09-16 03:20:52

这是一个可以完成这项工作的 awk 脚本

awk '
/a href=\".*\"/ { sub( /^.*a href=\"/,"" ); sub(/\".*/,"");  print $0, name }
                { name = $2 }
'

Here is an awk script that does the job

awk '
/a href=\".*\"/ { sub( /^.*a href=\"/,"" ); sub(/\".*/,"");  print $0, name }
                { name = $2 }
'

回复收藏 0 原文

谜兔 2024-09-16 03:20:52

这可能有效：

awk 'BEGIN
     {i=1}{line[i++]=$0}
     END
     {
      j=1; 
      while (j<i) 
      {print line[j+1] line[j]; j+=2}
     }' yourfile|awk '{print substr($4,7,length($4)-6),$6}'

this might work:

awk 'BEGIN
     {i=1}{line[i++]=$0}
     END
     {
      j=1; 
      while (j<i) 
      {print line[j+1] line[j]; j+=2}
     }' yourfile|awk '{print substr($4,7,length($4)-6),$6}'

回复收藏 0 原文

╭⌒浅淡时光〆 2024-09-16 03:20:52

gawk '/^<td>/ {n = $2; getline; print gensub(/.*href="([^"]*).*/,"\\1",1), n}' infile

url1 Name1
url2 Name2

gawk '/^<td>/ {n = $2; getline; print gensub(/.*href="([^"]*).*/,"\\1",1), n}' infile

url1 Name1
url2 Name2

回复收藏 0 原文

絕版丫頭 2024-09-16 03:20:52

awk 'BEGIN{RS=">\n"; FS="> |

每2行作为一条记录。

回复收藏 0 原文

~没有更多了~

关于作者

始终不够爱げ你

暂无简介

0 文章

0 评论

23 人气

关注发私信

謌踐踏愛綪

文章 0 评论 0

关注

开始看清了

文章 0 评论 0

关注

高速公鹿

文章 0 评论 0

关注

alipaysp_PLnULTzf66

文章 0 评论 0

关注

热情消退

文章 0 评论 0

关注

白色月光

文章 0 评论 0

友情链接

文江博客

使用 awk 以模式读取文件

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

謌踐踏愛綪

开始看清了

高速公鹿

alipaysp_PLnULTzf66

热情消退

白色月光

友情链接

使用 awk 以模式读取文件

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

謌踐踏愛綪

开始看清了

高速公鹿

alipaysp_PLnULTzf66

热情消退

白色月光

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。