当前位置：文江博客话题详情

正则表达式：仅当字符串不是标签的一部分时才匹配字符串

发布于 2024-08-03 04:20:26 字数 228 浏览 13 评论 0原文

我只尝试匹配不属于 html 标签一部分的字符串。

例如，搜索字符串时：“abc”。 abc def 应该匹配 <代码>

foo bar foo abc foo bar

应该匹配

，但是 foo 不应匹配。

感谢您的帮助！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

喜爱皱眉﹌ 2024-08-10 04:20:26

我真的不会使用正则表达式来匹配 HTML，因为 HTML 不是常规的，而且有大量的边缘情况会让你陷入困境。对于除最简单情况之外的所有情况，我都会使用 HTML 解析器（例如这个对于 PHP）。

回复收藏 0 原文

美男兮 2024-08-10 04:20:26

Brian 说得有道理，无论如何，如果你想使用正则表达式，那么它适合你的输入：

.*>[^<]*abc[^<]*<.*

Brian has got a point, anyway, if you wish to use a regex, that one suits you inputs:

.*>[^<]*abc[^<]*<.*

回复收藏 0 原文

断舍离 2024-08-10 04:20:26

我非常确信任何正则表达式都会在某些 CDATA 部分上崩溃。

回复收藏 0 原文

日久见人心 2024-08-10 04:20:26

您正在寻找的是 DOM 解析器。这将删除所有 HTML 并为您提供正在检查的页面的纯文本，然后您可以对其进行匹配。不确定你的用例是什么，但我不假设你没有操作 DOM，否则你会使用 JavaScript。

如果您只是提取信息，请使用简单 HTML DOM 解析器解析页面，然后匹配对比你可以从解析的对象中获得的纯文本。

回复收藏 0 原文

小镇女孩 2024-08-10 04:20:26

虽然我也同意 Brian 的评论，我经常用正则表达式进行快速而肮脏的解析，对于你的情况，我' d 使用这样的东西：

“序列化”数据

<前><代码>s/[\r\n]//
s///
s//>\n/

然后简单地过滤所有以 < 开头的行

s/^<.*//

剩下的只是文本（可能还有很多空白）。尽管这不是关于正则表达式，而是更多关于搜索和替换。

While I too agree with Brian's comment, i often do quick and dirty parsing with regular expressions, and for your case, i'd use something like this:

"serialize" the data

s/[\r\n]//
s/<!\[CDATA\[.*?]]>//
s/</\n</
s/>/>\n/

then simply filter all lines that begin with <

s/^<.*//

What you're left with is just the text (and possibly a lot of white-space). Though this is less about regular expressions and more about search and replace.

回复收藏 0 原文

~没有更多了~

关于作者

半山落雨半山空

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

正则表达式：仅当字符串不是标签的一部分时才匹配字符串

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

正则表达式：仅当字符串不是标签的一部分时才匹配字符串

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。