当前位置：文江博客话题详情

前瞻和分组

发布于 2024-09-02 13:07:31 字数 409 浏览 3 评论 0原文

在 Java 中，在像 foo这样的文本上栏事情<开>再次现在，我应该想要一个带有组的正则表达式，它给我一个查找“foo”，“bar”，空字符串，然后是“thing”，“again”，“now”。

如果我执行 (.*?)(.*?)(?!)，我只得到两个组 (foo bar,事情又来了，而且我还没有“现在”结束）。

如果我这样做 (.*?)(.*?)((?!)) 我得到 foo bar 空字符串，然后再次出现并空字符串（这里我应该想要“现在”）。

请问有什么神奇的公式吗？

谢谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

も星光 2024-09-09 13:07:31

如果您坚持使用正则表达式执行此操作，那么您可以尝试使用 \s*<[^>]*>\s* 作为分隔符：

    String text = "foo <on> bar </on> thing <on> again</on> now";
    String[] parts = text.split("\\s*<[^>]*>\\s*");
    System.out.println(java.util.Arrays.toString(parts));
    // "[foo, bar, thing, again, now]"

我不确定这是否完全正确你需要什么，因为还不太清楚。

也许需要这样的东西：

    String text = "1<on>2</on>3<X>4</X>5<X>6</X>7<on>8</on><X>9</X>10";
    String[] parts = text.split("\\s*</?on>\\s*|<[^>]*>[^>]*>");
    System.out.println(java.util.Arrays.toString(parts));
    // prints "[1, 2, 3, 5, 7, 8, , 10]"

这不处理嵌套标签。如果你有这些，你真的想转储正则表达式并使用实际的 HTML 解析器。

如果您不希望数组中间有空字符串，则只需 (?:delimiter)+ 即可。

    String text = "1<on>2</on>3<X>4</X>5<X>6</X>7<on>8</on><X>9</X>10";
    String[] parts = text.split("(?:\\s*</?on>\\s*|<[^>]*>[^>]*>)+");
    System.out.println(java.util.Arrays.toString(parts));
    // prints "[1, 2, 3, 5, 7, 8, 10]"

If you insist on doing this with regex, then you can try to use \s*<[^>]*>\s* as delimiter:

    String text = "foo <on> bar </on> thing <on> again</on> now";
    String[] parts = text.split("\\s*<[^>]*>\\s*");
    System.out.println(java.util.Arrays.toString(parts));
    // "[foo, bar, thing, again, now]"

I'm not sure if this is exactly what you need, because it's not exactly clear.

Perhaps something like this was required:

    String text = "1<on>2</on>3<X>4</X>5<X>6</X>7<on>8</on><X>9</X>10";
    String[] parts = text.split("\\s*</?on>\\s*|<[^>]*>[^>]*>");
    System.out.println(java.util.Arrays.toString(parts));
    // prints "[1, 2, 3, 5, 7, 8, , 10]"

This doesn't handle nested tags. If you have those, you'd really want to dump regex and use an actual HTML parser.

If you don't want the empty string in the middle of the array, then just (?:delimiter)+.

    String text = "1<on>2</on>3<X>4</X>5<X>6</X>7<on>8</on><X>9</X>10";
    String[] parts = text.split("(?:\\s*</?on>\\s*|<[^>]*>[^>]*>)+");
    System.out.println(java.util.Arrays.toString(parts));
    // prints "[1, 2, 3, 5, 7, 8, 10]"

回复收藏 0 原文