使用 java 从字符串中查找 mathml

发布于 2024-11-09 20:13:53 字数 581 浏览 3 评论 0原文

我有一个大字符串,其中包含多个 mathml。想把一个字符串数组中的全部取出来。使用正则表达式来查找它们。但正则表达式中缺少某些内容,因此它不会提供任何输出。

MathMls 的正则表达式是什么?

示例字符串

求和 «math xmlns=\"http://www.w3.org/1998/Math/MathML\"»«mroot»«mrow»«mi»#«/mi »《mi》a《/mi》《/mrow》《mn》3《/mn》《/mroot》《mo》=《/mo》《mroot》《mrow》《mi》#《/mi》《mi》 b《/mi》《/mrow》《mn》3《/mn》《/mroot》《/math》 «数学 xmlns=\"http://www.w3.org/1998 /Math/MathML\"»«mo»=«/mo»«msup»«mfenced»«mrow»«mi»#«/mi»«mi»b«/mi»«/mrow»«/mfenced»«mfrac »《mn》1《/mn》《mn》3《/mn》《/mfrac》《/msup》《/数学》

由此得到 2 个 mathml

I have a Big string which has multiple mathmls in it. Want to take out all of them in a string array. Using regex to find them. But something missing in the regex so it doesn't gives any output.

What is the regex for MathMls?

Example string

Find sum of «math xmlns=\"http://www.w3.org/1998/Math/MathML\"»«mroot»«mrow»«mi»#«/mi»«mi»a«/mi»«/mrow»«mn»3«/mn»«/mroot»«mo»=«/mo»«mroot»«mrow»«mi»#«/mi»«mi»b«/mi»«/mrow»«mn»3«/mn»«/mroot»«/math» and «math xmlns=\"http://www.w3.org/1998/Math/MathML\"»«mo»=«/mo»«msup»«mfenced»«mrow»«mi»#«/mi»«mi»b«/mi»«/mrow»«/mfenced»«mfrac»«mn»1«/mn»«mn»3«/mn»«/mfrac»«/msup»«/math»

From this get 2 mathmls

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

萌梦深 2024-11-16 20:13:53

您不能使用 Java 的正则表达式引擎来做到这一点,因为这是有效的输入:

<math>
  <apply>
    <plus/>
    <apply>
      <times/>
      <ci>a</ci>
      <apply>
        <power/>
        <ci>x</ci>
        <cn>2</cn>
      </apply>
    </apply>
    <apply>
      <times/>
      <ci>b</ci>
      <ci>x</ci>
    </apply>
    <ci>c</ci>
  </apply>
</math>

即:可以有任意嵌套标签,并且 Java 的正则表达式引擎无法匹配递归模式。您将不得不求助于一些解析器来处理 MathML 输入。

编辑

我可以将整个事物视为一个字符串并找到匹配的模式吗?这就是我正在尝试的。并且另一个标签内不会有任何递归标签。他们将处于同一水平。

在这种情况下,请尝试此模式:

<math[>\s](?s).*?</math>

或作为字符串文字:

"<math[>\\s](?s).*?</math>"

这意味着:

<math[>\s]   # match `<math` followed by a space or `>`
(?s).*?      # reluctantly match zero or more chars (`(?s)` causes `\r` 
             # and `\n` also to be matched)
</math>      # match `</math>`

You can't do that with Java's regex engine since this is valid input:

<math>
  <apply>
    <plus/>
    <apply>
      <times/>
      <ci>a</ci>
      <apply>
        <power/>
        <ci>x</ci>
        <cn>2</cn>
      </apply>
    </apply>
    <apply>
      <times/>
      <ci>b</ci>
      <ci>x</ci>
    </apply>
    <ci>c</ci>
  </apply>
</math>

i.e.: there can be arbitrary nested tags and Java's regex engine has no ability to match recursive patterns. You will have to resort to some parser to handle MathML input.

EDIT

Can i consider the entire thing as a string and find for a pattern which matches ? That is what i am trying. And there is not going to be any recursive tags inside another tag. they will be in same level.

In that case, try this pattern:

<math[>\s](?s).*?</math>

or as a String literal:

"<math[>\\s](?s).*?</math>"

which means:

<math[>\s]   # match `<math` followed by a space or `>`
(?s).*?      # reluctantly match zero or more chars (`(?s)` causes `\r` 
             # and `\n` also to be matched)
</math>      # match `</math>`
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文