正则表达式匹配 HTML 中的表行

发布于 2024-12-03 06:10:40 字数 1012 浏览 0 评论 0 原文

可能的重复:
使用 PHP 解析 HTML 的最佳方法

我有一些将表行与 preg 匹配时遇到问题。这是我的表达式:

<TR[a-z\=\"a-z0-9 ]*>([\{\}\(\)\^\=\$\&\.\_\%\#\!\@\=\<\>\:\;\,\~\`\'\*\?\/\+\|\[\]\|\-a-zA-Z0-9À-ÿ\n\r ]*)<\/TR>

如您所见,它尝试匹配 TR 标记之间的所有内容(包括所有符号)。该部分效果很好,但是在处理多个表行时,它通常将多个表行作为一个匹配,而不是比每个表行的匹配:

<TR>
 <TD>test</TD>
</TR>
<TR>
 <TD>test2</TD>
</TR>

产生:

Array
    (
        [0] => <TD>test</TD>
               <TD>test2</TD>
    )

而不是我想要的:

Array
    (
        [0] => <TD>test</TD>
        [1] => <TD>test2</TD>
    )

我意识到这样做的原因是因为它与符号匹配,并且搜索自然会获取其余行,直到找到最后一行。

所以基本上,我想知道是否有人可以帮助我添加到表达式中,以便它将排除 TR 标记之间带有“TR”的任何内容,以防止它匹配多行。

Possible Duplicate:
Best methods to parse HTML with PHP

I'm having a bit of trouble matching table rows with preg. Here is my expression:

<TR[a-z\=\"a-z0-9 ]*>([\{\}\(\)\^\=\$\&\.\_\%\#\!\@\=\<\>\:\;\,\~\`\'\*\?\/\+\|\[\]\|\-a-zA-Z0-9À-ÿ\n\r ]*)<\/TR>

As you can see, it tries to mach everything in-between TR tags (including all symbols.) That part works great, however when dealing with multiple table rows, it often takes multiple table rows as ONE match, rather than a match for each table row:

<TR>
 <TD>test</TD>
</TR>
<TR>
 <TD>test2</TD>
</TR>

yields:

Array
    (
        [0] => <TD>test</TD>
               <TD>test2</TD>
    )

rather than what I want it to:

Array
    (
        [0] => <TD>test</TD>
        [1] => <TD>test2</TD>
    )

I realize that the reason for this is because it's match the symbols, and the search naturally takes the rest of the rows until it hits the last one.

So basically, I'm wondering if someone can help me add to the expression so that it will exclude anything with "TR" in between the TR tags, as to prevent it from matching multiple rows.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

懒猫 2024-12-10 06:10:40

在正则表达式中使用惰性匹配:

但正如其他人提到的,如果可以的话,使用适当的解析器会更健壮。

Use lazy matching in your regex: <tr.*?</tr>

But as others have mentioned, it's more robust to use a proper parser if you can.

绅刃 2024-12-10 06:10:40

尝试使用全局搜索:

preg_match_all("/([^<]+)/", $html, $matches);

Try using global search:

preg_match_all("/<td>([^<]+)/", $html, $matches);

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文