“父母”究竟是如何做到的？ HTML::TreeBuilder 中的函数可以工作吗？

发布于 2024-10-15 05:45:08 字数 930 浏览 5 评论 0原文

CPAN 文档并没有真正解释这种行为，除非我遗漏了一些东西。我整理了一些快速测试代码来说明我的问题：

#!/usr/bin/perl
use warnings;
use strict;

use HTML::TreeBuilder;

my $testHtml = " 
<body>
        <h1>
                <p> 
                        <p>HELLO!
                        </p> 
                </p> 
        </h1>
</body>";

my $parsedPage = HTML::TreeBuilder->new;
$parsedPage->parse($testHtml);
$parsedPage->eof();

my @p = $parsedPage->look_down('_tag' => 'p');

foreach (@p) {print $_->parent->tag, " : ", $_->tag, "\t", $_->as_text, "\n";}

运行上述脚本后，输出为：

body : p

body : p        HELLO!

由于所有标签都一个接一个地嵌套，我认为第一个 p 标签将为 h1，第二个 p 标签的父标签将为 p。为什么父函数显示两者的 body 标记？

原文

The documentation on CPAN doesn't really explain this behavior unless I'm missing something. I've put together some quick test code to illustrate my problem:

#!/usr/bin/perl
use warnings;
use strict;

use HTML::TreeBuilder;

my $testHtml = " 
<body>
        <h1>
                <p> 
                        <p>HELLO!
                        </p> 
                </p> 
        </h1>
</body>";

my $parsedPage = HTML::TreeBuilder->new;
$parsedPage->parse($testHtml);
$parsedPage->eof();

my @p = $parsedPage->look_down('_tag' => 'p');

foreach (@p) {print $_->parent->tag, " : ", $_->tag, "\t", $_->as_text, "\n";}

After running the above script, the output is:

body : p

body : p        HELLO!

Seeing as all the tags are nested one after another, I would think that the parent of the first p tag would be h1, and the parent of the second p tag would be p. Why is the parent function showing the body tag for both?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

南汐寒笙箫 2024-10-22 05:45:08

您的 HTML 无效。鉴于 HTML::TreeBuilder 是 HTML::Parser 的子类，我只能假设解析器正在尽其所能将您的文档转换为有效的 HTML。

您可以调用 $parsedPage->as_HTML 来查看解析器对您的 HTML 做了什么。它给了我这样的信息：

<html><head></head><body><h1></h1><p><p>HELLO! </body></html>

也许您应该在处理 HTML 之前将其传递给验证器或 HTML::Tidy。

Your HTML is invalid. And given that HTML::TreeBuilder is a subclass of HTML::Parser, I can only assume that the parser is doing what it can to transform your document into valid HTML.

You can call $parsedPage->as_HTML to see what the parser has done to your HTML. It gives me this:

<html><head></head><body><h1></h1><p><p>HELLO! </body></html>

Perhaps you should pass your HTML through a validator or HTML::Tidy, before processing it.

回复收藏 0 原文

~没有更多了~

关于作者

逆光飞翔i

暂无简介

文章

27 人气

关注发私信

友情链接

文江博客

“父母”究竟是如何做到的？ HTML::TreeBuilder 中的函数可以工作吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

尘曦

在梵高的星空下

善良天后

韬韬不绝

qq_CgiN62

不美如何

友情链接

“父母”究竟是如何做到的？ HTML::TreeBuilder 中的函数可以工作吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

尘曦

在梵高的星空下

善良天后

韬韬不绝

qq_CgiN62

不美如何

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。