手柄 python sgmllib 中的标签

发布于 2024-10-18 12:26:43 字数 648 浏览 1 评论 0原文

我正在尝试使用 python 脚本解析页面。但是 标记与 '&' 一起使用给我带来了麻烦。这里是实际的 html。

<A HREF="http://enpass.in/algo/c12.html" CLASS="style"> <NOBR>Simulation for 1st & 2nd path</NOBR></A>

现在我的解析器的 handle_data 函数(使用 sgmllib)无法正确处理数据。这是handle_data代码。

def handle_data(self, data):
        self.datainfo.append(data)

我希望 datainfo 数组只有一个元素,即“第一和第二路径的模拟”

但是,当我打印 datainfo 数组时,datainfo 数组的实际内容为 7。

datainfo -> ['', '', 'Simulation for 1st', '&', '2nd path', '', '']

发生什么事了?

I'm trying to parse a page using my python script. But <nobr> tag along with '&' is giving me trouble. Here the actual html.

<A HREF="http://enpass.in/algo/c12.html" CLASS="style"> <NOBR>Simulation for 1st & 2nd path</NOBR></A>

Now my handle_data function of my parser(using sgmllib) is not able to handle the data properly. Here is the handle_data code.

def handle_data(self, data):
        self.datainfo.append(data)

I expect datainfo array to be have only one element namely "Simulation for 1st & 2nd path"

However, when I print the datainfo array, the actual contents of datainfo array are 7 in number.

datainfo -> ['', '', 'Simulation for 1st', '&', '2nd path', '', '']

Whats happening?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

黑色毁心梦 2024-10-25 12:26:43

您需要对 & 符号进行编码,例如 & 才能成为有效的 HTML。

You need to encode the ampersand, like & to become valid HTML.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文