手柄 python sgmllib 中的标签
我正在尝试使用 python 脚本解析页面。但是
<A HREF="http://enpass.in/algo/c12.html" CLASS="style"> <NOBR>Simulation for 1st & 2nd path</NOBR></A>
现在我的解析器的 handle_data
函数(使用 sgmllib)无法正确处理数据。这是handle_data代码。
def handle_data(self, data):
self.datainfo.append(data)
我希望 datainfo 数组只有一个元素,即“第一和第二路径的模拟”
但是,当我打印 datainfo 数组时,datainfo 数组的实际内容为 7。
datainfo -> ['', '', 'Simulation for 1st', '&', '2nd path', '', '']
发生什么事了?
I'm trying to parse a page using my python script. But <nobr>
tag along with '&' is giving me trouble. Here the actual html.
<A HREF="http://enpass.in/algo/c12.html" CLASS="style"> <NOBR>Simulation for 1st & 2nd path</NOBR></A>
Now my handle_data
function of my parser(using sgmllib) is not able to handle the data properly. Here is the handle_data code.
def handle_data(self, data):
self.datainfo.append(data)
I expect datainfo array to be have only one element namely "Simulation for 1st & 2nd path"
However, when I print the datainfo array, the actual contents of datainfo array are 7 in number.
datainfo -> ['', '', 'Simulation for 1st', '&', '2nd path', '', '']
Whats happening?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
您需要对 & 符号进行编码,例如
&
才能成为有效的 HTML。You need to encode the ampersand, like
&
to become valid HTML.