我正在编写一个抓取工具,从同一站点的多个页面下载所有图像文件并将它们保存到特定文件夹
这些页面只有一个会发生变化的变量,并且每个页面只保存一张图像。 (例如: http://www.example.com/photos/ooo1.jpg 。 ..http://www.example.com/p…
BeautifulSoup 或正则表达式 HTML 表到数据结构?
我有一个 HTML 表,我正在尝试从中解析信息。然而,有些表跨越多行/列,所以我想做的是使用 BeautifulSoup 之类的东西将表解析为某种类型的 Python 结…
python BeautifulSoup 库的 ruby 等效项是什么?
我正在寻找一个宽容的 HTML 解析器,用于在 Ruby 中抓取 HTML 和提取数据。我已经成功地使用 BeautifulSoup 来实现这一点 - ruby 的等效项是什么…
BeautifulSoup 用户的 html5lib/lxml 示例?
我正在尝试戒掉 BeautifulSoup,我喜欢它,但似乎(极力)不受支持。我正在尝试使用 html5lib 和 lxml,但我似乎无法弄清楚如何使用“find”和“finda…
如何序列化 beautifulsoup 访问路径?
我有代码,它执行以下操作: item.previous.parent.parent.aTag['href'] 现在我希望能够快速添加过滤器,因此硬编码不再是一种选择。如何使用字符串中…
如何让Beautiful Soup输出HTML实体?
我正在尝试对来自客户端的一些 HTML 输入进行清理和 XSS 防护。我正在使用 Python 2.6 和 Beautiful Soup。我解析输入,剥离不在白名单中的所有标签和…
从使用 BeautifulSoup 解析的 HTML 中删除标签
我是 python 新手,我正在使用 BeautifulSoup 解析网站,然后提取数据。我有以下代码: for line in raw_data: #raw_data is the parsed html separat…
如何获取 HTML 标签的所有属性?
如何获取 HTML 标签的所有属性? listinp = soup('input') for input in listinp: # get all attr on this tag in dict …
如何使用 BeautifulSoup 从 HTML 中删除评论标签?
我一直在玩BeautifulSoup,非常棒。我的最终目标是尝试从页面中获取文本。我只是想从正文中获取文本,特殊情况是从 或 标签获取标题和/或 alt 属性。 …
使用 Beautiful Soup 帮助从 HTML 检索产品代码
一个网页有一个我需要检索的产品代码,它位于以下 HTML 部分中: <table...> <tr> <td> <font size="2">Product Code#</font> &l…
编码解码问题。 Python。姜戈。美丽汤
在此代码中: soup=BeautifulSoup(program.Description.encode('utf-8')) name=soup.find('div',{'class':'head'}) print name.string.decode('utf-8'…
想要所有的链接都有2个属性,如何传递2个属性呢?
我知道如何传递 1 个属性,但如何传递 2 个属性呢? 例如 somerows = soup.findAll('a', target="blank") ,如果我想要所有具有 target="blank" 和 cl…
如何检查我的 BeautifulSoup 版本并将其恢复为旧版本?
我正在使用 beautifulsoup,并且我收到一些带有开始标记等的 htmlparser 错误。 我在 crummy 的网站上读到,一个建议是返回到旧版本(3.08)。 我正在…