如何在 beautifulsoup 中打开带有 windows-1252 编码的 HTML 页面
我尝试用 beautifulsoup 解析 HTML 文档,但遇到了麻烦。打开使用 windows-1252 编码的 HTML 文档的最佳方法是什么? 我尝试使用 iconv 转换为 utf-8 …
删除
来自已解析的 Beautiful Soup 列表的标签?
我目前正在进入一个 for 循环,其中包含我想要的所有行: page = urllib2.urlopen(pageurl) soup = BeautifulSoup(page) tables = soup.find("td", "b…
Beautifulsoup 和 AJAX 表问题
我正在制作一个脚本,用于抓取国际星际争霸 2 游戏的 Team Liquid 数据库中的游戏。 (http://www.teamliquid.net/tlpd/sc2-international/games) 但…
Python BeautifulSoup 的编码错误 +数据库
我正在使用 BeautifulSoup python 库。 我使用 urllib2 库从页面下载 HTML 代码,然后使用 BeautifulSoup 对其进行解析。 我想将一些 HTML 内容保存到…
访问 BeautifulSoup 中的属性时出现问题
我在使用 Python (2.7) 时遇到问题。代码基本上包括: str = 'ABCDEF' z = BeautifulStoneSoup(str) for x in z.findAll('el'): # if 'at' in x: # if…
如何传递“BeautifulSoup.Tag”谷歌应用程序引擎中http post请求内的对象?
我有一个 BeautifulSoup.Tag 对象,我想在 http post 请求中传输它。 具体来说,这是谷歌应用程序引擎中的任务将执行的请求。 这是代码: taskqueue.a…
删除一些文本后的 HTML 文件的其余部分
我正在 python 中使用 BeautifulSoup 抓取 HTML 文件。 我想在找到单词后删除文本。 例如: Page 1 Page 2 Page 3 Page 4 Page 5 我想从第 3 页删除。…
如何使用 Python 迭代标签?
我想迭代一些 html 并将数据存储到字典中。每次迭代都以以下内容开始: 我有以下代码: html = 'Data1other dataData2other data2' soup=BeautifulSou…
属性错误故障排除:“ResultSet”对象没有属性“findAll”;
我正在尝试解析 http://www.ted.com/talks 页面以获取所有名称的谈话。使用 BeautifulSoup,这就是我所拥有的: import urllib2 from BeautifulSoup i…
如何使用python,BeautifulSoup获取span值
我是第一次使用 BeautifulSoup,并尝试从 soup 对象收集一些数据,例如电子邮件、电话号码和邮寄地址。 使用正则表达式,我可以识别电子邮件地址。我…
如何在Python中使用BeautifulSoup将表存储在变量中,每行作为元素和分隔符来区分列?
我想将 html 表存储在名为 store 的变量中。 html = ['row1col1row1col2row1col3row2col1row2col2row2col3'] soup = BeautifulSoup(''.join(html)) ta…
如何在 Python 中使用 BeautifulSoup 删除 HTML 标签之间的空格?
我有以下问题:当 html 标签之间有空格时,我的代码没有给出我想要输出的文本。 我没有输出: year|salary|bonus 2005|100,000|50,000 2006|120,000|8…
使用 lxml.html 与 BeautifulSoup 定位元素
我正在使用 lxml.html 抓取 html 文档;我可以在 BeautifulSoup 中做一件事,但无法用 lxml.htm 做。如下: from BeautifulSoup import BeautifulSoup…
如何使用Python解析网页[html]上的Java脚本包含[动态]?
我正在构建一个蜘蛛,并使用 Beautiful soup 来解析特定 URL 的包含内容。 现在,一些网站正在使用 JavaScript 来显示动态内容,一旦发生某些操作 [点…
如何在 Python 中使用 BeautifulSoup 找到文本字符串后的表格?
我正在尝试从几个网页中提取数据,这些网页的显示方式并不统一。我需要编写代码来搜索文本字符串,然后转到紧随该特定文本字符串的表。然后我想提取该…