使用 BeautifulSoup 获取与扩展名匹配的文件名
我正在尝试使用 BeautifulSoup 解析 HTML 页面,该页面包含文本文件,以 .txt 扩展名结尾。我想解析 HTML,并获取以 .txt 结尾的字符串。 所有此类字…
在 django 中同步新的 BeautifulSoup 包时出现问题
这是回溯,请帮忙。 Traceback (most recent call last): File "C:\Documents and Settings\EC.32-SAMUEL\workspace\ec\ec\manage.py", line 11, in e…
BeautifulSoup 无法提取元数据
我正在尝试创建一个函数,该函数将从给定的 URL 中提取元关键字并返回它。然而,无论我传递给它什么 URL,它总是会失败。 def GetKeywords(url): soup…
从非唯一表上的 html 检索字符串
这是我试图解析的 html。 Serial NumberAB12345678 我正在尝试使用正则表达式来解析数据。我听说过 BeautifulSoup,但页面上有大约 50 个类似的项目,…
为什么 Beautiful Soup 无法显示所有表中的数据?
一周前我尝试抓取维基百科页面。但我无法弄清楚为什么 Beautiful Soup 只会显示表列中的一些字符串,而其他表列则显示“无”。 注意:表列均包含数据…
Python href 并保存到 .txt(不用担心,不是另一个正则表达式问题)
我目前正在创建一个 python 脚本,允许用户输入 torrent 的哈希值(通过终端),并通过网站检查更多跟踪器。然而,我很茫然,希望能得到一些建议,因…
使用 BeautifulSoup 提取标签内的内容
我想提取内容Hello world。请注意,页面上还有多个 和类似的 : Name: Hello world ... 我尝试了以下操作: hello = soup.find(text='Name: ') hello.…
美丽汤 - nextSibling
我尝试使用以下内容获取内容“我的家庭地址”,但收到 AttributeError: address = soup.find(text="Address:") print address.nextSibling This is my…
BeautifulSoup:使用字符串获取值
是否可以使用字符串来获取标签的值? XML 结构: book title titletext book title titletext 代码: books = BeautifulStoneSoup().findAll('book') …
BeautifulSoup 打印多个标签/属性
首先,这是我第一次尝试 Python,到目前为止它看起来很容易使用,尽管我仍然遇到了问题.. 我正在尝试将 XML 文件更改为 rss-XML 原始的 xml 源看起来…
如何在 beautifulsoup 中打开带有 windows-1252 编码的 HTML 页面
我尝试用 beautifulsoup 解析 HTML 文档,但遇到了麻烦。打开使用 windows-1252 编码的 HTML 文档的最佳方法是什么? 我尝试使用 iconv 转换为 utf-8 …
删除
来自已解析的 Beautiful Soup 列表的标签?
我目前正在进入一个 for 循环,其中包含我想要的所有行: page = urllib2.urlopen(pageurl) soup = BeautifulSoup(page) tables = soup.find("td", "b…
Beautifulsoup 和 AJAX 表问题
我正在制作一个脚本,用于抓取国际星际争霸 2 游戏的 Team Liquid 数据库中的游戏。 (http://www.teamliquid.net/tlpd/sc2-international/games) 但…
Python BeautifulSoup 的编码错误 +数据库
我正在使用 BeautifulSoup python 库。 我使用 urllib2 库从页面下载 HTML 代码,然后使用 BeautifulSoup 对其进行解析。 我想将一些 HTML 内容保存到…
访问 BeautifulSoup 中的属性时出现问题
我在使用 Python (2.7) 时遇到问题。代码基本上包括: str = 'ABCDEF' z = BeautifulStoneSoup(str) for x in z.findAll('el'): # if 'at' in x: # if…