我如何/应该使用 Python 将 html 文档分成几个部分? (技术上和逻辑上)
我有一个 HTML 文档,我试图将其分成单独的、较小的块。说,取每个< h3> header 并变成自己的单独文件,仅使用该块中编码的 HTML(以及 html、hea…
美丽的汤如何在迭代时打印标签
我的 xml 看起来像这样,我想获取位置。 <?xml version="1.0" encoding="UTF-8"?> <playlist version="1" xmlns="http://xspf.org/ns/0/"> &l…
使用 Blobstore 解析 App Engine 中大型 XML 文件的各个部分?
我正在开发一个谷歌应用程序引擎应用程序,该应用程序必须处理一些从表单上传的较大(<100 MB)XML文件,这些文件将超出GAE的限制——上传文件的时…
提高 BeautifulSoup 性能
所以我有以下一组代码来解析美味的信息。它以以下格式 打印 美味页面中的数据人数 书签|人数 等等... 我曾经使用以下方法来查找此信息。 def extract …
Python过滤器列表从html源代码中删除某些链接
我有 html 源代码,我想过滤掉一个或多个链接并保留其他链接。 我已经使用“*”作为通配符设置了过滤器: <a*>Link1</a>‚ <a*>Link2</…
BeautifulSoup:获取内容[]作为单个字符串
有人知道一种优雅的方法来将 soup 对象的全部内容作为单个字符串获取吗? 目前我正在获取 contents,这当然是一个列表,然后迭代它: notices = soup.…
Beautiful Soup 解析 url 以获取另一个 url 数据
我需要解析 url 以获取链接到详细信息页面的 url 列表。然后,我需要从该页面获取该页面的所有详细信息。我需要这样做,因为详细信息页面 url 不会定…
Python 库可以进行类似 jQuery 的文本提取吗?
我有包含这样的条目的 html: <div class="entry"> <h3 class="foo"> <a href="http://www.example.com/blog-entry-slug" rel="bookmark"&g…
使用 Beautiful Soup 从字符串中去除 html 标签
有谁有一些示例代码来说明如何使用Python的Beautiful Soup从文本字符串中删除所有html标签(除了一些标签)? 我想删除所有 javascript 和 html 标签…
BeautifulSoup:如何从包含一些嵌套的列表中提取所有- ?
- 列表中提取所有
- ?
我是一名新手程序员,试图通过构建一个脚本来跳入Python,该脚本可以抓取 http://en.wikipedia .org/wiki/2000s_in_film 并提取“电影标题(年份)”…
Python 安装库无法安装
我使用的是 Windows XP。 我已经按照此处的建议下载了 Python 2.7。我单击了 .msi 链接,它安装得很好。现在,我想使用 beautifulsoup。我下载的是3.2…
编写 Python RegEx 以选择 HTML 中列表项的子集
我有一个文件夹的网络索引视图... <ul><li><a href="/sustainabilitymedia/pics/s5/"> Parent Directory</a></li> <li><a …
Python、BeautifulSoup 或 LXML - 使用 CSS 标签从 HTML 解析图像 URL
我四处寻找有关 BeautifulSoup 或 LXML 如何工作的合理解释。诚然,他们的文档很棒,但对于像我这样的 python/编程新手来说,很难破译我正在寻找的内…
如何删除 BeautifulSoup 中的空格
我正在使用 BeautifulSoup 解析一堆 HTML,除了一个小问题外,一切进展顺利。我想将输出保存到单行字符串中,以下内容作为我当前的输出: <li><…