html-content-extraction

html-content-extraction

文章 0 浏览 6

如何以编程方式保存网页?

我想以编程方式保存网页。 我的意思不仅仅是保存 HTML。我还希望自动存储所有关联的文件(图像、CSS 文件、可能嵌入的 SWF 等),并希望重写本地浏览…

花开雨落又逢春i 2024-08-10 23:43:38 9 0

编写可维护的网络抓取应用程序的最佳方法是什么?

不久前我写了一个 Perl 脚本,它登录到我的网上银行并每天通过电子邮件向我发送我的余额和迷你报表。我发现它对于跟踪我的财务状况非常有用。唯一的问…

情未る 2024-08-10 18:14:24 10 0

通过排除导航和 Chrome 内容从 HTML 页面中提取纯内容/文本

我正在抓取新闻网站,想要提取新闻标题、新闻摘要(第一段)等, 我插入了 webkit 解析器代码,以轻松地以树形式导航网页。为了消除导航和其他非新闻…

沧桑㈠ 2024-08-10 16:28:01 11 0

如何使用 PHP 从 HTML 文件中提取所有文本?

如何从 HTML 文件中提取所有文本 我想提取 alt 属性中的所有文本,< p>标签等.. 但是我不想提取样式和脚本标签之间的文本 谢谢, 现在我有以下代码 <…

亚希 2024-08-07 01:56:08 9 0

如何使用 Perl 有效地提取 HTML 内容?

我正在用 Perl 编写一个爬虫,它必须提取驻留在同一服务器上的网页内容。我目前正在使用 HTML::Extract 模块来完成这项工作,但我发现该模块有点慢,…

匿名。 2024-08-04 15:43:26 12 0

从 HTML Java 中提取文本

我正在开发一个程序,该程序下载 HTML 页面,然后选择一些信息并将其写入另一个文件。 我想提取段落标签之间的信息,但我只能获取段落的一行。我的代…

缱绻入梦 2024-08-03 13:14:34 14 0

PHP 中的 HTML 注释抓取

我一直在四处寻找,但尚未找到解决方案。我正在尝试抓取 HTML 文档并获取两个注释之间的文本,但到目前为止还无法成功完成此操作。 我正在使用 PHP,…

溺渁∝ 2024-08-03 11:58:22 13 0

使用回发解析 .Net 页面

我需要从使用联合国的 aspx 页面显示的在线数据库中读取数据。 我以前做过 HTML 解析,但它总是通过操作查询字符串值。 在本例中,站点使用 asp.net …

时光倒影 2024-07-30 06:03:41 8 0

从 HTML 正文中提取文本片段(在 .NET 中)

我有一个由用户通过富文本编辑器输入的 HTML 内容,因此它几乎可以是任何内容(减去那些不应该在 body 标记之外的内容,不用担心“head”或 doctype …

后来的我们 2024-07-30 02:10:51 12 0

使用 BeautifulSoup 查找包含特定文本的 HTML 标签

我正在尝试获取 HTML 文档中包含以下文本模式的元素: #\S{11} this is cool #12345678901 因此,前一个将通过使用进行匹配: soup('h2',text=re.comp…

聽兲甴掵 2024-07-19 13:42:52 12 0

使用selectorgadget.com 解析HTML 文件

我如何使用 beautiful soup 和 selectorgadget 来抓取网站。 例如,我有一个网站 - (newegg 产品) 并且我希望我的脚本返回该产品的所有规格(单击“…

半暖夏伤 2024-07-13 20:45:40 10 0

如何在 vb.net 中解析 HTML

我想知道是否有一种简单的方法可以在 vb.net 中解析 HTML。 我知道 HTML 不是 XML 的严格子集,但如果可以这样处理那就太好了。 有没有什么可以让我在…

孤檠 2024-07-13 01:38:03 13 0

在 iPhone 上解析 HTML

谁能推荐一个用于 HTML 解析的 C 或 Objective-C 库? 它需要处理无法完全验证的混乱 HTML 代码。 这样的库是否存在,或者我最好尝试使用正则表达式?…

孤星 2024-07-11 15:31:43 18 0

在python中解析嵌入在HTML中的固定格式数据

我正在使用谷歌的 appengine api from google.appengine.api import urlfetch 来获取网页。 结果 result = urlfetch.fetch("http://www.example.com/i…

嘴硬脾气大 2024-07-10 18:15:26 15 0

用于提取 HTML 图像属性的正则表达式

我需要一个正则表达式模式来提取图像标签的所有属性。 众所周知,存在大量格式错误的 HTML,因此该模式必须涵盖这些可能性。 我正在查看这个解决方案 …

像极了他 2024-07-10 17:18:01 13 0
更多

推荐作者

qq_2gSKZM

文章 0 评论 0

∞梦里开花

文章 0 评论 0

qq_IklFPL

文章 0 评论 0

迷途知返

文章 0 评论 0

深海不蓝

文章 0 评论 0

更多

友情链接

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文