当前位置：文江博客话题详情

HTML 下载和文本提取

发布于 2024-07-12 07:46:35 字数 91 浏览 7 评论 0 原文

下载 URL 列表并仅提取文本内容的好工具或工具集是什么？不需要蜘蛛，但可以控制下载文件名，并且线程将是一个额外的好处。

平台是linux。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

葬シ愛 2024-07-19 07:46:35

wget | html2ascii

注意：html2ascii 也可以称为 html2a 或html2text （我无法在网上找到合适的手册页）。

另请参阅：lynx。

回复收藏 0 原文

乙白 2024-07-19 07:46:35

Python Beautiful Soup 允许您构建不错的提取器。

回复收藏 0 原文

长安忆 2024-07-19 07:46:35

我知道w3m可以用来渲染html文档并将文本内容放入文本文件中
w3m www.google.com > 例如文件.txt。

对于其余部分，我确信可以使用 wget 。

回复收藏 0 原文

鱼窥荷 2024-07-19 07:46:35

在 Sourceforge 上查找适用于 PHP 的简单 HTML DOM 解析器。使用它来解析您通过 CURL 下载的 HTML。每个 DOM 元素都有一个“纯文本”属性，该属性应该只提供文本。在相当长一段时间里，我使用这种组合在很多应用程序中都取得了非常成功的结果。

回复收藏 0 原文

东京女 2024-07-19 07:46:35

PERL（实用提取和报告语言）是一种非常适合此类工作的脚本语言。 http://search.cpan.org/ 包含具有所需功能的模块分配。

回复收藏 0 原文

枕头说它不想醒 2024-07-19 07:46:35

使用 wget 下载所需的 html，然后对输出文件运行 html2text。

回复收藏 0 原文

~没有更多了~

关于作者

凤舞天涯

暂无简介

文章

26 人气

关注发私信

尘曦

文章 0 评论 0

关注

在梵高的星空下

文章 0 评论 0

关注

善良天后

文章 0 评论 0

关注

韬韬不绝

文章 0 评论 0

关注

qq_CgiN62

文章 0 评论 0

关注

不美如何

文章 0 评论 0

友情链接

文江博客

HTML 下载和文本提取

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

关于作者

相关话题

热门标签

推荐作者

尘曦

在梵高的星空下

善良天后

韬韬不绝

qq_CgiN62

不美如何

友情链接

HTML 下载和文本提取

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

关于作者

相关话题

热门标签

推荐作者

尘曦

在梵高的星空下

善良天后

韬韬不绝

qq_CgiN62

不美如何

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。