HTML 下载和文本提取

发布于 2024-07-12 07:46:35 字数 91 浏览 7 评论 0 原文

下载 URL 列表并仅提取文本内容的好工具或工具集是什么? 不需要蜘蛛,但可以控制下载文件名,并且线程将是一个额外的好处。

平台是linux。

What would be a good tool, or set of tools, to download a list of URLs and extract only the text content?
Spidering is not required, but control over the download file names, and threading would be a bonus.

The platform is linux.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(6

葬シ愛 2024-07-19 07:46:35

wget | html2ascii

注意:html2ascii 也可以称为 html2ahtml2text (我无法在网上找到合适的手册页)。

另请参阅:lynx

wget | html2ascii

Note: html2ascii can also be called html2a or html2text (and I wasn't able to find a proper man page on the net for it).

See also: lynx.

乙白 2024-07-19 07:46:35

Python Beautiful Soup 允许您构建 不错的提取器

Python Beautiful Soup allows you to build a nice extractor.

长安忆 2024-07-19 07:46:35

我知道w3m可以用来渲染html文档并将文本内容放入文本文件中
w3m www.google.com > 例如文件.txt。

对于其余部分,我确信可以使用 wget 。

I know that w3m can be used to render an html document and put the text content in a textfile
w3m www.google.com > file.txt for example.

For the remainder, I'm sure that wget can be used.

鱼窥荷 2024-07-19 07:46:35

在 Sourceforge 上查找适用于 PHP 的简单 HTML DOM 解析器。 使用它来解析您通过 CURL 下载的 HTML。 每个 DOM 元素都有一个“纯文本”属性,该属性应该只提供文本。 在相当长一段时间里,我使用这种组合在很多应用程序中都取得了非常成功的结果。

Look for the Simple HTML DOM parser for PHP on Sourceforge. Use it to parse HTML that you have downloaded with CURL. Each DOM element will have a "plaintext" attribute which should give you only the text. I was very successful in a lot of applications using this combination for quite some time.

东京女 2024-07-19 07:46:35

PERL(实用提取和报告语言)是一种非常适合此类工作的脚本语言。 http://search.cpan.org/ 包含具有所需功能的模块分配。

PERL (Practical Extracting and Reporting Language) is a scripting language that is excellent for this type of work. http://search.cpan.org/ contains allot of modules that have the required functionality.

枕头说它不想醒 2024-07-19 07:46:35

使用 wget 下载所需的 html,然后对输出文件运行 html2text。

Use wget to download the required html and then run html2text on the output files.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文