HTML 下载和文本提取
下载 URL 列表并仅提取文本内容的好工具或工具集是什么? 不需要蜘蛛,但可以控制下载文件名,并且线程将是一个额外的好处。
平台是linux。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
下载 URL 列表并仅提取文本内容的好工具或工具集是什么? 不需要蜘蛛,但可以控制下载文件名,并且线程将是一个额外的好处。
平台是linux。
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(6)
wget
|
html2ascii
注意:html2ascii 也可以称为
html2a
或html2text
(我无法在网上找到合适的手册页)。另请参阅:
lynx
。wget
|
html2ascii
Note: html2ascii can also be called
html2a
orhtml2text
(and I wasn't able to find a proper man page on the net for it).See also:
lynx
.Python Beautiful Soup 允许您构建 不错的提取器。
Python Beautiful Soup allows you to build a nice extractor.
我知道w3m可以用来渲染html文档并将文本内容放入文本文件中
w3m www.google.com > 例如文件.txt。
对于其余部分,我确信可以使用 wget 。
I know that w3m can be used to render an html document and put the text content in a textfile
w3m www.google.com > file.txt for example.
For the remainder, I'm sure that wget can be used.
在 Sourceforge 上查找适用于 PHP 的简单 HTML DOM 解析器。 使用它来解析您通过 CURL 下载的 HTML。 每个 DOM 元素都有一个“纯文本”属性,该属性应该只提供文本。 在相当长一段时间里,我使用这种组合在很多应用程序中都取得了非常成功的结果。
Look for the Simple HTML DOM parser for PHP on Sourceforge. Use it to parse HTML that you have downloaded with CURL. Each DOM element will have a "plaintext" attribute which should give you only the text. I was very successful in a lot of applications using this combination for quite some time.
PERL(实用提取和报告语言)是一种非常适合此类工作的脚本语言。 http://search.cpan.org/ 包含具有所需功能的模块分配。
PERL (Practical Extracting and Reporting Language) is a scripting language that is excellent for this type of work. http://search.cpan.org/ contains allot of modules that have the required functionality.
使用 wget 下载所需的 html,然后对输出文件运行 html2text。
Use wget to download the required html and then run html2text on the output files.