如何像 Lynx 一样使用 Perl 将 HTML 呈现为文本?
问题:
- 是否有一个模块可以呈现 HTML,专门用于收集文本,同时遵守字体样式标记,例如 < code>、
、
等和 break-line
,类似于 Lynx。
例如:
# cat test.html
<body>
<div id="foo" class="blah">
<tt>test<br>
<b>test</b><br>
whatever<br>
test</tt>
</div>
</body>
# lynx.exe --dump test.html
test
test
whatever
test
注意:第二个线应该是粗体。
Possible Duplicate:
Which CPAN module would you recommend for turning HTML into plain text?
Question:
- Is there a module to render HTML, specifically to gather the text, while adhering to font-style tags, such as
<tt>
,<b>
,<i>
, etc and break-line<br>
, similar to Lynx.
For example:
# cat test.html
<body>
<div id="foo" class="blah">
<tt>test<br>
<b>test</b><br>
whatever<br>
test</tt>
</div>
</body>
# lynx.exe --dump test.html
test
test
whatever
test
Note: the second line should be bold.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
Lynx 是一个大程序,它的 html 渲染将非常重要。
这个怎么样:
Lynx is a big program and its html rendering will be non trivial.
How about this:
转至 search.cpan.org 并搜索 HTML 文本 这将为您提供很多选项来满足您的特定需求。 HTML::FormatText 是一个很好的基线,然后分支到特定的变体例如 HTML::FormatText::WithLinks 如果你愿意的话将链接保留为脚注。
Go to search.cpan.org and search for HTML text which will give you lots of options to suit your particular needs. HTML::FormatText is a good baseline, and then branch out into specific variations of it, for example HTML::FormatText::WithLinks if you want to preserve links as footnotes.
我在 Windows 上,所以我无法完全测试这一点,但你可以调整 HTML::Parser 附带的 htext:
I am on Windows so I cannot fully test this but you can adapt htext that comes with HTML::Parser: