如何从 HTML 页面中提取文本块?
我想使用 PHP 从大型 HTML 页面中提取超过 100 个单词的文本块。文本是否包含在 ...
中并不重要。我只关心构成连贯文本块的单词数,因此 HTML 段落之外的文本也应该考虑在内。
这怎么能做到呢?
I would like to extract blocks of texts with more than 100 words from a large HTML page using PHP. Whether the text is contained in <p>...</p>
doesn't matter. I only care about the number of words that makes a coherent text block so texts outside of HTML paragraphs should also be taken into consideration.
How can this be done?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
我使用 phpQuery。你熟悉 jQuery 吗?它们共享相同的语法。您可能会担心安装新库,但相信我,这个库非常值得付出额外的开销
phpQuery< /a>
然后你可以像这样访问它:
I use phpQuery. Are you familiar with jQuery? they share the same syntax. You might be concerned about installing a new library, but trust me this library is well worth the extra over head
phpQuery
You can then access it like this:
使用 PHP 简单 DOM 解析器。
Use the PHP Simple DOM Parser.