如何从 HTML 页面中提取文本块?

发布于 2024-10-21 02:20:39 字数 139 浏览 10 评论 0原文

我想使用 PHP 从大型 HTML 页面中提取超过 100 个单词的文本块。文本是否包含在

...

中并不重要。我只关心构成连贯文本块的单词数,因此 HTML 段落之外的文本也应该考虑在内。

这怎么能做到呢?

I would like to extract blocks of texts with more than 100 words from a large HTML page using PHP. Whether the text is contained in <p>...</p> doesn't matter. I only care about the number of words that makes a coherent text block so texts outside of HTML paragraphs should also be taken into consideration.

How can this be done?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

缺⑴份安定 2024-10-28 02:20:39

我使用 phpQuery。你熟悉 jQuery 吗?它们共享相同的语法。您可能会担心安装新库,但相信我,这个库非常值得付出额外的开销

phpQuery< /a>

然后你可以像这样访问它:

foreach($doc->find('p') as $element){
   $element = pq($element);
   echo str_word_count($element->text());
}

I use phpQuery. Are you familiar with jQuery? they share the same syntax. You might be concerned about installing a new library, but trust me this library is well worth the extra over head

phpQuery

You can then access it like this:

foreach($doc->find('p') as $element){
   $element = pq($element);
   echo str_word_count($element->text());
}
罪歌 2024-10-28 02:20:39

使用 PHP 简单 DOM 解析器

foreach($html->find('p') as $element){
   echo str_word_count($element->src);
}

Use the PHP Simple DOM Parser.

foreach($html->find('p') as $element){
   echo str_word_count($element->src);
}
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文