Jsoup - 尝试从网页中提取评论数

发布于 2024-11-27 09:28:00 字数 302 浏览 0 评论 0 原文

我正在尝试使用 Jsoup 从网页中提取总体评论数。 例如,这是一个页面(CNN): http://edition.cnn.com/2011/POLITICS/07/31/debt.talks/index.html?hpt=T1

我看到班级 ID 是cnn_strycmtsndff,但无法找到正确的命令来提取它。

有人可以帮忙吗?

谢谢

I'm trying to extract the overall comments number from a web page using Jsoup.
For example, here is a page (CNN): http://edition.cnn.com/2011/POLITICS/07/31/debt.talks/index.html?hpt=T1

I see that the class ID is cnn_strycmtsndff, but can't get to find the right command to extract it.

Can someone help?

Thanks

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

青萝楚歌 2024-12-04 09:28:00

不幸的是,我不认为 Jsoup 会削减它。如果您使用 Chrome 开发人员工具,您可以清楚地挑选出用于呈现“(##### Comments)”部分的 HTML,但如果您只查看源代码,则不会有任何信息。看起来他们正在使用一些 JavaScript 来动态地将信息嵌入到页面中。

这就是你在“查看源代码”中看到的:

<div id="disqus_thread"></div><script type="text/javascript" src="http://cnn.disqus.com/embed.js"></script>

所以Jsoup将永远无法看到带有注释信息的元素。

Unfortunately, I don't think Jsoup is going to cut it. If you use the Chrome developer tools you can clearly pick out the HTML used for presenting the "(##### Comments)" section, but if you just view the source, none of that information is there. It seems like they are using some Javascript to dynamically embed the information in the page.

This is what you see in "View Source":

<div id="disqus_thread"></div><script type="text/javascript" src="http://cnn.disqus.com/embed.js"></script>

So Jsoup will never be able to see the elements with the comment information.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文