关于网站抓数据的问题【菜鸟】

发布于 2022-08-28 22:48:40 字数 707 浏览 13 评论 0

试图从网站上抓数据,如果是静态的网页,整个数据库以文本的形式在网页上似乎不是难事。但是,有些网站的数据是动态生成的。例如:需要用户输入关键字,选择时间段进行搜索后生成数据表格,或者需要手动点击多级链接后出现数据表格。对此类网页抓数据的方法毫无头绪。求一个相对简单的解决方案,只要能解决问题就行,不局限于一定要使用某一软件或语言。

要抓的网页例子:

http://meps.ahrq.gov/mepsweb/data_stats/quick_tables_search.jsp?component=1&subcomponent=0
次站是需要进行关键字搜索,通过站内搜索引擎获得数据表

http://apps.who.int/gho/data/node.main
次站需要点击多级链接后生成数据表

万分感谢愿意提供思路的前辈!


意识到了问题的难度,想试图简化这个问题。有什么可以批量抓取静态网页的包或软件可以推荐吗?简易也没关系,最好是可以拿来就用,多多益善。谢谢!

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(5

海的爱人是光 2022-09-04 22:48:40

动态生成的肯定能抓取到他ajax提交的地址吧,能抓取到地址就模拟数据提交一下,返回的都是你要的数据吧.哪就ok了吧.

恍梦境° 2022-09-04 22:48:40

你可以看看 火车头 工具

南街九尾狐 2022-09-04 22:48:40

curl是你想要的

看这篇文章

吻安 2022-09-04 22:48:40

htmlunit,带js解析引擎,可以执行js,不复杂的js可以得到执行结果http://htmlunit.sourceforge.net/

神妖 2022-09-04 22:48:40

python写过抓图片的

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文