当前位置：文江博客话题详情

如何从网站收集数据

发布于 2024-12-21 15:56:58 字数 188 浏览 2 评论 0原文

前言：我对几种语言（C++、VB、C#、Java、许多网络语言）拥有广泛的大学知识，所以选择您喜欢的语言即可。

我想制作一个比较数字的 Android 应用程序，但为了做到这一点，我需要一个数据库。我是一个单人团队，数据每两周更新一次，所以我想从也会更新的维基上获取这些数据。

所以我的问题是：如何使用上述语言之一从网站访问信息？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

猥︴琐丶欲为 2024-12-28 15:56:58

我对问题的理解是：某个实体每隔一周生成一个数据集（即数字），并且您需要下载该数据集进行处理（例如排序）。

理想情况下，维护 wiki 的网站将提供一项服务，例如 RESTful 界面，以便轻松收集数据。如果是这样的话，我会选择任何可以轻松操作 HTTP 请求和请求的语言。响应，并使您的数据操作变得容易。正如之前的发帖者所说，Java 可以很好地工作。

如果您被 wiki 页面困住了，您有几个选择。您可以解析浏览器接收到的 HTML（Perl 是一种不错的语言）。或者您可以使用为此目的构建的工具，例如前面提到的 Jsoup。

您的问题还提到了一些实现细节，例如需要数据库。显然，没有足够的上下文信息让我知道这是否是最佳的，所以我不会解决问题的这方面。

回复收藏 0 原文

弥枳 2024-12-28 15:56:58

http://jsoup.org/ 是一个很棒的 Java 工具，用于访问 html 页面上的内容

回复收藏 0 原文

清眉祭 2024-12-28 15:56:58

考虑一下 https://scraperwiki.com/ - 这是一个用户可以贡献抓取工具的网站。只要您公开您的抓取工具，它就是免费的。抓取工具的结果以 csv 和 JSON 形式公开。

如果您不知道“scraper”是什么，请谷歌“屏幕抓取” - 对于编码人员来说，这是一个漫长而令人沮丧的传统，自从网络计算开始以来，他们就一直在处理与您相同的问题。

回复收藏 0 原文

人疚 2024-12-28 15:56:58

您可以查看：http://web-harvest.sourceforge.net/

回复收藏 0 原文

无可置疑 2024-12-28 15:56:58

对于 Python，BeautifulSoup 是最宽容的 HTML 解析器之一。文档还列出了 Ruby 和 Java 中的类似库，因此您可能会在那里找到相关的东西。

回复收藏 0 原文

~没有更多了~

关于作者

安静

暂无简介

文章

26 人气

关注发私信

燃烧我的卡路李先生

文章 0 评论 0

关注

qq_2gSKZM

文章 0 评论 0

关注

∞梦里开花

文章 0 评论 0

关注

qq_IklFPL

文章 0 评论 0

关注

迷途知返

文章 0 评论 0

关注

深海不蓝

文章 0 评论 0

友情链接

文江博客

如何从网站收集数据

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签