当前位置：文江博客话题详情

数据提取？

发布于 2024-09-02 06:58:13 字数 122 浏览 0 评论 0原文

我正在寻找从各种网站提取各种数据的方法。我知道你可以购买一些程序，但由于我正在努力学习，所以我想自己做。有人对一般结构有什么建议吗？如果是的话，你会用什么语言编写它。我的第一个想法是java，但我非常愿意也很感激听到其他人的意见。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

凡间太子 2024-09-09 06:58:13

您想从网站中提取什么样的数据？什么网站？等等。关于你的想法/项目的更多细节将会有所帮助，

我最近需要研究并尝试一些 html 解析器来以更统一的格式获取我需要的一些数据。

我尝试了 JTidy (http://jtidy.sourceforge.net/) 并研究了 Web-Harvest (< a href="http://web-harvest.sourceforge.net/" rel="nofollow noreferrer">http://web-harvest.sourceforge.net/）。 JTidy 并不能完全满足我的要求，而 Web-Harvest 则太过分了。

决定使用 Java + htmlparser (http://htmlparser.sourceforge.net/)

我最终只需很少的开发时间即可获得我所需要的内容，并且 htmlparser 允许您形成“过滤器”来搜索 DOM 中的特定内容。

回复收藏 0 原文