当前位置：文江博客话题详情

使用Java从HTML页面抓取数据，输出到数据库

发布于 2024-08-25 15:02:33 字数 1436 浏览 9 评论 0原文

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

假装爱人 2024-09-01 15:02:33

首先，您需要熟悉 Java 中的 HTML DOM 解析器，例如 JTidy。这将帮助您从 HTML 文件中提取所需的内容。获得必要的内容后，您可以使用JDBC 放入数据库。

使用正则表达式来完成这项工作可能很诱人。但不要。 HTML 不是常规语言，因此正则表达式不是最佳选择。

回复收藏 0 原文

蹲在坟头点根烟 2024-09-01 15:02:33

我正在使用 JSoup 运行一个爬虫，我是一个菜鸟，但发现它非常直观且易于使用。它还能够解析各种来源的 html、XML、RSS 等。

我尝试过 htmlunit，但几乎没有成功。

回复收藏 0 原文

君勿笑 2024-09-01 15:02:33

我在一个抓取 HTML 页面的项目中成功使用了 lobo 浏览器 API。 lobo 浏览器项目提供了一个浏览器，但您也可以非常轻松地使用它背后的 API。它还会执行 javascript，如果该 javascript 操作 DOM，那么当您研究 DOM 时，这也会反映在 DOM 中。所以，简而言之，API 允许你模仿浏览器，你还可以使用 cookies 之类的东西。

现在，为了从 HTML 中获取数据，我首先将 HTML 转换为有效的 XHTML。您可以使用 jtidy 。由于 XHTML 是有效的 XML，因此您可以使用 XPath 非常轻松地检索所需的数据。如果您尝试编写从原始 HTML 解析数据的代码，您的代码很快就会变得一团糟。因此我会使用 XPath。

获得数据后，您可以使用 JDBC 将其插入数据库中如果你想避免编写太多 SQL，请使用 Hibernate

回复收藏 0 原文

木緿 2024-09-01 15:02:33

很大一部分网站都是基于格式错误的 HTML 代码构建的。
使用 HtmlCleaner 清理您想要解析的源代码。
然后，您可以成功使用 XPath 提取节点并使用 Regex 解析从页面提取的字符串的特定部分。

至少这是我使用的技术。

您可以使用从 HtmlCleaner 返回的 xHtml 作为应用程序和您尝试解析的远程页面之间的一种接口。您应该对此进行测试，如果远程页面发生更改，您只需提取由 HtmlCleaner 清理的新 xHtml，重新调整 XPath 查询以提取您需要的内容，并针对新接口重新测试您的应用程序代码。

如果您想创建多线程“抓取器”，请注意 HtmlCleaner 不是线程安全的（请参阅我的帖子此处）。
这篇帖子可以让您了解如何使用解析格式正确的xHtml X 路径。

祝你好运！ ;)

注意：在我实现 Scraper 时，HtmlCleaner 在规范化我想要解析的页面方面做得更好。在某些情况下，jTidy 无法完成同样的工作，所以我建议您尝试一下

回复收藏 0 原文

孤寂小茶 2024-09-01 15:02:33

使用JTidy，您可以从 HTML 中抓取数据。然后您就可以使用JDBC。

回复收藏 0 原文

~没有更多了~

关于作者

十级心震

暂无简介

文章

25 人气

关注发私信

友情链接

文江博客

使用Java从HTML页面抓取数据，输出到数据库

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

佚名

羁客

天天爱笑的徐老师

星

夏日落

隐诗

友情链接

使用Java从HTML页面抓取数据，输出到数据库

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

佚名

羁客

天天爱笑的徐老师

星

夏日落

隐诗

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。