当前位置：文江博客话题详情

大规模抓取/解析采用什么技术？

发布于 2024-09-07 17:33:55 字数 1539 浏览 14 评论 0原文

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

等往事风中吹 2024-09-14 17:33:55

如果您真的在谈论大规模，那么您可能需要一些可以水平扩展的东西，例如，像Hadoop。您可以用多种语言编写 Hadoop 作业，因此您不必依赖 Java。例如，这里有一篇关于用 Python 编写 Hadoop 作业的文章。顺便说一句，这可能是我会使用的语言，这要归功于像 httplib2 这样的库用于发出请求，lxml 用于解析结果。

如果 Map-Reduce 框架太过分了，您可以将其保留在 Python 中并使用 multiprocessing。

更新：
如果您不需要 MapReduce 框架，并且更喜欢其他语言，请查看 Java 中的ThreadPoolExecutor。不过，我肯定会使用 Apache Commons HTTP 客户端。 JDK 本身的内容对程序员来说不太友好。

回复收藏 0 原文

起风了 2024-09-14 17:33:55

您可能应该使用用于测试 Web 应用程序的工具（WatiN 或 Selenium）。

然后，您可以使用我编写的工具来编写与数据分离的工作流程。

https://github.com/leblancmeneses/RobustHaven.IntegrationTests

您不必执行任何操作使用 WatiN 或 Selenium 时手动解析。您将编写一个 css querySelector。

使用 TopShelf 和 NServiceBus，您可以水平扩展工作人员数量。

仅供参考：通过 mono，我提到的这些工具可以在 Linux 上运行。（尽管里程可能会有所不同）

如果不需要评估 JavaScript 来动态加载数据：
任何需要将文档加载到内存中的操作都会浪费时间。如果您知道标签在哪里，那么您所需要的只是一个 sax 解析器。

回复收藏 0 原文

仅此而已 2024-09-14 17:33:55

我使用 Java 和 HttpClient commons 库做了类似的事情。尽管我避免使用 DOM 解析器，因为我正在寻找可以从正则表达式轻松找到的特定标签。

操作中最慢的部分是发出 http 请求。

回复收藏 0 原文

铃予 2024-09-14 17:33:55

那么c++呢？有许多大型图书馆可以为您提供帮助。

boost asio可以帮你搞定网络。

TinyXML 可以解析XML文件。

我对数据库一无所知，但几乎所有数据库都有C++接口，这不是问题。

回复收藏 0 原文

~没有更多了~

关于作者

薔薇婲

暂无简介

文章

28 人气

关注发私信

友情链接

文江博客

大规模抓取/解析采用什么技术？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

牛↙奶布丁

COSO

落叶

暗地喜欢

qq_i8qOEG

qq_Wl4Sbi

友情链接

大规模抓取/解析采用什么技术？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

牛↙奶布丁

COSO

落叶

暗地喜欢

qq_i8qOEG

qq_Wl4Sbi

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。