当前位置：文江博客话题详情

单元测试屏幕刮刀

发布于 2024-08-02 06:53:44 字数 102 浏览 4 评论 0原文

我正在编写 HTML 屏幕抓取工具。为此创建单元测试的最佳方法是什么？

拥有一个静态 html 文件并在每次测试时从磁盘读取它是否“可以”？

你有什么建议吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

甜扑 2024-08-09 06:53:44

为了保证测试可以一遍又一遍地运行，您应该有一个静态页面来测试。（即，从磁盘就可以）

如果您编写一个涉及网络上实时页面的测试，那可能不是单元测试，而是集成测试。你也可以拥有那些。

回复收藏 0 原文

半透明的墙 2024-08-09 06:53:44

对于我的 ruby+mechanize scrapers，我一直在尝试集成测试，这些测试可以对尽可能多的目标页面版本进行透明测试。

在测试中，除了手动保存的“原始”副本之外，我还重载了 scraper HTTP 获取方法，以自动重新缓存较新版本的页面。然后，每个集成测试都针对以下对象运行：

原始手动保存的页面（有点像单元测试）
页面的最新版本我们
现在有来自站点的实时副本（如果离线，则会跳过）

...并引发异常如果它们返回的字段数量不同，例如它们更改了缩略图类的名称，但仍然提供了一些弹性，以防止测试因目标站点已关闭而中断。

回复收藏 0 原文

天荒地未老 2024-08-09 06:53:44

文件没问题，但是：您的屏幕抓取工具处理文本。您应该有各种单元测试，“抓取”每个单元测试中硬编码的不同文本片段。每一块都应该“激发”你的刮刀方法的各个部分。

通过这种方式，您可以完全消除对任何外部内容（文件和网页）的依赖关系。而且您的测试将更容易单独维护，因为它们不再依赖于外部文件。您的单元测试也会（稍微）更快地执行；）

回复收藏 0 原文

眼中杀气 2024-08-09 06:53:44

要创建单元测试，您需要了解抓取工具的工作原理以及您认为它应该提取哪些类型的信息。使用简单的网页作为单元测试可能没问题，具体取决于爬虫的复杂性。

对于回归测试，您绝对应该将文件保存在磁盘上。

但如果您的最终目标是抓取网络，您还应该记录常见查询和返回的 HTML。这样，当您的应用程序失败时，您可以快速捕获所有过去感兴趣的查询（例如使用 wget 或 curl）并查明 HTML 是否以及如何更改。

换句话说，针对已知 HTML 和来自已知查询的未知 HTML 进行回归测试。如果您发出已知查询并且返回的 HTML 与数据库中的内容相同，则无需对其进行两次测试。

顺便说一句，自从我停止尝试抓取原始 HTML 并开始抓取 w3m -dump 的输出（ASCII 和真是太容易对付了！

回复收藏 0 原文

秋叶绚丽 2024-08-09 06:53:44

您需要考虑一下您正在刮擦的是什么。

静态 Html（不会大幅改变并破坏您的抓取工具的 html）
动态 Html（宽松术语，可能会大幅改变的 html）
未知（您从中提取特定数据的 html，无论格式如何）

如果 html 是静态的，那么我只需使用磁盘上的几个不同的本地副本。由于您知道 html 不一定会发生巨大变化并破坏您的抓取工具，因此您可以放心地使用本地文件编写测试。

如果 html 是动态的（再次，宽松的术语），那么您可能需要继续并在测试中使用实时请求。如果您在这种情况下使用本地副本并且测试通过，您可能期望实时 html 执行相同的操作，但它可能会失败。在这种情况下，通过每次测试实时 html，您可以在部署之前立即知道您的屏幕抓取工具是否达到标准。

现在，如果您只是不关心 html 的格式、元素的顺序或结构，因为您只是根据某种匹配机制（正则表达式/其他）提取单个元素，那么本地副本可能没问题，但您可能仍然想倾向于针对实时 html 进行测试。如果实时 html 发生变化，特别是您正在寻找的部分内容发生变化，那么如果您使用本地副本，您的测试可能会通过，但部署可能会失败。

如果可以的话，我的意见是针对实时 html 进行测试。当实时 html 可能失败时，这将阻止您的本地测试通过，反之亦然。我不认为屏幕截图有最佳实践，因为屏幕截图本身就是不寻常的小虫子。如果网站或 Web 服务不公开 API，则屏幕截图是获取所需数据的一种简单的解决方法。

回复收藏 0 原文

傾城如夢未必闌珊 2024-08-09 06:53:44

你的建议听起来很合理。我可能会有一个包含合适的测试 HTML 文件的目录，以及每个文件的预期数据。当您遇到已知有问题的页面时，您可以进一步填充它们，以形成完整的回归测试套件。

您还应该对实际对话的 HTTP 执行集成测试（不仅包括成功的页面获取，还包括 404 错误、无响应的服务器等）

回复收藏 0 原文

北座城市 2024-08-09 06:53:44

我想说这取决于您需要运行多少种不同的测试。

如果您需要在单元测试中检查大量不同的内容，那么最好在测试初始化过程中生成 HTML 输出。它仍然是基于文件的，但您将拥有可扩展的模式：

Initialize HTML file with fragments for Test A
Execute Test A
Delete HTML file

这样，当您将来添加测试 ZZZZZ 时，您将拥有提供测试数据的一致方式。

如果您只是运行有限数量的测试，并且将保持这种状态，那么一些预先编写的静态 HTML 文件应该没问题。

当然，按照 Rich 的建议进行一些集成测试。

I would say that depends on how many different tests you need to run.

If you need to check for a large number of different things in your unit test, you might be better off generating HTML output as part of your test initialization. It would still be file-based, but you would have an extensible pattern:

Initialize HTML file with fragments for Test A
Execute Test A
Delete HTML file

That way when you add test ZZZZZ down the road, you would have a consistent way of providing test data.

If you are just running a limited number of tests, and it will stay that way, a few pre-written static HTML files should be fine.

Certainly do some integration tests as Rich suggests.

回复收藏 0 原文

倾城°AllureLove 2024-08-09 06:53:44

您正在创建一个外部依赖项，这将是脆弱的。

为什么不创建一个 TestContent 项目，填充一堆资源文件？将源 HTML 复制并粘贴到资源文件中，然后您可以在单元测试中引用它们。

回复收藏 0 原文

梦冥 2024-08-09 06:53:44

听起来你这里有几个组件：

获取 HTML 内容的东西
去除谷壳并只生成必须刮擦的文本的
东西实际查看内容并将其转换为数据库/任何

你应该测试的东西（可能是）独立实现刮刀的这些部分。

您没有理由不能从任何地方获取内容（即没有 HTTP）。

除了刮擦之外，您没有理由不想剥去谷壳以用于其他目的。

没有理由只通过抓取将数据存储到数据库中。

所以..没有理由将所有这些代码片段作为单个大型程序进行构建和测试。

话又说回来……也许我们把事情过于复杂化了？

回复收藏 0 原文

扮仙女 2024-08-09 06:53:44

您可能应该查询磁盘上的静态页面以进行除一两个测试之外的所有测试。但不要忘记那些涉及网络的测试！

回复收藏 0 原文

魂ガ小子 2024-08-09 06:53:44

我不明白为什么 html 的来源对于你的单元测试来说很重要。
澄清一下：您的单元测试正在处理 html 内容，该内容来自何处并不重要，因此从文件中读取它对于您的单元测试来说是很好的。正如您在评论中所说，您当然不想每次测试都连接网络，因为这只是开销。

您可能还需要添加一个或两个集成测试来检查您是否正确处理 url（即您能够连接和处理外部 url）。

回复收藏 0 原文

~没有更多了~

关于作者

没︽人懂的悲伤

暂无简介

0 文章

0 评论

24 人气

关注发私信

友情链接

文江博客

单元测试屏幕刮刀

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（11）

关于作者

相关话题

热门标签

推荐作者

linfzu01

§对你不离不弃

可遇━不可求

枕梦

qq_3LFa8Q

JP

友情链接

单元测试屏幕刮刀

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（11）

关于作者

相关话题

热门标签

推荐作者

linfzu01

§对你不离不弃

可遇━不可求

枕梦

qq_3LFa8Q

JP

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。