当前位置：文江博客话题详情

随机生成测试数据是一种不好的做法吗？

发布于 2024-07-15 02:24:55 字数 1432 浏览 8 评论 0原文

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

硬不硬你别怂 2024-07-22 02:24:55

我很惊讶这个主题或 Jason Baker 链接的主题中没有人提到的
蒙特卡罗测试。这是我唯一一次广泛使用随机测试输入。然而，通过为每个测试用例的随机数生成器提供恒定的种子，使测试具有可重复性非常重要。

回复收藏 0 原文

心房敞 2024-07-22 02:24:55

这是对你的第二点的回答：

(2) 我使用测试作为代码文档的一种形式。如果我有硬编码的夹具值，则很难揭示特定测试试图演示的内容。

我同意。理想情况下，规范示例本身应该是可以理解的。使用装置是有问题的，因为它将示例的前提条件与其预期结果分开。

因此，许多 RSpec 用户已经完全停止使用灯具。相反，在规范示例本身中构造所需的对象。

describe Item, "#most_expensive" do
  it 'should return the most expensive item' do
    items = [
      Item.create!(:price => 100),
      Item.create!(:price => 50)
    ]

    Item.most_expensive.price.should == 100
  end
end

如果您最终有大量用于创建对象的样板代码，您应该查看一些测试对象工厂库，例如 factory_girl、机械师或FixtureReplacement。

This is an answer to your second point:

(2) I use testing to as a form of documentation for the code. If I have hard-coded fixture values, it's hard to reveal what a particular test is trying to demonstrate.

I agree. Ideally spec examples should be understandable by themselves. Using fixtures is problematic, because it splits the pre-conditions of the example from its expected results.

Because of this, many RSpec users have stopped using fixtures altogether. Instead, construct the needed objects in the spec example itself.

describe Item, "#most_expensive" do
  it 'should return the most expensive item' do
    items = [
      Item.create!(:price => 100),
      Item.create!(:price => 50)
    ]

    Item.most_expensive.price.should == 100
  end
end

If your end up with lots of boilerplate code for object creation, you should take a look at some of the many test object factory libraries, such as factory_girl, Machinist, or FixtureReplacement.

回复收藏 0 原文

秋千易 2024-07-22 02:24:55

我们在我最近的一个项目中对此进行了很多思考。最后，我们确定了两点：

测试用例的可重复性至关重要。如果您必须编写随机测试，请准备好广泛记录它，因为如果/当它失败时，您将需要确切地知道原因。
使用随机性作为代码覆盖率的拐杖意味着您要么没有良好的覆盖率，要么您对领域的了解不足以了解代表性测试用例的构成。找出哪个是正确的并相应地修复它。

总而言之，随机性往往带来的麻烦大于其价值。在扣动扳机之前，请仔细考虑是否会正确使用它。我们最终认为随机测试用例总体来说是一个坏主意，并且应该谨慎使用（如果有的话）。

回复收藏 0 原文

寄居者 2024-07-22 02:24:55

已经发布了很多好的信息，但另请参阅：模糊测试。据传闻，微软在他们的许多项目中都使用了这种方法。

回复收藏 0 原文

柠檬 2024-07-22 02:24:55

我的测试经验主要是用 C/Python/Java 编写的简单程序，所以我不确定这是否完全适用，但每当我有一个可以接受任何类型的用户输入的程序时，我总是包含一个测试随机输入数据，或者至少是计算机以不可预测的方式生成的输入数据，因为您永远无法假设用户将输入什么。或者，你可以，但如果你这样做，那么一些没有做出这种假设的黑客很可能会发现你完全忽视的错误。机器生成的输入是我所知道的将人类偏见完全排除在测试程序之外的最佳（唯一？）方法。当然，为了重现失败的测试，您必须在运行测试之前执行一些操作，例如将测试输入保存到文件或将其打印出来（如果是文本）。

回复收藏 0 原文

一腔孤↑勇 2024-07-22 02:24:55

只要您没有解决oracle 问题（即根据输入确定软件的预期结果）的解决方案，随机测试就是一种不好的做法。

如果你解决了预言机问题，你就可以比简单的随机输入生成更进一步。您可以选择输入分布，以便软件的特定部分比简单的随机分布得到更多的锻炼。

然后，您从随机测试切换到统计测试。

if (a > 0)
    // Do Foo
else (if b < 0)
    // Do Bar
else
    // Do Foobar

如果您在 int 范围内随机选择 a 和 b，则您有 50% 的时间锻炼 Foo，Bar 占 25% 的时间，Foobar 占 25% 的时间。您可能会在 Foo 中发现比 Bar 或 Foobar 中更多的错误。

如果您选择 a，使其在 66.66% 的情况下为负，则 Bar 和 Foobar 会比您的第一个分布得到更多运用。事实上，这三个分支各有 33.33% 的时间得到行使。

当然，如果您观察到的结果与预期结果不同，您必须记录对重现错误有用的所有内容。

Random testing is a bad practice a long as you don't have a solution for the oracle problem, i.e., determining which is the expected outcome of your software given its input.

If you solved the oracle problem, you can get one step further than simple random input generation. You can choose input distributions such that specific parts of your software get exercised more than with simple random.

You then switch from random testing to statistical testing.

if (a > 0)
    // Do Foo
else (if b < 0)
    // Do Bar
else
    // Do Foobar

If you select a and b randomly in int range, you exercise Foo 50% of the time, Bar 25% of the time and Foobar 25% of the time. It is likely that you will find more bugs in Foo than in Bar or Foobar.

If you select a such that it is negative 66.66% of the time, Bar and Foobar get exercised more than with your first distribution. Indeed the three branches get exercised each 33.33% of the time.

Of course, if your observed outcome is different than your expected outcome, you have to log everything that can be useful to reproduce the bug.

回复收藏 0 原文

暮光沉寂 2024-07-22 02:24:55

我建议看看机械师：

http://github.com/notahat/machinist/tree/master< /a>

Machinist 将为您生成数据，但它是可重复的，因此每次测试运行都有相同的随机数据。

您可以通过一致地播种随机数生成器来执行类似的操作。

回复收藏 0 原文

百思不得你姐 2024-07-22 02:24:55

使用随机测试数据是一种很好的做法——硬编码测试数据仅测试您明确想到的情况，而随机数据会清除您可能错误的隐含假设。

我强烈建议使用 Factory Girl 和 ffaker 来实现此目的。（在任何情况下都不要使用 Rails 固定装置。）

回复收藏 0 原文

浅唱ヾ落雨殇 2024-07-22 02:24:55

随机生成的测试用例的一个问题是验证答案应该通过代码计算，并且您不能确定它没有错误:)

回复收藏 0 原文

爱，才寂寞 2024-07-22 02:24:55

您可能还会看到此主题：使用随机输入最佳实践进行测试。

回复收藏 0 原文

赤濁 2024-07-22 02:24:55

此类测试的有效性很大程度上取决于您使用的随机数生成器的质量以及将 RNG 的输出转换为测试数据的代码的正确性。

如果 RNG 从未产生导致您的代码进入某些边缘情况的值，那么您将不会涵盖这种情况。如果将 RNG 的输出转换为您测试的代码的输入的代码有缺陷，则即使使用良好的生成器，您仍然可能无法满足所有边缘情况。

你将如何测试这一点？

回复收藏 0 原文

李不 2024-07-22 02:24:55

测试用例中随机性的问题在于输出是随机的。

测试（尤其是回归测试）背后的想法是检查没有任何问题。

如果您发现某些东西损坏了，那么从那时起您每次都需要包含该测试，否则您将不会有一组一致的测试。另外，如果您运行有效的随机测试，那么您需要包含该测试，因为您可能会破坏代码，从而导致测试失败。

换句话说，如果您有一个使用动态生成的随机数据的测试，我认为这是一个坏主意。但是，如果您使用一组随机数据，然后存储并重复使用，这可能是一个好主意。这可以采用随机数生成器的一组种子的形式。

通过存储生成的数据，您可以找到对此数据的“正确”响应。

因此，我建议使用随机数据来探索您的系统，但在测试中使用定义的数据（最初可能是随机生成的数据）

回复收藏 0 原文

深空失忆 2024-07-22 02:24:55

就像软件工程中的一切一样，这取决于情况。

人们反对它的最大论点是它破坏了测试用例的确定性。然而，这实际上并不是一个问题，只要您的测试用例可以确定性失败。问题是当你的测试由于随机数据而变得不稳定时。

在实践中，随机数据有几个很好的例子：

解决与数据相关的冲突。例如，夹具工厂通过使用随机生成的 UUID 自动解决字段的唯一约束。
由于样板代码减少，测试用例可维护。当您想要测试 x 时，让我们只关注 x 而不是它的依赖项。
模糊测试。在这种情况下，您想要数据甚至噪声的随机组合。

回复收藏 0 原文

~没有更多了~

关于作者

谈场末日恋爱

暂无简介

0 文章

0 评论

21 人气

关注发私信

友情链接

文江博客

随机生成测试数据是一种不好的做法吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（13）

关于作者

相关话题

热门标签

推荐作者

qq_FjTq5B

18273202778

WordPress小学生

〃温暖了心ぐ

迷乱花海

niuniu

友情链接

随机生成测试数据是一种不好的做法吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（13）

关于作者

相关话题

热门标签

推荐作者

qq_FjTq5B

18273202778

WordPress小学生

〃温暖了心ぐ

迷乱花海

niuniu

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。