在计算快速流程运行的时间时，应使用多少次运行？

发布于 2024-10-12 01:44:23 字数 390 浏览 4 评论 0原文

假设我要运行进程 X 并看看它需要多长时间。我将把运行此过程的日期以及所花费的时间保存到数据库中。我想知道要放入数据库中的内容。

进程 X 几乎总是运行在 1500 毫秒以下，因此这是一个很短的进程。它通常运行在 500 到 1500 毫秒之间，这是一个相当大的范围（3 倍的差异）。

我的问题是，一次运行应将多少“运行”保存到数据库中？

每次运行都保存到数据库中自己的行？
5 次运行，取平均值，然后保存时间？
平均 10 次运行？
运行 20 次，删除超过 2 的任何内容标准偏差消失，并保存该范围内的所有内容？

有人有任何好的信息支持他们吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

拔了角的鹿 2024-10-19 01:44:24

取决于你想要什么样的数据。我想说最初每次运行一行，然后分析数据，从那里开始。如果您想合并，可以存储 X 次运行的最小/最大/平均值。

回复收藏 0 原文

吻风 2024-10-19 01:44:24

http://en.wikipedia.org/wiki/Sample_size

布莱恩是对的 - 你需要调查更多的。如果您的代码即使在“大多数”时间也有很大的差异，那么由于其他进程、操作系统分页或其他因素，您的测试环境可能会出现很大的波动。如果不是，那么似乎您的代码路径正在执行大量不同的工作，并且提出单个数字/运行数据来描述这种多模式系统的性能不会告诉您太多信息。因此，我想说尽可能隔离您的设置，运行至少 30 次试验，并了解您的性能曲线是什么样的。一旦有了这个，您就可以使用该维基百科页面得出一个数字，该数字将告诉您每次代码更改需要运行多少次试验，以查看性能是否以某种程度的统计显着性增加/减少。

回复收藏 0 原文

茶底世界 2024-10-19 01:44:24

虽然说“保存每次运行”很好，但在您的情况下可能不切实际。然而，我确实认为仅存储平均值会消除太多数据。我喜欢存储十次运行的平均值，但我不仅仅存储平均值，还存储最大值和最小值，这样我就可以了解数据除了中心值之外的分布情况。

特别是最大和最小信息将告诉您极端情况出现的频率。 1500 毫秒的情况是千分之一的异常值吗？或者它是定期重复发生的事情吗？

回复收藏 0 原文

ぃ双果 2024-10-19 01:44:23

将每次运行的数据保存到其自己的行中。然后，您可以随心所欲地使用和分析数据……即，您列出的所有其他选项都可以在事后执行。在不了解更多情况的情况下，其他人实际上不可能就如何平均/分析数据得出有意义的结论。

回复收藏 0 原文

凯凯我们等你回来 2024-10-19 01:44:23

最快的运行是仅对您的代码进行最准确计时的运行。

由于操作系统调度程序引入的噪音，所有较慢的运行速度都会变慢。

您所体验到的差异因机器而异，即使在相同的机器上，可运行进程集也会引入噪声。

回复收藏 0 原文

染年凉城似染瑾 2024-10-19 01:44:23

以上都不是。布兰很接近。您应该保存每个测量结果。但不要平均它们。在这种类型的分析中，平均值（算术平均值）可能非常具有误导性。原因是您的某些测量值会比其他测量值长得多。发生这种情况是因为事情可能会干扰您的过程 - 即使在“干净”的测试系统上也是如此。它也可能发生，因为您的过程可能不像您想象的那样具有确定性。

有些人认为，简单地采集更多样本（运行更多迭代）并对测量值取平均值将为他们提供更好的数据。事实并非如此。你跑得越多，遇到扰动事件的可能性就越大，从而使平均值过高。

更好的方法是运行尽可能多的测量（如果时间允许）。 100 不是一个坏数字，但 30 左右就足够了。

然后，按大小对它们进行排序并绘制图表。请注意，这不是标准分布。计算计算一些简单的统计数据：平均值、中值、最小值、最大值、下四分位数、上四分位数。

与某些指导相反，不要“丢弃”外部值或“异常值”。这些通常是最有趣的测量结果。例如，您可以建立一个良好的基线，然后寻找偏离。了解这些偏差将帮助您充分了解流程如何工作、系统如何影响您的流程以及什么会干扰您的流程。它通常很容易暴露错误。

回复收藏 0 原文

~没有更多了~