当前位置：文江博客话题详情

Python profile stochastic

python 有统计分析器吗？如果没有的话，我该如何去写一篇呢？

发布于 2024-10-31 06:00:24 字数 86 浏览 8 评论 0 原文

我需要运行一个 python 脚本一段随机的时间，暂停它，获取堆栈回溯，然后取消暂停它。我已经在谷歌上搜索了一种方法来做到这一点，但我没有看到明显的解决方案。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

绅刃 2024-11-07 06:00:25

有 statprof 模块

pip install statprof （或 easy_install statprof），然后使用：

import statprof

statprof.start()
try:
    my_questionable_function()
finally:
    statprof.stop()
    statprof.display()

此博文：

但这为什么重要呢？ Python 已经有两个内置分析器：lsprof 和长期弃用的 hotshot。 lsprof 的问题在于它只跟踪函数调用。如果函数中有一些热循环，那么 lsprof 对于确定哪些热循环实际上是重要的几乎毫无价值。

几天前，我发现自己处于 lsprof 失败的情况：它告诉我我有一个热门函数，但该函数对我来说不熟悉，而且时间足够长，以至于不能立即明显地看出它在哪里问题是。

在 Twitter 和 Google+ 上苦苦哀求之后，有人向我指出了 statprof。但有一个问题：虽然它正在进行统计采样（耶！），但采样时它只跟踪函数的第一行（wtf！？）。所以我修复了这个问题，整理了文档，现在它既可用又不会误导。以下是其输出的示例，可以更准确地定位该热函数中的有问题的行：
 % 累积自我          
 时间 秒 秒 名称    
 68.75 0.14 0.14 scmutil.py:546:revrange
  6.25 0.01 0.01 cmdutil.py:1006:walkchangerevs
  6.25 0.01 0.01 revlog.py:241:__init__
  [……哈哈哈哈哈哈……]
  0.00 0.01 0.00 util.py:237:__get__
---
样本数量：16
总时间：0.200000秒
我已将 statprof 上传到 Python 包索引，因此安装几乎很简单：“easy_install statprof”即可启动并运行。

由于代码已发布在 github 上，欢迎贡献错误报告和改进。享受吧！

There's the statprof module

pip install statprof (or easy_install statprof), then to use:

import statprof

statprof.start()
try:
    my_questionable_function()
finally:
    statprof.stop()
    statprof.display()

There's a bit of background on the module from this blog post:

Why would this matter, though? Python already has two built-in profilers: lsprof and the long-deprecated hotshot. The trouble with lsprof is that it only tracks function calls. If you have a few hot loops within a function, lsprof is nearly worthless for figuring out which ones are actually important.

A few days ago, I found myself in exactly the situation in which lsprof fails: it was telling me that I had a hot function, but the function was unfamiliar to me, and long enough that it wasn’t immediately obvious where the problem was.

After a bit of begging on Twitter and Google+, someone pointed me at statprof. But there was a problem: although it was doing statistical sampling (yay!), it was only tracking the first line of a function when sampling (wtf!?). So I fixed that, spiffed up the documentation, and now it’s both usable and not misleading. Here’s an example of its output, locating the offending line in that hot function more accurately:
  %   cumulative      self          
 time    seconds   seconds  name    
 68.75      0.14      0.14  scmutil.py:546:revrange
  6.25      0.01      0.01  cmdutil.py:1006:walkchangerevs
  6.25      0.01      0.01  revlog.py:241:__init__
  [...blah blah blah...]
  0.00      0.01      0.00  util.py:237:__get__
---
Sample count: 16
Total time: 0.200000 seconds
I have uploaded statprof to the Python package index, so it’s almost trivial to install: "easy_install statprof" and you’re up and running.

Since the code is up on github, please feel welcome to contribute bug reports and improvements. Enjoy!

回复收藏 0 原文

倾其所爱 2024-11-07 06:00:25

我可以想到几个几种方法来做到这一点：

不要在程序运行时尝试获取堆栈跟踪，而是对其触发中断，然后解析输出。您可以使用 shell 脚本或另一个将您的应用程序作为子进程调用的 python 脚本来执行此操作。基本思想在这个针对 C++ 特定问题的答案。
- 实际上，您不必解析输出，而是可以注册事后例程（使用 sys.excepthook) 记录堆栈跟踪。不幸的是，Python 没有任何方法从发生异常的地方继续执行，因此您无法在记录后恢复执行。
为了真正从正在运行的程序中获取堆栈跟踪，您将可能必须破解实现。因此，如果您确实想这样做，那么可能值得您花时间查看 pypy，一个主要用 Python 编写的 Python 实现。我不知道在 pypy 中执行此操作有多方便。我猜这不会特别方便，因为它会涉及到在基本上每条指令中引入一个钩子，我认为这效率极低。另外，我认为与第一个选项相比不会有太大优势，除非需要很长时间才能达到您想要开始执行堆栈跟踪的状态。
gdb 调试器存在一组宏旨在方便调试 Python 本身。 gdb 可以附加到外部进程（在本例中是正在执行应用程序的 python 实例），并用它做几乎任何事情。似乎宏 pystack 将为您提供当前执行点的 Python 堆栈的回溯。我认为自动化这个过程非常容易，因为你可以（在最坏的情况下）使用 expect 或其他方式将文本输入到 gdb 中。

回复收藏 0 原文

如梦初醒的夏天 2024-11-07 06:00:25

Python 已经包含了执行您所描述的操作所需的一切，无需破解解释器。

您只需使用 traceback模块与 sys._current_frames()< /a> 函数。您所需要的只是一种以所需频率转储所需回溯的方法，例如使用 UNIX 信号或其他线程。

要快速启动您的代码，您可以按照此提交中的操作进行操作：

复制threads.py 来自该提交的模块，或者至少是堆栈跟踪转储功能（ZPL 许可证，非常自由）：
将其连接到信号处理程序，例如 <代码>SIGUSR1

然后您只需运行代码并根据需要频繁地使用 SIGUSR1“杀死”它即可。

对于使用相同技术不时“采样”单个线程的单个函数，使用另一个线程进行计时的情况，我建议剖析 Products.LongRequestLogger 及其测试（由您真正开发，同时使用 Nexedi)：

无论这是否是正确的“统计”分析，回答由Mike Dunlavey引用intuited 提出了一个令人信服的论点，即这是一种非常强大的“性能调试”技术，而且我个人的经验表明，它确实有助于快速找出性能问题的真正原因。

回复收藏 0 原文

烈酒灼喉 2024-11-07 06:00:25

要为 Python 实现外部统计分析器，您将需要一些通用调试工具来询问另一个进程，以及一些 Python 特定工具来获取解释器状态。

一般来说，这不是一个简单的问题，但您可能想尝试从 GDB 7 和相关的 CPython 分析工具开始。

回复收藏 0 原文

左秋 2024-11-07 06:00:25

有一个用 C 语言编写的跨平台采样（统计）Python 分析器，名为 vmprof-python。
它由 PyPy 团队成员开发，支持 PyPy 以及 CPython。
它适用于 Linux、Mac OSX 和 Windows。它是用C编写的，因此开销非常小。
它分析 Python 代码以及由 Python 代码进行的本机调用。
此外，它还有一个非常有用的选项，除了函数名称之外，还可以收集有关函数内部执行行的统计信息。
它还可以分析内存使用情况（通过跟踪堆大小）。

可以通过 API 从 Python 代码或控制台调用它。
有一个 Web UI 用于查看配置文件转储：vmprof.com，它也是开源。

此外，一些 Python IDE（例如 PyCharm）与其集成，允许运行探查器并在编辑器中查看结果。

回复收藏 0 原文

冷情妓 2024-11-07 06:00:25

在这个问题提出七年后，现在有几个很好的可用于 Python 的统计分析器。除了 vmprof 之外，Dmitry Trofimov 在这个答案，还有vprof和pyflame。它们都以某种方式支持火焰图，让您可以很好地了解时间花在哪里。

回复收藏 0 原文

虚拟世界 2024-11-07 06:00:25

Austin 是 CPython 的帧堆栈采样器，可用于为 Python 制作不需要仪器的统计分析器并引入最小的开销。最简单的做法是使用 FlameGraph 通过管道传输 Austin 的输出。但是，您可以使用自定义应用程序获取 Austin 的输出，以制作您自己的分析器，该分析器正是针对您的需求。

这是 Austin TUI 的屏幕截图，这是一个终端应用程序，它提供了正在运行的 Python 应用程序内发生的所有事情的顶部视图。