如果失败的萨格人培训工作,如何获得自己的失败信息?

发布于 2025-01-30 03:07:53 字数 712 浏览 2 评论 0原文

我的主要目的是:简单的方法来收集有关萨格人训练job中不同故障场景的信息。

我当前使用什么?

sagemaker sklearn估计器(训练job在内部)

我的模型训练将在哪里?

不同的数据集。因此,我需要控制并收集有关所有培训过程及其最终状态的所有信息。

我有哪些失败情况?

有很多失败的情况。我为他们创建了自己的Python错误。 例如:1。只有一个类别的标签。 2。数据集太小(按我自己的标准)3。缺少关键列的数据

4 所有这些都是executeSerscripterror我无法在failurereasonerrormessage(始终为空)中传递自己的信息。我看到CloudWatchLogs和TrainingJob失败追溯(来自SageMakernotebook)中提出了哪些错误。因此,不良解决方案是解析CloudWatchLogs或/opt/ml/output/fautis在使用lambda功能的失败时。

问题:如何提供我自己的errormessagefailurereason在训练job描述中?

My main purpose: Easy way to collect information about different failure scenarios in SageMaker TrainingJob.

What do I use currently?

Sagemaker SKLearn Estimator(TrainingJobs are inside)

Where will my model train?

Different datasets. So, I need control and collect all information about all training processes and their final statuses on different datasets.

Which failure scenarios do I have?

There are plenty of them. I have create my own python Errors for them.
For example: 1. There are labels only for one class. 2. Too small dataset(by my own criterions) 3. Missing data for crucial columns 4. e.t.c.

Where am I stuck?

After failed training I can't get own errors from training job response. All of them are ExecuteUserScriptError I can't pass my own info in FailureReason or ErrorMessage(always it's empty). I see which error was raised in CloudWatchLogs and TrainingJob Failure Traceback(from SagemakerNotebook). So, bad solution is parse CloudWatchLogs or /opt/ml/output/failure in case of failure with Lambda function.

Question: How to provide my own ErrorMessage or FailureReason in TrainingJob description?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文