在同一节点上使用不同的 GPU 类型和 SLURM
我正在设置一个 GPU“集群”,由一组工程师用作训练 DL 模型的资源池。我们不希望每个作业使用多个 GPU。
从 文档 来看,同一节点上似乎可以有不同类型的 GPU。但我经常听说不推荐。
有什么具体原因说明为什么不应在同一计算节点上使用异构 GPU 配置吗?
注意:在我的例子中,它混合了 A100 和 3 个 A10 GPU。
I'm setting up a GPU "cluster" used by a group of engineer as a pool of resources to train DL models on. We don't expect to use multiple GPUs per job.
From the documentation, it's seems possible to have different types of GPUs on a same node. But I often heard it was not recommended.
Any specific reason why one shouldn't have an heterogenous GPU configuration on the same compute node?
Note: In my case, it's mixing an A100 with 3 A10 GPUs.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论