在GPU集群上实现CI/CD

245次阅读

问题描述

想知道在使用GPU集群作为”客户端”环境进行模型训练时，是否有任何区别，或者是否可以让主集群节点成为Jenkins从节点（或Bamboo代理等）。

解决方案

请注意以下操作注意版本差异及修改前做好备份。

方案1

在典型的持续集成环境中，你需要配置一个能够执行编译和测试批处理的环境（代理、从节点等），并由调度程序（主节点、服务器等）协调。
对于使用GPU集群执行不同配置的模型训练，你可以使用以下方法：
1. 首先，编写能够在不同配置下执行模型训练的脚本，比如train_model_config_A、train_model_config_B等。
2. 然后，编写一个包装脚本，该脚本检查用于选择所需客户端环境的环境变量，并调用相应的train_model_config_<blah>脚本。理想情况下，将训练的结果（无论是什么）转化为一个或多个通过/失败类型的结果。然后，将这样的包装脚本集成到CI/CD流水线中，作为一个自定义的测试步骤/阶段（如果它产生任何需要存档的构件，也可以作为构建步骤）。就像在包含某些非通用硬件的测试平台上执行的任何测试一样。换句话说，CPU集群并没有真正的区别。
3. 如果train_model_config_<blah>脚本（以及包装脚本）可以在其他主机上执行并远程控制GPU，那么你可能不需要直接在GPU集群上安装从节点。你可以将从节点安装在其他主机上，让GPU集群只负责执行其任务。