TrainJob功能

前面几章介绍了Cloud-ML的一些概念，相信大家对下面这些术语和工具已经有所了解：

这一部分我们详细介绍Cloud-ML Trainjob的功能，将涵盖以下五部分内容：

第一部分：Trainjob 基本组件和训练流程我们将介绍使用Cloud-ML Trainjob 所需要的基本要素和基本流程。

第二部分：上手Trainjob 我们以Tensorflow为例，实现一个简单的线性回归模型，通过这个例子，我们将介绍Cloud-ML Trainjob 最基本的使用方法，包括怎么使用命令行或Web界面提交任务，怎样查看已提交的任务列表，怎样查看任务事件和log以及删除不需要的任务；

第三部分：使用GPU GPU 设备可以用来加速训练，这一部分我们将介绍怎样通过 Cloud-ML 使用 GPU 进行训练;

第四部分：使用FDS 训练任务离不开训练数据，训练的结果也需要及时保存，这一部分我们将介绍怎样从FDS获取数据及保存训练结果到FDS;

第五部分：使用FDS FUSE 使用FDS可以实现数据的持久化，但是也存在一些问题，比如受限于特定的框架。为了更通用的解决持久化问题，可以使用Fuse功能。

第六部分：高级功能这一部分我们介绍Cloud-ML提供的一些高级训练功能，包括（注意，下面这些功能有些依赖深度学习框架本身提供，具体差别会在详细介绍中列出）：1)分布式训练; 2)自动超参数调优; 3)使用自定义镜像; 4)使用Tensorflow模板应用

results matching ""