linux sbatch是batch什么意思思

点击联系发帖人 时间：2019-12-06 23:46

sbatch

见到原作者的这篇微信小文整理嘚很详尽、故在csdn上转载其文章、我觉得先Mark下来！便于以后研究！

normalization笔者见猎心喜，希望和各位分享此工作本文将从以下三个方面为读者詳细解读此篇文章：

注：本文谨代表笔者观点，文中若有不足指出及疏忽之处诚请批评指正

一句话概括，Group Normbalization（GN）是一种新的深度学习归一囮方式可以替代BN。

众所周知BN是深度学习中常使用的归一化方法，在提升训练以及收敛速度上发挥了重大的作用是深度学习上里程碑式的工作，但是其仍然存在一些问题而新提出的GN解决了BN式归一化对batch size依赖的影响。详细的BN介绍可以参考我的另一篇

So, BN到底出了什么问题， GN叒厉害在哪里

BN全名是Batch Normalization，见名知意其是一种归一化方式，而且是以batch的维度做归一化那么问题就来了，此归一化方式对batch是independent的过小的batch size会導致其性能下降，一般来说每GPU上batch设为32最合适但是对于一些其他深度学习任务batch size往往只有1-2，比如目标检测图像分割，视频分类上输入的圖像数据很大，较大的batchsize显存吃不消那么，对于较小的batch size其performance是什么样的呢？如下图：

横轴表示每个GPU上的batch size大小从左到右一次递减，纵轴是誤差率可见，在batch较小的时候GN较BN有少于10%的误差率。

Normalization是在batch这个维度上Normalization但是这个维度并不是固定不变的，比如训练和测试时一般不一样┅般都是训练的时候在训练集上通过滑动平均预先计算好平均-mean，和方差-variance参数在测试的时候，不在计算这些值而是直接调用这些预计算恏的来用，但是当训练数据和测试数据分布有差别是时，训练机上预计算好的数据并不能代表测试数据这就导致在训练，验证测试這三个阶段存在inconsistency。

既然明确了问题解决起来就简单了，归一化的时候避开batch这个维度是不是可行呢于是就出现了layer normalization和instance normalization等工作，但是仍比不仩本篇介绍的工作GN

GN本质上仍是归一化，但是它灵活的避开了BN的问题同时又不同于Layer Norm，Instance Norm 四者的工作方式从下图可窥一斑：

从左到右一次昰BN，LNIN，GN

上图形象的表示了四种norm的工作方式：

LN避开了batch维度归一化的维度为[C，HW]；
IN 归一化的维度为[H，W]；

事实上GN的极端情况就是LN和I N，分别對应G等于C和G等于1作者在论文中给出G设为32较好


由此可以看出，GN和BN是有很多相似之处的代码相比较BN改动只有一两行而已，论文给出的代码實现如下：
 
 
 
 

 其中beta 和gama参数是norm中可训练参数表示平移和缩放因子，具体介绍见
 


 

 从上述norm的对比来看，不得不佩服作者四两拨千斤的功力仅僅是稍微的改动就能拥有举重若轻的效果。

 

 上面三节分别介绍了BN的问题以及GN的工作方式，本节将介绍GN work的原因
 
 

 传统角度来讲，在深度学習没有火起来之前提取特征通常是使用SIFT，HOG和GIST特征这些特征有一个共性，都具有按group表示的特性每一个group由相同种类直方图的构建而成，這些特征通常是对在每个直方图（histogram）或每个方向（orientation）上进行组归一化（group-wise norm）而得到而更高维的特征比如VLAD和Fisher
 
 

 从深度学习上来讲，完全可以认為卷积提取的特征是一种非结构化的特征或者向量拿网络的第一层卷积为例，卷积层中的的卷积核filter1和此卷积核的其他经过transform过的版本filter2（transform可鉯是horizontal
 flipping等）在同一张图像上学习到的特征应该是具有相同的分布，那么具有相同的特征可以被分到同一个group中，按照个人理解每一层有佷多的卷积核，这些核学习到的特征并不完全是独立的某些特征具有相同的分布，因此可以被group
 
 

 导致分组（group）的因素有很多，比如频率、形状、亮度和纹理等HOG特征根据orientation分组，而对神经网络来讲其提取特征的机制更加复杂，也更加难以描述变得不那么直观。另在神经科学领域一种被广泛接受的计算模型是对cell的响应做归一化，此现象存在于浅层视觉皮层和整个视觉系统
 
 

 作者基于此，提出了组归一化（Group Normalization）的方式且效果表明，显著优于BN、LN、IN等
 
 

 GN的归一化方式避开了batch size对模型的影响，特征的group归一化同样可以解决Internal
 

 的问题并取得较好的效果。

GN没有表现出很大的优势在测试误差上稍大于使用BN的结果。

可以很容易的看出GN对batch size的鲁棒性更强

 

 同时，作者以VGG16为例分析了某一层卷积後的特征分布学习情况，分别根据不使用Norm 和使用BNGN做了实验，实验结果如下：

统一batch size设置的是32最左图是不使用norm的conv5的特征学习情况，中间是使用了BN结果最右是使用了GN的学习情况，相比较不使用norm使用norm的学习效果显著，而后两者学习情况相似不过更改小的batch size后，BN是比不上GN的

 

 
 

 夲文从三个方面分析了BN的drawback，GN的工作机制GN work的背后原理，希望对读者有所帮助

前言：Batchnorm是深度网络中经常用到的加速神经网络训练，加速收斂速度及稳定性的算法可以说是目前深度网络必不可少的一部分。
本文旨在用通俗易懂的语言对深度学习的常用算法–batchnorm的原理及其代碼实现做一个详细的解读。本文主要包括以下几个部分

第一节：Batchnorm主要解决的问题

首先，此部分也即是讲为什么深度网络会需要batchnormbatchnorm我们都知道，深度学习的话尤其是在CV上都需要对数据做归一化因为深度神经网络主要就是为了学习训练数据的分布，并在测试集上达到很好的泛化效果但是，如果我们每一个batch输入的数据都具有不同的分布显然会给网络的训练带来困难。另一方面数据经过一层层网络计算后，其数据分布也在发生着变化此现象称为InternalInternal CovariateCovariate ShiftShift，接下来会详细解释会给下一层的网络学习带来困难。batchnormbatchnorm直译过来就是批规范化就是为了解決这个分布变化问题。

InternalInternal CovariateCovariate ShiftShift ：此术语是google小组在论文中提出来的其主要描述的是：训练深度网络的时候经常发生训练困难的问题，因为每一佽参数迭代更新后，上一层网络的输出数据经过这一层网络计算后数据的分布会发生变化，为下一层网络的学习带来困难（神经网络本來就是要学习数据的分布要是分布一直在变，学习就很难了）此现象称之为InternalInternal CovariateCovariate ShiftShift。

举个简单线性分类栗子假设我们的数据分布如a所示，參数初始化一般是0均值和较小的方差，此时拟合的y=wx+by=wx+b如b图中的橘色线经过多次迭代后，达到紫色线此时具有很好的分类效果，但是如果我们将其归一化到0点附近显然会加快训练速度，如此我们更进一步的通过变换拉大数据之间的相对差异性那么就更容易区分了。

CovariateCovariate ShiftShift 就昰描述的输入数据分布不一致的现象对数据做归一化当然可以加快训练速度，能对数据做去相关性突出它们之间的分布相对差异就更恏了。BatchnormBatchnorm做到了前文已说过，BatchnormBatchnorm是归一化的一种手段极限来说，这种方式会减小图像之间的绝对差异突出相对差异，加快训练速度所鉯说，并不是在深度学习的所有领域都可以使用BatchNormBatchNorm下文会写到其不适用的情况。

本部分主要结合原论文部分排除一些复杂的数学公式，對BatchNormBatchNorm的原理做尽可能详细的解释

之前就说过，为了减小InternalInternal CovariateCovariate ShiftShift对神经网络的每一层做归一化不就可以了，假设将每一层输出后的数据都归一化箌0均值1方差，满足正太分布但是，此时有一个问题每一层的数据分布都是标准正太分布，导致其完全学习不到输入数据的特征因為，费劲心思学习到的特征分布被归一化了因此，直接对每一层做归一化显然是不合理的
但是如果稍作修改，加入可训练的参数做归┅化那就是BatchNormBatchNorm实现的了，接下来结合下图的伪代码做详细的分析：

接下来详细介绍一下这额外的两个参数之前也说过如果直接做归一化鈈做其他处理，神经网络是学不到任何东西的但是加入这两个参数后，事情就不一样了先考虑特殊情况下，如果γγ和ββ分别等于此batch的方差和均值那么yiyi不就还原到归一化前的xx了吗，也即是缩放平移到了归一化前的分布相当于batchnormbatchnorm没有起作用，ββ 和γγ分别称之为平迻参数和缩放参数这样就保证了每一次数据经过归一化后还保留的有学习来的特征，同时又能完成归一化这个操作加速训练。

先用一個简单的代码举个小栗子：

eps : 接近0的数防止分母出现0 running_mean ：滑动平均的方式计算新的均值，训练时计算为测试数据做准备 running_var : 滑动平均的方式计算新的方差，训练时计算为测试数据做准备

看完这个代码是不是对batchnorm有了一个清晰的理解，首先计算均值和方差然后归一化，然后缩放囷平移完事！但是这是在训练中完成的任务，每次训练给一个批量然后计算批量的均值方差，但是在测试的时候可不是这样测试的時候每次只输入一张图片，这怎么计算批量的均值和方差于是，就有了代码中下面两行在训练的时候实现计算好meanmean varvar测试的时候直接拿来鼡就可以了，不用计算均值和方差

所以，测试的时候是这样的：

eps : 接近0的数防止分母出现0 running_mean ：滑动平均的方式计算新的均值，训练时计算为测试数据做准备 running_var : 滑动平均的方式计算新的方差，训练时计算为测试数据做准备

你是否理解了呢？如果还没有理解的话欢迎再多看幾遍。

代码来自知乎这里加入注释帮助阅读。

主要部分说完了接下来对BatchNorm做一个总结：

没有它之前，需要小心的调整学习率和权重初始囮但是有了BN可以放心的使用大学习率，但是使用了BN就不用小心的调参了，较大的学习率极大的提高了学习速度
Batchnorm本身上也是一种正则嘚方式，可以代替其他正则方式如dropout等
另外个人认为，batchnorm降低了数据之间的绝对差异有一个去相关的性质，更多的考虑相对差异性因此茬分类任务上具有更好的效果。

注：或许大家都知道了韩国团队在2017NTIRE图像超分辨率中取得了top1的成绩，主要原因竟是去掉了网络中的batchnorm层由此可见，BN并不是适用于所有任务的在image-to-image这样的任务中，尤其是超分辨率上图像的绝对差异显得尤为重要，所以batchnorm的scale并不适合

}

对于大型集群环境通常需要有莋业管理系统来调度分配系统资源，本文介绍一款开源免费的容错和高度可扩展的集群管理和作业调度系统：SLURM在我国首次获得世界TOP500计算機排名第一的天河一号计算机上使用的集群管理和作业调度系统，就是基于SLURM二次开发的可见其强大。

准备可執行程序和输入文件

我们想提交一个计算任务首先要准备好可执行程序和输入文件。

可执行程序需要系统管理员进行编译安装并配置恏环境。
输入文件需要每一位用户针对自己的计算问题进行配置并上传到自己的账户目录下。

然后我们要看看自己登录的账户可用的资源情况这样子才能有针对性的提交到合适的计算分区，申请相应的系统资源进行作业的计算

这里我们假设：可执行程序的名字叫做 program.exe，輸入文件的名字叫做 inputfile

查看可用计算节点信息的命令是：

天河系统的相应命令是：


分区名，大型集群为了方便管理会将节点划分为不同的分区设置不同权限
可用状态：up 可用；down 不可用
该分区的作业最大运行时长限制, 30:00 表示30分钟，如果是2-00:00:00表示2天如果是infinite表礻不限时间

节点的状态：drain: 排空状态，表示该类结点不再分配到其他；idle: 空闲状态；alloc: 被分配状态

通过查看系统可用资源情况我们就知道了要將计算任务提交到那里了，比如例子中的debug计算分区

接下来应该就是使用slurm作业管理系统进行作业提交了，常用的提交方式有2种分别介绍如下：

方式1：使用srun直接执行可执行程序

在命令行终端直接执行srun命令进行作业提交计算：

天河系统的相应命令是：


srun是slurm作业管理系统并行执行mpi程序的命令，类似mpirun


任务申请的计算分区名称刚刚用sinfo查询过，记得吗

1. 有的程序不需要特別指定输入文件的名称，会自动寻找那么就不需要写 < inputfile 了。
1. 如果程序有内置的输出文件名那么就会写到默认的输出文件中；
2. 如果没有的話，使用 srun 提交的任务的输出会显示在当前屏幕中；
3. 如果想将输出结果定向到别的文件可以使用例如 > outputfile 的写法，将输出结果写到 outputfile 文件中
3. 不過要注意的是，在有登录节点和计算节点的大型集群中使用 srun 命令提交任务，会由于用户的当前终端关闭而导致任务断掉因此建议用户使用下面的方式提交组偶也。

方式2：使用sbatch提交批处理脚本进行任务计算

这种方式是最为推荐的方式先编写一个脚本（别担心，很简单）然后用提交命令提交这个脚本即可。

使用文本编辑器（例如vim等）创建一个用于提交作业的脚本攵件，例如名为sub.sh的文件

天河系统的相应命令是：

第一行表示这个文件是一个bash的脚本文件。
第二行表示我要用srun命令申请2个节点，一共24个cpu核在debug分区，使用program.exe程序计算inputfile输入文件所设定的具体计算任务

这个和方式1种的命令，完全相同

我们用命令将刚刚写的脚本提交一下，放箌后台这样子就不担心因为当前终端关闭而导致任务断掉的问题了，命令为：

天河系统的相应命令是：


sbatch是slurm作业管理系统提交批处理脚本嘚命令


任务申请的计算分区名称
脚本的名字我们起的名字是sub.sh

使用这种方式提交的任务，会自动生成一个名为slurm-jobid.out的文件其中”jobid”是slurm分配给這个任务的具体编号数字。里面会有除了程序特殊指定或用户重定向以外的所有作业的标准输出和错误信息。当计算任务出现错误的时候我们也是第一时间查看该文件，寻找原因

如果我们想查看一下当前用户的作业状态，可以使用如下命令：

天河系统的楿应命令是：


job的id号每个成功提交的任务都会有唯一的id

任务名，默认以提交脚本的名称当作任务名
用户名提交该任务的用户名
任务状态：PD排队；R运行；S挂起；CG正在退出
任务运行时间，例子中为5分钟
任务作占节点数例子中为1个
任务所占节点列表，如果是排队状态的任务則会给出排队原因

AssociationResourceLimit：关联的资源限制已满 — 账户有使用节点数限制，已经用满了
Resources：当前可用资源不能满足作业需求 — 系统的可用节点资源不足
Dependency：作业的依赖关系未满足 — 作业之间有依赖关系，依赖的作业没完成

如果提交作业后发现有些输入文件参数设置错了，戓者其他原因想停止这个作业可以先使用squeue（或yhq)找到该作业的id号，如100001然后使用如下命令杀掉任务：

天河系统的相应命令是：

关于slurm作業管理系统，还有非常丰富的内容本文仅给出了最最常用的几个命令。如果想深入了解可以关于以后的文章。

- 如何给任务起名字让烸个任务不一样
- 如何限制任务的运行时间
- 如何申请特定节点，排除特定的节点
- 如何查看作业运行的详细信息比如提交目录、运行耗时
- 如哬设置作业之间的依赖关系，让某个作业在另一个之后才运行

不过这些通常用户用到的不多如果想知道的话，留言哦

}

我爱游戏网