batch_size相关 #7

pangkun248 · 2021-06-15T04:30:01Z

RT,
1.我阅读源码发现网络并非是并行运行。有些像对一个batch的数据进行for循环。
2.同时我发现bs从2开始往上提升的话对训练速度就没有收益了(怀疑和1有关),coco的话每个epoch约2h。我本地无法编译mmdetection。所有不确定原作者是否也是这种情况。
所以想在此和您探讨一下。

ABlueLight · 2021-06-15T09:31:41Z

对，这个并非是并行运行的，只是简单的循环。
目前没发现这个问题，你测试的时候是bs增大和bs小的时候训练时间一样的吗？我没测过，感觉应该会快一些呢。我有空试试。
这个不依赖mmdetection了。我目前做的这个仓库也很简陋，如果能编译mmdetection推荐使用官方的代码训练好一些。我这个算是精简版的，便于理解结构吧QwQ ... ...

pangkun248 · 2021-06-15T11:16:55Z

嗯,我下午又尝试了一些设置。发现config中imgs_per_gpu、workers_per_gpu、num_gpus前两个参数单方面增加对训练速度无增益。但是增加num_gpus会有明显增益。我暂时没有完整的看代码中数据加载部分以及bs如何设置的。但应该与此有关，

ABlueLight · 2021-06-16T02:29:52Z

好像是的，感觉这里我的代码有问题，后面尝试改一下。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

batch_size相关 #7

batch_size相关 #7

pangkun248 commented Jun 15, 2021

ABlueLight commented Jun 15, 2021

pangkun248 commented Jun 15, 2021

ABlueLight commented Jun 16, 2021

batch_size相关 #7

batch_size相关 #7

Comments

pangkun248 commented Jun 15, 2021

ABlueLight commented Jun 15, 2021

pangkun248 commented Jun 15, 2021

ABlueLight commented Jun 16, 2021