-
Notifications
You must be signed in to change notification settings - Fork 1.5k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
目前我使用yolov9-t已经完成了500轮次的训练,但是模型还没有收敛。我想继续训练该模型,应该怎么做? #600
Comments
500 轮还没收敛,你多大的数据集啊,上点训练中的一些图我们看看 |
部署是在训练好之后,先把模型训练好。如果你的模型训练这么久还没有收敛,你应该提供一些图,比如 loss P R 或者 map 等指标随着epoch 变化的图,然后分析是不是真的没有收敛,为什么没有收敛(比如超参数设置不合理,数据集有问题,训练的 epoch 不够 等)。 |
损失还在下降,precision 依然在上升,可能你的学习设置得太小了,可以调大一点。 |
还有一个问题我比较好奇,你用的什么gpu,能用轻松训练 500 轮? |
不清楚这些,我的目的是想先训练模型做一个简单的系统的时候尝试了很多次。导师也没有和我说过什么。想尝试部署失败了,换成v8部署了。 |
笔记本3060 但是我的batch-size是6,我数据集2w张。之前csdn刷到人家4090才畅跑16批次的好像。 |
我是用的 4090 跑的,你这个配置应该要跑很长时间。没有收敛除了学习率设置过大,还有一个原因是你的数据集规模太大,可能本身也需要跑很久。 |
是的 跑了好多天。然后我现在想不如先做系统和硬件再训练模型来的轻松。 |
请问是用train.py跑的吗,我用train.py跑一直报这个错误pred_distri, pred_scores = torch.cat([xi.view(feats[0].shape[0], self.no, -1) for xi in feats], 2).split( |
你可以试一下csdn上面的帖子,我一开始就从里面学习的。没有遇到这种问题。好像是源代码有点东西需要修改。 |
I have completed 500 rounds of training using YOLOV9, but the model has not yet converged. What should I do to continue training the model?
The text was updated successfully, but these errors were encountered: