Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

目前我使用yolov9-t已经完成了500轮次的训练,但是模型还没有收敛。我想继续训练该模型,应该怎么做? #600

Open
ljwiii opened this issue Oct 9, 2024 · 12 comments

Comments

@ljwiii
Copy link

ljwiii commented Oct 9, 2024

I have completed 500 rounds of training using YOLOV9, but the model has not yet converged. What should I do to continue training the model?

@wgqhandsome
Copy link

500 轮还没收敛,你多大的数据集啊,上点训练中的一些图我们看看

@ljwiii
Copy link
Author

ljwiii commented Oct 23, 2024

500 轮还没收敛,你多大的数据集啊,上点训练中的一些图我们看看

mmexport1729672548611.jpg

mmexport1729672555505.jpg

朋友你会部署yolov9吗

@wgqhandsome
Copy link

部署是在训练好之后,先把模型训练好。如果你的模型训练这么久还没有收敛,你应该提供一些图,比如 loss P R 或者 map 等指标随着epoch 变化的图,然后分析是不是真的没有收敛,为什么没有收敛(比如超参数设置不合理,数据集有问题,训练的 epoch 不够 等)。

@ljwiii
Copy link
Author

ljwiii commented Oct 23, 2024

部署是在训练好之后,先把模型训练好。如果你的模型训练这么久还没有收敛,你应该提供一些图,比如 loss P R 或者 map 等指标随着epoch 变化的图,然后分析是不是真的没有收敛,为什么没有收敛(比如超参数设置不合理,数据集有问题,训练的 epoch 不够 等)。

IMG_20241023_164327.jpg

IMG_20241023_164332.jpg

IMG_20241023_164336.jpg

IMG_20241023_164341.jpg

IMG_20241023_164356.jpg

好的,我不太清楚。是做毕设来了解的。而后我发现v9部署不了我转用v8的模型进行部署了。

@wgqhandsome
Copy link

损失还在下降,precision 依然在上升,可能你的学习设置得太小了,可以调大一点。
另外你知道,这个论文在正式的期刊上发表了吗?

@wgqhandsome
Copy link

还有一个问题我比较好奇,你用的什么gpu,能用轻松训练 500 轮?

@ljwiii
Copy link
Author

ljwiii commented Oct 23, 2024

损失还在下降,precision 依然在上升,可能你的学习设置得太小了,可以调大一点。
另外你知道,这个论文在正式的期刊上发表了吗?

不清楚这些,我的目的是想先训练模型做一个简单的系统的时候尝试了很多次。导师也没有和我说过什么。想尝试部署失败了,换成v8部署了。

@ljwiii
Copy link
Author

ljwiii commented Oct 23, 2024

还有一个问题我比较好奇,你用的什么gpu,能用轻松训练 500 轮?

笔记本3060 但是我的batch-size是6,我数据集2w张。之前csdn刷到人家4090才畅跑16批次的好像。

@wgqhandsome
Copy link

我是用的 4090 跑的,你这个配置应该要跑很长时间。没有收敛除了学习率设置过大,还有一个原因是你的数据集规模太大,可能本身也需要跑很久。

@ljwiii
Copy link
Author

ljwiii commented Oct 23, 2024

我是用的 4090 跑的,你这个配置应该要跑很长时间。没有收敛除了学习率设置过大,还有一个原因是你的数据集规模太大,可能本身也需要跑很久。

是的 跑了好多天。然后我现在想不如先做系统和硬件再训练模型来的轻松。

@Zhuqing11223
Copy link

请问是用train.py跑的吗,我用train.py跑一直报这个错误pred_distri, pred_scores = torch.cat([xi.view(feats[0].shape[0], self.no, -1) for xi in feats], 2).split(
RuntimeError: shape '[144, 144, -1]' is invalid for input of size 921600

@ljwiii
Copy link
Author

ljwiii commented Nov 21, 2024

请问是用train.py跑的吗,我用train.py跑一直报这个错误pred_distri, pred_scores = torch.cat([xi.view(feats[0].shape[0], self.no, -1) for xi in feats], 2).split(
RuntimeError: shape '[144, 144, -1]' is invalid for input of size 921600

你可以试一下csdn上面的帖子,我一开始就从里面学习的。没有遇到这种问题。好像是源代码有点东西需要修改。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants