-
Notifications
You must be signed in to change notification settings - Fork 43
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
端侧设备部署,onnx推理耗时20ms,是否正常以及还是否有优化手段 #37
Comments
正常的,你这u确实有点弱 |
可以试试MNN的框架 |
耗时改善不明显,基本也是在20ms左右,偶尔会快几ms,有波动;cpu上,你们一般用什么框架做推理? |
onnx |
我在嵌入式平台上纯C写的推理,开了O3优化,5ms的推理速度。做完量化小于2ms。 |
什么U? |
国产平台,主频1.2GHz左右,跑起来的时候占用是低于5%的。 |
太强了 |
写的C推理,有多大的工作量,性能太强了 |
你好大佬 请问可以咨询一下技术细节吗?我给您发了邮件 |
分组GRU部分和双向GRU耗时大,需要减小一个,并且改成单向GRU,重新训练模型,推理耗时才会降下来。 |
事实上ConvTranspose在我这里耗时是最大的。不知道有什么方法可以进一步优化。 |
我也是直接实现的ConvTranspose很慢,改成插值+Conv实现后效率高不少。 |
改完岂不是还要重新训练? |
用插值会影响效果吗?另外请问有没有什么参考的代码来实现您所提到的? |
ConvTranspose和插值+Conv是等价操作,结果是一样的,当然需要Conv本身优化好的情况下才有效果,具体可以看看文章"A guide to convolution arithmetic for deep learning" |
感谢反馈,一开始也试过使用Conv来实现流式的Contranspose,后来嫌麻烦直接弃用了,没想到会有效率的问题。这里是之前的代码可供参考:
代码的实现可能不太完善,如有错误的地方欢迎指出~ |
太强了,我做完量化后,采用的芯片npu推理,16ms音频大概需要3ms,跑起来大概20%。 |
分组GRU部分的耗时大这个结论是相对于普通GRU还是Conv来说的呢? |
太强了,请问量化后精度损失多少 |
|
ssc的一款,0.4T。实时用没问题 |
(py310torch201) r python convert_onnx_mnn.py 您好,这边遇到了报错问题 |
cpu cotext-a7双核@1.2G
在端侧部署了实时流,单帧(16ms数据)推理耗时约20ms,也就是在这款设备上达不到实时流
1.当前设备20ms的推理时间是否正常
2.模型上还能否进一步裁剪的可能,业务上有没有优化的手段,比如输入的数据大一点,现在输入的是256的数据,也就是推理要小于16ms才有落地可能
The text was updated successfully, but these errors were encountered: