Replies: 1 comment
-
其实这个东西我们很早之前就尝试过,但是那时候我们觉得占用显存最大的很多时候并不是参数的数量,而是中间的其他数据,而那些数据与bach_size有关。所以当时我们做出来之后效果并不好,并没有节省多少显存,大概也就几百兆的样子,最后这东西也就不了了之了。。。 |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
我们当时总结了很多种方案来实现这个idea,但是因为我自己转了其他方向,所以就没继续做下去(不过倒是在某些群里讨论过)。很感谢你们做出了这个版本。
这个优化算法其实还有一些可操作(魔改)的空间来增强它的精度和稳定性,不过我不想在这里讨论。
Beta Was this translation helpful? Give feedback.
All reactions