We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
您好: 非常感谢您的开源模型。 我目前正在基于您的模型进行一些测试,注意到GTCRN的输出通过tanh激活并预测实部和虚部的mask,对预测出来的mask与输入特征的实部虚部做了复数乘法得到了预测特征。 而当我将虚部mask的值打印出来时,发现在大部分情况下,mask的值都是接近于0(大约在10^-3~10^-4或者更低),我使用了两个checkpoints对test_wavs/mix.wav进行测试,以及使用了一些本地数据进行测试,基本都是这个现象。 关于上述现象:1. GTCRN是否实际上已经退化成了幅度谱的mask。2. 如果确实发生了退化,这种退化的可能原因是什么,以及是否可以通过训练目标的选择,或者是模型的调整,将GTCRN的恢复到对CRM的估计? 期待您的回复,谢谢!
The text was updated successfully, but these errors were encountered:
您好: 您所说的现象之前也有人反馈过,所以的确有可能预测的CRM退化成了IRM。我认为这种退化的原因可能是模型容量受限。在我的一些实验中发现,对于小模型,直接预测幅度谱会取得与预测复数谱差不多的性能,甚至更好。以复数谱为目标却预测到接近幅度谱的结果,一定程度上也支持了上述结论。我认为实质的困难在于小模型难以精确的预测相位。
Sorry, something went wrong.
严验证的真细致呀
No branches or pull requests
您好:
非常感谢您的开源模型。
我目前正在基于您的模型进行一些测试,注意到GTCRN的输出通过tanh激活并预测实部和虚部的mask,对预测出来的mask与输入特征的实部虚部做了复数乘法得到了预测特征。
而当我将虚部mask的值打印出来时,发现在大部分情况下,mask的值都是接近于0(大约在10^-3~10^-4或者更低),我使用了两个checkpoints对test_wavs/mix.wav进行测试,以及使用了一些本地数据进行测试,基本都是这个现象。
关于上述现象:1. GTCRN是否实际上已经退化成了幅度谱的mask。2. 如果确实发生了退化,这种退化的可能原因是什么,以及是否可以通过训练目标的选择,或者是模型的调整,将GTCRN的恢复到对CRM的估计?
期待您的回复,谢谢!
The text was updated successfully, but these errors were encountered: