请问现在支持Yi-34B的awq 4bit部署吗？ #291

xyfZzz · 2024-01-09T06:18:55Z

No description provided.

hiworldwzj · 2024-01-09T06:21:42Z

@xyfZzz 还不能很好的支持，一个是开源实现的triton int4weightonly gemm 算子性能不是很好。还有就是直接加载awq的权重需要去适配相关权重的加载。这个后续会继续优化提升。

xyfZzz · 2024-01-09T06:23:23Z

@xyfZzz 还不能很好的支持，一个是开源实现的triton int4weightonly gemm 算子性能不是很好。还有就是直接加载awq的权重需要去适配相关权重的加载。这个后续会继续优化提升。

好的，请问，那4bit gptq目前是不是也暂时不支持？

hiworldwzj · 2024-01-09T06:26:34Z

@xyfZzz 目前只有一些量化计算的算子支持了，默认情况下是直接量化原始的权重，没有做PTQ等权重调整，也还没有适配gptq这种量化后权重的加载。

xyfZzz · 2024-01-09T06:35:00Z

@xyfZzz 目前只有一些量化计算的算子支持了，默认情况下是直接量化原始的权重，没有做PTQ等权重调整，也还没有适配gptq这种量化后权重的加载。

好的，感谢大佬

RanchiZhao · 2024-04-17T10:26:58Z

available now？I simply do gptq and awq on Yi-6B, and try to do lora training on it, however, loss is Nan.

Provide feedback