THUDM/chatglm2-6b-int4 · 使用AdaLora微调训练chatglm2-6b-int4模型报错

在加载原始模型的时候不要用官方提供的量化代码

# 官方提供的代码：
# 尝试添加 --quantization_bit 8 或 --quantization_bit 4。
# https://github.com/THUDM/ChatGLM3/blob/main/finetune_chatmodel_demo/finetune.py
model = model.quantize(model_args.quantization_bit)

自己用原生的代码加载就可以了，量化耗时大概2-3分钟。

# 用transformers原生参数 load_in_8bit=True 就可以了
model = AutoModel.from_pretrained(MODEL_PATH, trust_remote_code=True, device_map="auto",  load_in_8bit=True)