xiangxiang/chatglm2-6b-WaJiaBank

模型介绍

ChatGLM2-6B 是清华开源中英双语对话模型 ChatGLM-6B 的第二代版本，具有模型对话流畅、部署门槛较低等众多优秀特性，ChatGLM2-6B 使用了 GLM 的混合目标函数上下文长度（Context Length）由 ChatGLM-6B 的 2K 扩展到了 32K，基于 Multi-Query Attention 技术，ChatGLM2-6B 有更高效的推理速度和更低的显存占用，推理速度相比初代提升了 42%，INT4 量化下，6G 显存支持的对话长度由 1K 提升到了 8K

chatglm2-6b-WaJiaBank 是基于清华 chatglm2-6b 进行量化+轻量微调，使用数据为网络公开数据。当前使用的数据量相对较少，模型泛化能力还需进一步提升。

优化方向：

数据增强
性能调优
模型参数

调用方法

from transformers import AutoTokenizer,AutoConfig, AutoModel, BitsAndBytesConfig

tokenizer = AutoTokenizer.from_pretrained("xiangxiang/chatglm2-6b-WaJiaBank", trust_remote_code=True)
model = AutoModel.from_pretrained("xiangxiang/chatglm2-6b-WaJiaBank", trust_remote_code=True).float() ## GPU cuda

提高模型推理速度，可以参考ChatGLM2-6B多卡部署方式

from utils import load_model_on_gpus
model = load_model_on_gpus("THUDM/chatglm2-6b", num_gpus=2)

参考链接

https://github.com/THUDM/ChatGLM2-6B