Edit model card
YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co/docs/hub/model-cards#model-card-metadata)

模型介绍

ChatGLM2-6B 是清华开源中英双语对话模型 ChatGLM-6B 的第二代版本,具有模型对话流畅、部署门槛较低等众多优秀特性,ChatGLM2-6B 使用了 GLM 的混合目标函数上下文长度(Context Length)由 ChatGLM-6B 的 2K 扩展到了 32K,基于 Multi-Query Attention 技术,ChatGLM2-6B 有更高效的推理速度和更低的显存占用,推理速度相比初代提升了 42%,INT4 量化下,6G 显存支持的对话长度由 1K 提升到了 8K

chatglm2-6b-WaJiaBank 是基于清华 chatglm2-6b 进行量化+轻量微调,使用数据为网络公开数据。当前使用的数据量相对较少,模型泛化能力还需进一步提升。

优化方向:

  • 数据增强
  • 性能调优
  • 模型参数

调用方法

from transformers import AutoTokenizer,AutoConfig, AutoModel, BitsAndBytesConfig

tokenizer = AutoTokenizer.from_pretrained("xiangxiang/chatglm2-6b-WaJiaBank", trust_remote_code=True)
model = AutoModel.from_pretrained("xiangxiang/chatglm2-6b-WaJiaBank", trust_remote_code=True).float() ## GPU cuda  

提高模型推理速度,可以参考ChatGLM2-6B多卡部署方式

from utils import load_model_on_gpus
model = load_model_on_gpus("THUDM/chatglm2-6b", num_gpus=2)

参考链接

https://github.com/THUDM/ChatGLM2-6B

Downloads last month
4
Inference API
Inference API (serverless) does not yet support model repos that contain custom code.