S4Life 本人在试图部署MAICA时遇到了一些困难,不知道有没有在这个问题上有经验的人能够帮我一把。 核心问题,我租的是32GB VRAM的vGPU,但在试图部署7B模型时发现只能以FP16且限制对话块大小的方式勉强运行,导致的代价是:1、回答无逻辑,前后文能力为负。2、回答不完整。所以怎么让这运行的好些?如果需要增加显存,至少需要多少?(“至少”指能以FP32运行) 另:MAICA是否对CUDA有较强的依赖? 非常感谢愿意回答这个问题的每一个人。
Edge 最佳实践是fp16 32没意义 32G显存对7b是绝对够用的, qwen2.5的上下文上限太高, 要限制很正常. 上下文能力弱是loa本身的问题, 体量越小的模型越明显, 没有办法. 要解决只能换模型. 对cuda原则上没依赖, 这点看swift的文档, 他们说用rocm编译也行, 但是几乎没见过.
Edge #4 S4Life 你试过用基本模型部署了吗? 比如qwen2.5-7bi 现在的loa是用最佳实践复现出来的, 我确实没有验证过, 但是你还是应该先用基本模型测试. 如果确认是模型的问题再联系我检查.