S4Life 本人在试图部署MAICA时遇到了一些困难,不知道有没有在这个问题上有经验的人能够帮我一把。 核心问题,我租的是32GB VRAM的vGPU,但在试图部署7B模型时发现只能以FP16且限制对话块大小的方式勉强运行,导致的代价是:1、回答无逻辑,前后文能力为负。2、回答不完整。所以怎么让这运行的好些?如果需要增加显存,至少需要多少?(“至少”指能以FP32运行) 另:MAICA是否对CUDA有较强的依赖? 非常感谢愿意回答这个问题的每一个人。
Edge 最佳实践是fp16 32没意义 32G显存对7b是绝对够用的, qwen2.5的上下文上限太高, 要限制很正常. 上下文能力弱是loa本身的问题, 体量越小的模型越明显, 没有办法. 要解决只能换模型. 对cuda原则上没依赖, 这点看swift的文档, 他们说用rocm编译也行, 但是几乎没见过.
Edge #4 S4Life 你试过用基本模型部署了吗? 比如qwen2.5-7bi 现在的loa是用最佳实践复现出来的, 我确实没有验证过, 但是你还是应该先用基本模型测试. 如果确认是模型的问题再联系我检查.
S4Life #9 Edge 也许是我不行,我昨晚研究了几个小时文档(后端开发),对付如山的问题,甚至(我对此感到极度抱歉,但我当时无能为力)替换了search_engines(因为我搞不到Bing API(SB微软要我VISA/万事达信用卡,我上哪找去?),Google API我当时没力气折腾了)换成百度Python包,最后OpenAI接口打倒了我(就算我翻出去有什么用呢?我用的是云GPU)真是遭罪,轻喷,谢谢。
Edge #10 S4Life 根本不用搜索引擎的api, 这个地方是用bs4刮削搜索页面的. 你pip install -r requirements.txt了没有? 模型的部署已经说过推荐用ms-swift了, 一行cli部署完自带openai接口, 你也没用吗? 这套系统确实是我设计来自己用的, 很多地方的泛用性没太考虑, 但是对着文档挨个做应该是能部署起来的. 我也说句抱歉的, 当时看你发帖大谈宏伟远景, 我还以为你的基础应该不差才对.