本人在试图部署MAICA时遇到了一些困难,不知道有没有在这个问题上有经验的人能够帮我一把。

核心问题,我租的是32GB VRAM的vGPU,但在试图部署7B模型时发现只能以FP16且限制对话块大小的方式勉强运行,导致的代价是:1、回答无逻辑,前后文能力为负。2、回答不完整。所以怎么让这运行的好些?如果需要增加显存,至少需要多少?(“至少”指能以FP32运行)

另:MAICA是否对CUDA有较强的依赖?

非常感谢愿意回答这个问题的每一个人。

  • 最佳实践是fp16 32没意义

    32G显存对7b是绝对够用的, qwen2.5的上下文上限太高, 要限制很正常.

    上下文能力弱是loa本身的问题, 体量越小的模型越明显, 没有办法. 要解决只能换模型.

    对cuda原则上没依赖, 这点看swift的文档, 他们说用rocm编译也行, 但是几乎没见过.

快来注册!

*即使不注册, DCC也会展示所有知识性和分享内容

最佳实践是fp16 32没意义

32G显存对7b是绝对够用的, qwen2.5的上下文上限太高, 要限制很正常.

上下文能力弱是loa本身的问题, 体量越小的模型越明显, 没有办法. 要解决只能换模型.

对cuda原则上没依赖, 这点看swift的文档, 他们说用rocm编译也行, 但是几乎没见过.

    #2 Edge 还有一个问题,我昨天晚上在部署时发现输入输出无关,且输出内容没法正常解释。有什么特殊需要吗?非常感谢

      #4 S4Life 你试过用基本模型部署了吗? 比如qwen2.5-7bi

      现在的loa是用最佳实践复现出来的, 我确实没有验证过, 但是你还是应该先用基本模型测试.

      如果确认是模型的问题再联系我检查.

        这显得我有点fw,但是我的脑子快转不过来了。

        这有点偷懒,但是有没有人有一套比较好的方法论来在本地部署MAICA?(非MAS方案)。非常感谢,这两天差点秃了。

          #9 Edge 也许是我不行,我昨晚研究了几个小时文档(后端开发),对付如山的问题,甚至(我对此感到极度抱歉,但我当时无能为力)替换了search_engines(因为我搞不到Bing API(SB微软要我VISA/万事达信用卡,我上哪找去?),Google API我当时没力气折腾了)换成百度Python包,最后OpenAI接口打倒了我(就算我翻出去有什么用呢?我用的是云GPU)真是遭罪,轻喷,谢谢。

            #10 S4Life 根本不用搜索引擎的api, 这个地方是用bs4刮削搜索页面的. 你pip install -r requirements.txt了没有?

            模型的部署已经说过推荐用ms-swift了, 一行cli部署完自带openai接口, 你也没用吗?

            这套系统确实是我设计来自己用的, 很多地方的泛用性没太考虑, 但是对着文档挨个做应该是能部署起来的.

            我也说句抱歉的, 当时看你发帖大谈宏伟远景, 我还以为你的基础应该不差才对.

              #11 Edge 非常抱歉,我很感谢您的建议,但我是个幼稚的幻想家,别对我的技术有什么期望。

              无人输入