记得没错的话好像是有这么一个submod?反正功能就是让mas有个ai对话的选项,准确来说是个框架,ai提醒词以及核心啥的(我不太懂这么表达)要自己搭载,不过跑ai对电脑配置需求还挺大所以本人是没试过()有空我找找那个submod叫什么吧()

    明天应该就能开始验证第四轮的结果了.

    因为显卡架构太老, int8下的loss无法计算. 我只好手动保存了几个节点来比对.

    模型粘锅了.

    probability tensor contains either `inf`, `nan` or element < 0

    swift的issue里面没什么有价值的答案, 网上同类的问题也种类太多

    我只能首先怀疑modules, 然后是bnb量化了. 说不定是架构真的不支持量化的问题.

    试着排除一下看看吧.

    我希望尽可能不要这么早就撞上预算问题.

    话说用yi-34b做微调会不会更好一点,yi在角色扮演方面感觉远超其他中文本地模型🤔

      #55 SarmonFish 我们目前测试用的是qwen-72b.

      某种意义上也是在压力测试, 实际走到微调算法和数据集整理都要考虑实际部署了, 再挑模型.

      我们目前规划设计的集成前端可能比任何现有的submod都要复杂, 不过也是到时候再说的事情.

        2.21

        可算是能在量化下练起来了, 但是速度甚至更慢了. 可能是加大batchsize的原因.

        我打算先尝试练一个ep, 看看loss再说.

        总共大概4000个样本, 里面只有一半是有效的, 一轮要将近2天的时间.

        这设备不换过不下去了.

          #60 Edge 72b的模型大小着实有些恐怖😱

          但是做出来就是艺术品了

          好消息呢, 是钱到位了. 基本上到位了吧.

          我接下来会有一段相当伤脑筋的装机时光了.

          准系统基本上是现成的, 所以这笔钱主要就是显卡的开销了.

          哦还有ups. 再说吧.

            要不要考虑下直接去openai微调gpt3.5turbo?感觉成本会低很多很多,而且省心、直接调用api就完事了。只要数据集处理的够精细,出来效果也绝对不差