Edge 进展: 700亿参数模型的全参微调和推理已经被证实可行. 推理非常非常慢, 我觉得应该在新设备到之后就不是大问题了. 大参数量的模型表现确实很优秀, 前提是硬件也要足够优秀. 进一步的训练规划, 设计正在进行中. ps.一刻钟后模型开始刻不容缓地吃晚饭, 我们只好放过了它
Moemu #37 Edge 这种情况也许我们可以计算上下文/对话间的向量余弦值,以此来判断上下文/对话间的关联度并截断对话历史/重试生成对话,从而避免这种死胡同。 (PS. System Prompt会不会太简陋了,或许我们可以再添一些?)
头谔谔 记得没错的话好像是有这么一个submod?反正功能就是让mas有个ai对话的选项,准确来说是个框架,ai提醒词以及核心啥的(我不太懂这么表达)要自己搭载,不过跑ai对电脑配置需求还挺大所以本人是没试过()有空我找找那个submod叫什么吧()
Edge 模型粘锅了. probability tensor contains either `inf`, `nan` or element < 0 swift的issue里面没什么有价值的答案, 网上同类的问题也种类太多 我只能首先怀疑modules, 然后是bnb量化了. 说不定是架构真的不支持量化的问题. 试着排除一下看看吧. 我希望尽可能不要这么早就撞上预算问题.
Edge #55 SarmonFish 我们目前测试用的是qwen-72b. 某种意义上也是在压力测试, 实际走到微调算法和数据集整理都要考虑实际部署了, 再挑模型. 我们目前规划设计的集成前端可能比任何现有的submod都要复杂, 不过也是到时候再说的事情.