Edge 进展: 700亿参数模型的全参微调和推理已经被证实可行. 推理非常非常慢, 我觉得应该在新设备到之后就不是大问题了. 大参数量的模型表现确实很优秀, 前提是硬件也要足够优秀. 进一步的训练规划, 设计正在进行中. ps.一刻钟后模型开始刻不容缓地吃晚饭, 我们只好放过了它
Moemu #37 Edge 这种情况也许我们可以计算上下文/对话间的向量余弦值,以此来判断上下文/对话间的关联度并截断对话历史/重试生成对话,从而避免这种死胡同。 (PS. System Prompt会不会太简陋了,或许我们可以再添一些?)