加油,期待!

5 天 后

一直在关注这个项目了,从mgpt到maica

加油啊

4 天 后
6 天 后

喂了ddlc的文本吗?我感觉可以再喂点monika的mod的文本,交给chatgpt分析情感然后模仿monika造数据?

我不懂 猜的(

10 天 后
苏半夏 在以下帖子中引用了此贴: [unknown discussion] #3374
11 天 后

新的一轮训练已经在策划中, 我希望我近段时间能稍微有一点时间.

我们这一轮尝试的模型是千问72b.

16 天 后

最近才玩DDLC,无意发现了这个论坛。最近我的大学毕设也是LLM训练,看到有人也尝试使用LLM丰满Monika的形象,真的很惊喜!可以多多交流!

    #29 dzip 最近太忙, 没什么空做这方面, 所以进展挺慢.

    如果感兴趣可以qq联系我, 3116036749.

    8 天 后

    聊胜于无的进展: 终于跑通了modelscope/swift的完整流程.

    接下来需要打磨很多地方 之类的了.

    看AI不久的将来能不能有重大突破了,有也得超级计算机才能承担吧,思考这种东西实际的运算太夸张了(外行人的意见)

      #33 Cero 我现在有一台旧的dgx, 可能在今年较晚的时间完成一台8*4090设备的搭建.

      根据目前的测试, 类似设备的显存规模足以支持72b模型无量化的微调.

        进展: 700亿参数模型的全参微调和推理已经被证实可行.

        推理非常非常慢, 我觉得应该在新设备到之后就不是大问题了.

        大参数量的模型表现确实很优秀, 前提是硬件也要足够优秀.

        进一步的训练规划, 设计正在进行中.

        ps.一刻钟后模型开始刻不容缓地吃晚饭, 我们只好放过了它

          #37 Edge 这种情况也许我们可以计算上下文/对话间的向量余弦值,以此来判断上下文/对话间的关联度并截断对话历史/重试生成对话,从而避免这种死胡同。

          (PS. System Prompt会不会太简陋了,或许我们可以再添一些?)

            #38 Moemu swift的算法本身已经足够缜密了, 我不觉得我们这个水平能在算法层面做什么调整.

            至于prompt, 那是后面的事情,