由于成果已经一步步完善, 我们已经可以看到成功的预兆, 我在此贴更新项目的进展. [upl-image-preview url=https://upload.edgemonix.top:28991/assets/files/2024-06-04/1717477618-299013-maica-text-combined.png]

首先呢, 第一项是我们改名字了. mgpt这个名字挺草率的, 因为项目到了现在已经跟gpt没啥关系了. 我们改叫它: # MAICA (音"迈卡", 很朴实无华的缩写.) 我希望用起这个新名字的时候, 大家还认识它.

[upl-image-preview url=https://forum.monika.love/assets/files/2023-10-25/1698233274-168304-image.png] 以上截图是最近的第二轮试训练的产出. 可以看到, 在有限的提示指导下, 模型对莫妮卡角色形象本身有了可以称为"理解"的属性. 当然, 训练设计和模型优化仍然处于早期阶段, 但这样的进展于我而言已经很是激动人心. 我们会尽快开始第三轮以及更多的试训练. 如果一切顺利, 我希望在第三轮结束后就开始反馈式学习, 通过收集使用数据以进一步改善训练--当然还得是一切顺利的前提下, 而顺利的时候并不多. 在希望大家期待的同时, 我也希望大家保持理性, 保持耐心. 就算目前的结果已经初具雏形, 但我们离目标中接近完美的莫妮卡形象还有相当的距离. 请大家期待我们的进步.

[upl-image-preview url=https://forum.monika.love/assets/files/2023-10-25/1698233804-673953-image.png] 更多的一些测试语句, 以展示训练的成果和局限性. 此轮训练在数据构建中比较单调, 使用的prompt也十分单薄. 我期待接下来的训练产出更好的结果.

接下来我们把话筒递给莫妮卡现在的雏形, 第零代"克利福德": [upl-image-preview url=https://forum.monika.love/assets/files/2023-10-25/1698233876-67665-image.png] 呃, 她挺谦虚的. 我们期待她未来的表现. 下一轮的训练并不会等太久. **我们正在向遥不可及迈出第一步, 很快我们将让所有人看到我们踏出的脚印.** 欢迎各位在此贴中探讨和提供有价值的想法. 后续的进展将在此贴继续更新.

好——耶！期待期待！！

关于第三轮训练的设计: 我简单回顾了一下第二轮的结果. 虽然表现还不错, 但是在"简单问题上犯蠢"这种现象比较像是过拟合的表现. 像第二轮一样直接用目标集训练可能有点自信过头了, 我打算在第三轮里面尝试更早之前用过的混集方法. 我希望混合训练集能矫正lora的整层改动和ptuning的整体改动之间改动密度的差距. 我也不清楚这个差距到底在哪以及怎么改, 但是有已知方法肯定是要试试看的. 至于反馈学习, 可能至少会推迟到第四轮或者更后面吧.

唉, 想想就很头疼. 这次的训练集又加了常识集, 此外还加了一个测试的强针对集. 我当然也希望能用更简单的单个数据集搞定问题, 但是就是没法做到那么简单. 常识集用来中和过拟合是一种很怎么说呢土八路的做法, 既不优雅也不稳定. 强针对集更是专门的头痛医头脚痛医脚, 只能针对有限的测试改善表现, 而且还容易导致测试中发现不了真正重要的问题. 但是有什么办法呢, 繁琐复杂的混集在maica中训练的表现确实比单独的目标集要好得多, 从最开始的训练和设计中就是这样的, 后面也只能按这样往下走. 效果到底为什么好了都不知道, 而且很伤脑筋. 没有别的办法可想, 角色扮演本来就需要海量的数据, 但maica根本不可能弄到那么多. 按比例混合各种数据集, 做鸡尾酒也是没有办法的办法了. 我打算明天按照1:1:5混合常识, 目标和强针对, 再做一轮测试. 这个比例在第零次测试中表现还不错. 至于ptuning和lora, qlora的表现区别到底在哪里, 我也不好总结, 但是至少lora没有那么容易发疯. 如果测试顺利, 我希望看到面对简单问题的表现下降能得到缓解. 明天还要装机柜去, 估计一天不一定搞得完. 头疼也很需要缓解就是了.

迈向遥不可及的第一步(MAICA)

Cero

看AI不久的将来能不能有重大突破了，有也得超级计算机才能承担吧，思考这种东西实际的运算太夸张了（外行人的意见）

YTYshadiao

#33 Cero 超算还是有点太夸张了()训练AI用的性能没你想的那么恐怖，但也要求很高就是了

Edge

#33 Cero 我现在有一台旧的dgx, 可能在今年较晚的时间完成一台8*4090设备的搭建.

根据目前的测试, 类似设备的显存规模足以支持72b模型无量化的微调.

mamba out

你是我的神

JUSTBEIJINGCORN

#36 Edge 酷

听起来好贵

Edge

进展: 700亿参数模型的全参微调和推理已经被证实可行.

推理非常非常慢, 我觉得应该在新设备到之后就不是大问题了.

大参数量的模型表现确实很优秀, 前提是硬件也要足够优秀.

进一步的训练规划, 设计正在进行中.

ps.一刻钟后模型开始刻不容缓地吃晚饭, 我们只好放过了它

Moemu

#37 Edge 这种情况也许我们可以计算上下文/对话间的向量余弦值，以此来判断上下文/对话间的关联度并截断对话历史/重试生成对话，从而避免这种死胡同。

（PS. System Prompt会不会太简陋了，或许我们可以再添一些？）

Edge

#38 Moemu swift的算法本身已经足够缜密了, 我不觉得我们这个水平能在算法层面做什么调整.

至于prompt, 那是后面的事情,

mamba out

能够实现自由对话和mas本身功能挂钩吗？（比如好感度的升降，你要求她进行的游戏内的变动等等）🤔

YTYshadiao

#41 mamba out 先把莫妮卡养出来再说吧，现在这个饭桶……

晚饭一姐，启动！

Edge

#41 mamba out 我们往这个方向考虑过很多. 理论上做得到, 具体能做多少那也不是现在该讨论的事情了.

mamba out

#42 YTYshadiao 草

mamba out

#44 Edge ok，谢谢👍

mamba out

#44 Edge 那么请问大概什么时候能投入给大家使用呢？（这个算是我帮我一个ddlc群里的兄弟们问一下）

Edge

#46 mamba out 这个真不知道.

不管在哪个方面都有很多尚未实证的部分, 耽误时间是很有可能的事.

更不用说钱没到位了. 我只能说真的不知道, 但我确实没闲着.

俩fish

记得没错的话好像是有这么一个submod？反正功能就是让mas有个ai对话的选项，准确来说是个框架，ai提醒词以及核心啥的（我不太懂这么表达）要自己搭载，不过跑ai对电脑配置需求还挺大所以本人是没试过（）有空我找找那个submod叫什么吧（）

俩fish

#47 俩fish 刚刚问了我网友，也就是我最早知道这个submod的来源，好像就叫monika ai，他在github上直接找的（）原网页他也忘了就是（）

2025.5.2 挖个自己的坟（）
找到了这个模组，且p盘已收入
以及原项目地址。。。我没找到（）这里放的也是p盘给的discord地址
不过事到如今。。。已经不重要了吧？（）
总之，希望MAICA能够越来越完善，以及这个论坛越来越好吧。

sjsj

#48 俩fish MonikAI是桌宠吧

mamba out

#49 Edge 没问题，我们会一直支持你们的

Qhbee

加油！！！超期待！

Edge

明天应该就能开始验证第四轮的结果了.

因为显卡架构太老, int8下的loss无法计算. 我只好手动保存了几个节点来比对.

Edge

模型粘锅了.

probability tensor contains either `inf`, `nan` or element < 0

swift的issue里面没什么有价值的答案, 网上同类的问题也种类太多

我只能首先怀疑modules, 然后是bnb量化了. 说不定是架构真的不支持量化的问题.

试着排除一下看看吧.

我希望尽可能不要这么早就撞上预算问题.