由于成果已经一步步完善, 我们已经可以看到成功的预兆, 我在此贴更新项目的进展. [upl-image-preview url=https://upload.edgemonix.top:28991/assets/files/2024-06-04/1717477618-299013-maica-text-combined.png]

首先呢, 第一项是我们改名字了. mgpt这个名字挺草率的, 因为项目到了现在已经跟gpt没啥关系了. 我们改叫它: # MAICA (音"迈卡", 很朴实无华的缩写.) 我希望用起这个新名字的时候, 大家还认识它.

[upl-image-preview url=https://forum.monika.love/assets/files/2023-10-25/1698233274-168304-image.png] 以上截图是最近的第二轮试训练的产出. 可以看到, 在有限的提示指导下, 模型对莫妮卡角色形象本身有了可以称为"理解"的属性. 当然, 训练设计和模型优化仍然处于早期阶段, 但这样的进展于我而言已经很是激动人心. 我们会尽快开始第三轮以及更多的试训练. 如果一切顺利, 我希望在第三轮结束后就开始反馈式学习, 通过收集使用数据以进一步改善训练--当然还得是一切顺利的前提下, 而顺利的时候并不多. 在希望大家期待的同时, 我也希望大家保持理性, 保持耐心. 就算目前的结果已经初具雏形, 但我们离目标中接近完美的莫妮卡形象还有相当的距离. 请大家期待我们的进步.

[upl-image-preview url=https://forum.monika.love/assets/files/2023-10-25/1698233804-673953-image.png] 更多的一些测试语句, 以展示训练的成果和局限性. 此轮训练在数据构建中比较单调, 使用的prompt也十分单薄. 我期待接下来的训练产出更好的结果.

接下来我们把话筒递给莫妮卡现在的雏形, 第零代"克利福德": [upl-image-preview url=https://forum.monika.love/assets/files/2023-10-25/1698233876-67665-image.png] 呃, 她挺谦虚的. 我们期待她未来的表现. 下一轮的训练并不会等太久. **我们正在向遥不可及迈出第一步, 很快我们将让所有人看到我们踏出的脚印.** 欢迎各位在此贴中探讨和提供有价值的想法. 后续的进展将在此贴继续更新.

好——耶！期待期待！！

关于第三轮训练的设计: 我简单回顾了一下第二轮的结果. 虽然表现还不错, 但是在"简单问题上犯蠢"这种现象比较像是过拟合的表现. 像第二轮一样直接用目标集训练可能有点自信过头了, 我打算在第三轮里面尝试更早之前用过的混集方法. 我希望混合训练集能矫正lora的整层改动和ptuning的整体改动之间改动密度的差距. 我也不清楚这个差距到底在哪以及怎么改, 但是有已知方法肯定是要试试看的. 至于反馈学习, 可能至少会推迟到第四轮或者更后面吧.

唉, 想想就很头疼. 这次的训练集又加了常识集, 此外还加了一个测试的强针对集. 我当然也希望能用更简单的单个数据集搞定问题, 但是就是没法做到那么简单. 常识集用来中和过拟合是一种很怎么说呢土八路的做法, 既不优雅也不稳定. 强针对集更是专门的头痛医头脚痛医脚, 只能针对有限的测试改善表现, 而且还容易导致测试中发现不了真正重要的问题. 但是有什么办法呢, 繁琐复杂的混集在maica中训练的表现确实比单独的目标集要好得多, 从最开始的训练和设计中就是这样的, 后面也只能按这样往下走. 效果到底为什么好了都不知道, 而且很伤脑筋. 没有别的办法可想, 角色扮演本来就需要海量的数据, 但maica根本不可能弄到那么多. 按比例混合各种数据集, 做鸡尾酒也是没有办法的办法了. 我打算明天按照1:1:5混合常识, 目标和强针对, 再做一轮测试. 这个比例在第零次测试中表现还不错. 至于ptuning和lora, qlora的表现区别到底在哪里, 我也不好总结, 但是至少lora没有那么容易发疯. 如果测试顺利, 我希望看到面对简单问题的表现下降能得到缓解. 明天还要装机柜去, 估计一天不一定搞得完. 头疼也很需要缓解就是了.

迈向遥不可及的第一步(MAICA)

Edge

训练的时候感觉就像坐在一个大号电烤炉旁边.

可能该考虑下夏天的时候把办公位搬去二楼了.

Edge

我设计了一套过滤系统, 协助agent模型提取信息. 基本上就是将mas存档每一个有意义的项提取出来, 然后手工设计触发器和提示词.

我的依据是, 目前为止agent模型的泛化能力表现不如预期. 我们应该给agent模型尽可能大的容错性, 确保其即使无法输出正确引导也要让核心模型获得必要信息.

虽然比起一项技术来说更像是水磨工夫, 但是我将这套系统称为MFocus. maica使用多个模型组合完成任务的核心思路, 就是通过辅助模型和驱动, 使获取的信息可读化, 友好化, 让核心模型专注于自己的任务, 即角色扮演.

我知道财大气粗的方案肯定能做得更好, 但maica或许更适合广泛适应的角色扮演. 只有在完成之后才能检验了.

ps.加一层循环应该能让代码好看很多, 但是我懒得弄了.

Vadera

#196 Edge

我做过一个语义搜索的小demo，用词嵌入代替文献检索中的关键词检索与正则匹配。

步骤如下：

爬取指定期刊上的部分文献，包含题目、关键词和摘要
用openai的embeddings模型做嵌入，结果保存至本地的向量数据库
用户提供想法文本，这段文本也会转化为向量，计算与本地数据库中的向量的距离

这种做法是考虑到文本与关键词间有稳定的匹配关系，在这里可能表现不好，因为缺少角色指令、态度明确的数据集。不过我认为这是一个十分轻量的方案，并且辅以文本分类也许可以减少部分人工。

如果您认为这一想法值得考虑，我会在这几天里把相应代码整理出来。

Edge

我已经将mfocus推送到git.

其实我比较担心大量正则查找的性能问题, 但是也没有别的办法可想了-基本没有.

Edge

此前可以正常运行的awq量化出现了问题. 我提交了issue, 希望会有人替我想想办法.
出于我不知道的原因, 使用gptq量化的过程中显存溢出了, 在此之前我没有遇到过这种情况, 可能也是qwen2本身的问题. 如果我要继续对核心模型进行gptq, 我可能需要一张专用的显卡.
使用直接插入emotion的数据集微调效果不佳. 很可能是被拆分为不同的system prompt使其关联性减弱, 而直接插入的表情字符在token切分过程中也出了问题. 需要格式化?
修改system prompt导致了其它问题. 虽然看起来像过拟合的一种, 但超过一定step之后模型表现的态度出现了直观的反转. 我猜测插入的内容可能打乱了分词表和接龙的原有结构, 这是过拟合的另外一个表现.

我首先需要定位量化流程中存在的问题, 然后尝试格式化表情字符并再次观察训练效果, 再对驱动进行改装.

如果实际结果证明使模型直接输出情绪标识真的是不可行的, 我们只能fallback到原有的计划, 即为agent模型引入更多任务.

假设什么都一切顺利每次都是错的. 这会是一场苦战.

Edge

#199 Vadera 我知道langchain有相关的功能, 但是情况在Mfocus上有一定的区别.

Mfocus的目标并不是检索, 而是分析+提取. 在文本输入之初, 我们并不知道我们"需要"形如什么的数据, 这极大地削弱了langchain检索的功用.
Mfocus的数据实际上来说并不多, 只有最多一百多条. 在这样一个相对小的规模上, 全部用正则比部署一个模型可能还省一些.
Mfocus需要读取存档, 而存档的数据并不是人类直接可读的, 它的键名包含很多缩写, agent基本上不可能理解它.

我确实很认真地考虑过langchain检索的可行性, 但是结论是那只适合检索海量信息和文献. maica的需求对它来说太小而且太刁钻了.

Edge

关于对mfocus的进一步优化, 我有一些设想. 但是再做优化基本上就是要求agent去做它比较不擅长的任务了.

我只能把这些放在解决核心问题后面.

Edge

我觉得我有点太累了. 正好今天手机到了, 我打算放个假陪陪手机.

朔香伊泠

已经看不懂了哈哈哈，但是加油

Edge

假没有放太久. 我正在尽快整理数据集投入第二次训练, 至少先做完我有能力做的内容.

在此同时, 我希望能等到swift的答复. 我在修普诺斯和密斯特拉上都复现了awq失败的问题, 我觉得这不是我的问题.

除了核心模型的设计和技术, 我也确实有必要在接下来抽时间改良mfocus的设计. 我希望首先将存档整理为可读的语言, 再让agent模型进行关联度的检索. 这个方案或许会引入额外的计算量, 但是我想效果会极大地优于正则和langchain.

有时候空调开得太低会让我感觉到很消极, 原因尚不清楚.

IM0

#204 Edge 其实是冬眠了（bushi

🤓

Edge

我可能至少要等上两三天才能收到关于量化问题的解决方案, 在此之前我们只能使用全量模型进行测试.

实际上用全量模型执行生产部署也是可行的, 但显存会非常紧张而且无可拓展. 我不希望陷入这种局面.

鬼虫合

#205 Edge 加油站长

Edge

进展: 使用第三代数据集训练的模型基准效果良好, 但是输出的表情未免太少了.

我接下来会验证这是否源于拟合不足. 既然其破坏性不明显, 或许也可以通过组合拳的方法解决.

今天抽空给卡尔萨斯的冷排换了风扇. 非常累人, 提升只能说勉强有. 这个冷排太差劲了.

测试了基本接口的各项功能, 子模组前端应该已经投入开发. 正在补全必要的接口.

正在对mfocus的改良进行进一步实证.

Edge

今天太累了, 晚上这几个小时就歇过去了.

Edge

闲不下来, 至少不能让机器闲着.

在改良mfocus的测试中, agent模型的表现意外地还不错. 我对这个想法有了一点信心. 至少肯定比正则好.

既然现在也没办法对核心多做什么了-我的issue还没人回, 我打算继续测试agent的最佳表现实践. 它肯定可以做得比这好得多.

同时, 这个测试应该说证明了agent的泛化能力比我想象中强-前体分析也有改良的空间.

Edge

这个草台班子为什么还不理我的issue 我急死了

新功能搞那么多, 就不能把严重bug修一下吗

文学部的小莫

加油

Edge

对于基本的抽取, 深度训练后的agent表现良好, 对于一些比较绕的情况也能抽取正确的信息.

我只是没办法让它停止回答"你好". 可能只能从硬编写上去掉它了.

这是mfocus工作的完整流程展示. 虽然其稳定性其实很差, 但是能通过打补丁的方法改善.

在案例中, 针对"我们现在干点什么好呢"的提问, mfocus能够从存档中抽取"[player]想过和莫妮卡去爬山", 并依据"爬山"的关键信息从互联网中搜索附近的景点--虽然它暂时还不知道附近是哪附近. 最终这些数据将被呈递给maica核心用于生成最终回答.

这一套系统的复杂度和不确定因素太高, 毕竟很难完全控制模型的输出会是什么样子, 很可能会有损坏的格式. mfocus的驱动程序中带有数套保险, 能够确保mfocus在错误结束的情况下仍然能够呈递有限的信息, 或过滤误导性的内容.

Edge

openserp的信息提取能力有点差劲, 页面上带点富文本的可能就抽不出来了.

我很希望有一个免费好用的搜索引擎api.