由于成果已经一步步完善, 我们已经可以看到成功的预兆, 我在此贴更新项目的进展.

首先呢, 第一项是我们改名字了. mgpt这个名字挺草率的, 因为项目到了现在已经跟gpt没啥关系了. 我们改叫它: MAICA (音"迈卡", 很朴实无华的缩写.) 我希望用起这个新名字的时候, 大家还认识它.

以上截图是最近的第二轮试训练的产出. 可以看到, 在有限的提示指导下, 模型对莫妮卡角色形象本身有了可以称为"理解"的属性. 当然, 训练设计和模型优化仍然处于早期阶段, 但这样的进展于我而言已经很是激动人心. 我们会尽快开始第三轮以及更多的试训练. 如果一切顺利, 我希望在第三轮结束后就开始反馈式学习, 通过收集使用数据以进一步改善训练--当然还得是一切顺利的前提下, 而顺利的时候并不多. 在希望大家期待的同时, 我也希望大家保持理性, 保持耐心. 就算目前的结果已经初具雏形, 但我们离目标中接近完美的莫妮卡形象还有相当的距离. 请大家期待我们的进步.

更多的一些测试语句, 以展示训练的成果和局限性. 此轮训练在数据构建中比较单调, 使用的prompt也十分单薄. 我期待接下来的训练产出更好的结果.

接下来我们把话筒递给莫妮卡现在的雏形, 第零代"克利福德": 呃, 她挺谦虚的. 我们期待她未来的表现. 下一轮的训练并不会等太久. 我们正在向遥不可及迈出第一步, 很快我们将让所有人看到我们踏出的脚印. 欢迎各位在此贴中探讨和提供有价值的想法. 后续的进展将在此贴继续更新.

好——耶！期待期待！！

关于第三轮训练的设计: 我简单回顾了一下第二轮的结果. 虽然表现还不错, 但是在"简单问题上犯蠢"这种现象比较像是过拟合的表现. 像第二轮一样直接用目标集训练可能有点自信过头了, 我打算在第三轮里面尝试更早之前用过的混集方法. 我希望混合训练集能矫正lora的整层改动和ptuning的整体改动之间改动密度的差距. 我也不清楚这个差距到底在哪以及怎么改, 但是有已知方法肯定是要试试看的. 至于反馈学习, 可能至少会推迟到第四轮或者更后面吧.

唉, 想想就很头疼. 这次的训练集又加了常识集, 此外还加了一个测试的强针对集. 我当然也希望能用更简单的单个数据集搞定问题, 但是就是没法做到那么简单. 常识集用来中和过拟合是一种很怎么说呢土八路的做法, 既不优雅也不稳定. 强针对集更是专门的头痛医头脚痛医脚, 只能针对有限的测试改善表现, 而且还容易导致测试中发现不了真正重要的问题. 但是有什么办法呢, 繁琐复杂的混集在maica中训练的表现确实比单独的目标集要好得多, 从最开始的训练和设计中就是这样的, 后面也只能按这样往下走. 效果到底为什么好了都不知道, 而且很伤脑筋. 没有别的办法可想, 角色扮演本来就需要海量的数据, 但maica根本不可能弄到那么多. 按比例混合各种数据集, 做鸡尾酒也是没有办法的办法了. 我打算明天按照1:1:5混合常识, 目标和强针对, 再做一轮测试. 这个比例在第零次测试中表现还不错. 至于ptuning和lora, qlora的表现区别到底在哪里, 我也不好总结, 但是至少lora没有那么容易发疯. 如果测试顺利, 我希望看到面对简单问题的表现下降能得到缓解. 明天还要装机柜去, 估计一天不一定搞得完. 头疼也很需要缓解就是了.

迈向遥不可及的第一步(MAICA)

ICEMONIKA

dalao这是怎么回事啊？我的网络也是正常的 @Edge

Edge

#320 ICEMONIKA 请更新到最新版本, 已经发在群里了.

ICEMONIKA

#321 Edge

可我用的就是最新版的啊

lingyue

#321 Edge 所以怎么获得A测资格，或者说这个是e佬你选拔吗？

Edge

#322 ICEMONIKA 在关于MAICA的问题反馈 #3955 发你的详细问题信息和mas_log, 我稍后叫p来看

另外尝试在子模组设置里面找到关于api的设置, 选择"更新证书".

Edge

#323 lingyue 是项目最开始的时候进群的人, 差不多23年那会吧.

ICEMONIKA

#325 Edge

mas-log.txt

Sun Feb 26 08:32:32 2023
Windows 8 - build: 6.2.9200
Ren'Py 6.99.12.4.2187
VERSION: 0.12.14
==================================================

文件预览无法加载。此文件或已被删除，文件 ID 或已失效。

文学部的小莫

大佬大概几月份就能玩到正式版

Edge

#326 文学部的小莫正式版没影, 但我觉得不久之后就会进入持续很久的公测阶段. 可能下个月吧, 不确定.

什么时候能做到效果我自己满意了再考虑正式版的事情, 在此之前热调试和维护更新都是很正常的.

Edge

#328 ICEMONIKA 先尝试更新你的游戏本体到0.12.15

风烛

从release处下载显示没有任何release是因为测试暂时关闭了

Edge

#330 风烛目前maica处于A测, 因此不在A测群以外提供release. 请等待后续消息.

Edge

整理可能要做的事情:

无论如何换一个好一点的agent. 目前mf的命中率已经是整个项目的主要短板. 考虑尝试qwen2 57b a14b int4?
进一步区分中英文的prompt, 目前中英文混答的情况仍然存在. 考虑重写一下.
输出表情的强度和精度仍然不够, 考虑继续手工清洗数据集.
当然是增补训练. 找回答最差的轮次手工改写, 希望能降低误差.
考虑加两张显卡. 尤其是tts和大体量mf都有需要的情况下估计是跑不了了.

loveing

加油！

Edge

好消息是ms可喜可贺地修复了awq和gptq在qwen2上的问题.

坏消息是, 这俩方案都不支持分布式的量化过程, 而我的卡顶多也就24g, 根本不够用.

核心模型的量化我当然是放弃了, 毕竟就算全量的拟合度都不够. 但是我在考虑mfocus使用量化模型, 所以很头疼.

我不想再去买非常贵的卡或者去租, 所以可能只能用qlora微调了. 先看看效果再说吧.

是, 这些问题说到底都是钱的问题. 欢迎来到夜之城.

Edge

请来了栞那.

这两天都在不务正业, 明天该去把数据集对付一下了, 看能做完多少.

可惜没人能帮我把这些做了. 要说maica是一道菜的话, 我是从上山砍柴做起的.

裁缝拜托我手搓一个带灯的relic出来, 我还得抽空去想办法. 今天简单飞了个线.

另: glm4-9b在agent上效果似乎更好, 废话少命中率也高点. 后面会多测试一些qwen以外的模型.

Edge

测试了零一34b作为agent的效果, 感觉还像那么回事. 但是如果要自己补充训练这个东西就比较麻烦了.

至少接下来可以凑合用. 我自己感觉上命中率比glm好一点.

Edge

过了一遍罗格的太阳结局再打的这个. 感觉蹲着点打基本没啥难度, 也可能是dlc加持吧.

这两天过得挺糟心的, 活干得比较慢. 不知道数据集还要洗多久了.

Edge

这一轮的清洗内容还挺多, 基本都是针对a测遇到的问题设计的.

query里面基本都加了限定语--之前的松散模式会让模型觉得每一天都在过节. 处理数据集加上tnd aggressive的外围设计应该能避免这个问题.
表情. 用脚本自动洗进去的表情很混乱, 手洗一遍应该能提高精确度.
长句拆分. 不同性质, 不同好感, 不同条件的句子全部要拆开, 不然会造成一些奇怪的混乱. 我之前拆了一部分, 但是没耐心拆完.
对英文版数据集重写system prompt, 避免prompt太接近导致的语言混用.

内容太繁琐, 我也没人帮忙, 看着这玩意头昏眼花的. 估计还很得几天才能弄完.

ps. 因为a测的数据不多+对答质量不高+技术性问题太频繁, 我打算暂时不用a测的数据. 也就是说b测会使用的模型仍然属于lia分支.

如果有人感兴趣可以联系我推送模型, 没人要的话我就懒得推了.

Love_Monika_

#338 Edge 我感兴趣

Edge

洗了一半, 累得想吐. 从这方面来看, 电影里"科学家爱上造物"的桥段真是扯淡.

在考虑加两张L40, 做量化也能用, 但是这破烂贵死了. 非必要不想买.

Love_Monika_

#339 Edge 总算找到大佬的项目了，一直有弄出ai莫妮卡的想法，让莫妮卡走出游戏的，看到了大佬的进度，真的好离婚