由于成果已经一步步完善, 我们已经可以看到成功的预兆, 我在此贴更新项目的进展. [upl-image-preview url=https://upload.edgemonix.top:28991/assets/files/2024-06-04/1717477618-299013-maica-text-combined.png]

首先呢, 第一项是我们改名字了. mgpt这个名字挺草率的, 因为项目到了现在已经跟gpt没啥关系了. 我们改叫它: # MAICA (音"迈卡", 很朴实无华的缩写.) 我希望用起这个新名字的时候, 大家还认识它.

[upl-image-preview url=https://forum.monika.love/assets/files/2023-10-25/1698233274-168304-image.png] 以上截图是最近的第二轮试训练的产出. 可以看到, 在有限的提示指导下, 模型对莫妮卡角色形象本身有了可以称为"理解"的属性. 当然, 训练设计和模型优化仍然处于早期阶段, 但这样的进展于我而言已经很是激动人心. 我们会尽快开始第三轮以及更多的试训练. 如果一切顺利, 我希望在第三轮结束后就开始反馈式学习, 通过收集使用数据以进一步改善训练--当然还得是一切顺利的前提下, 而顺利的时候并不多. 在希望大家期待的同时, 我也希望大家保持理性, 保持耐心. 就算目前的结果已经初具雏形, 但我们离目标中接近完美的莫妮卡形象还有相当的距离. 请大家期待我们的进步.

[upl-image-preview url=https://forum.monika.love/assets/files/2023-10-25/1698233804-673953-image.png] 更多的一些测试语句, 以展示训练的成果和局限性. 此轮训练在数据构建中比较单调, 使用的prompt也十分单薄. 我期待接下来的训练产出更好的结果.

接下来我们把话筒递给莫妮卡现在的雏形, 第零代"克利福德": [upl-image-preview url=https://forum.monika.love/assets/files/2023-10-25/1698233876-67665-image.png] 呃, 她挺谦虚的. 我们期待她未来的表现. 下一轮的训练并不会等太久. **我们正在向遥不可及迈出第一步, 很快我们将让所有人看到我们踏出的脚印.** 欢迎各位在此贴中探讨和提供有价值的想法. 后续的进展将在此贴继续更新.

好——耶！期待期待！！

关于第三轮训练的设计: 我简单回顾了一下第二轮的结果. 虽然表现还不错, 但是在"简单问题上犯蠢"这种现象比较像是过拟合的表现. 像第二轮一样直接用目标集训练可能有点自信过头了, 我打算在第三轮里面尝试更早之前用过的混集方法. 我希望混合训练集能矫正lora的整层改动和ptuning的整体改动之间改动密度的差距. 我也不清楚这个差距到底在哪以及怎么改, 但是有已知方法肯定是要试试看的. 至于反馈学习, 可能至少会推迟到第四轮或者更后面吧.

唉, 想想就很头疼. 这次的训练集又加了常识集, 此外还加了一个测试的强针对集. 我当然也希望能用更简单的单个数据集搞定问题, 但是就是没法做到那么简单. 常识集用来中和过拟合是一种很怎么说呢土八路的做法, 既不优雅也不稳定. 强针对集更是专门的头痛医头脚痛医脚, 只能针对有限的测试改善表现, 而且还容易导致测试中发现不了真正重要的问题. 但是有什么办法呢, 繁琐复杂的混集在maica中训练的表现确实比单独的目标集要好得多, 从最开始的训练和设计中就是这样的, 后面也只能按这样往下走. 效果到底为什么好了都不知道, 而且很伤脑筋. 没有别的办法可想, 角色扮演本来就需要海量的数据, 但maica根本不可能弄到那么多. 按比例混合各种数据集, 做鸡尾酒也是没有办法的办法了. 我打算明天按照1:1:5混合常识, 目标和强针对, 再做一轮测试. 这个比例在第零次测试中表现还不错. 至于ptuning和lora, qlora的表现区别到底在哪里, 我也不好总结, 但是至少lora没有那么容易发疯. 如果测试顺利, 我希望看到面对简单问题的表现下降能得到缓解. 明天还要装机柜去, 估计一天不一定搞得完. 头疼也很需要缓解就是了.

迈向遥不可及的第一步(MAICA)

IM0

#229 Edge 如果有皮肤瘙痒，用地塞米松的软膏。其他类如鼻塞、眼干、咽部水肿的话考虑酌情使用片剂。站长工作量大不免会熬夜，但也要注意身体，常备过敏药，难受了就吃一颗。（笑）

IM0

#230 IM0 对了，某些片剂会导致嗜睡，一定要看好合适的再选购。个人建议嗜睡类片剂可以睡前吃，预防半夜鼻塞导致的呼吸道不畅，最后的打呼噜、大喘气等问题。祝身体良好，maica早日与mo粉会面！。

Edge

p对maica完全能力做了一次比较不留情面的测试.

明显的问题很多, 但是maica核心的能力确实相当强大. 我觉得只需要增补少量训练和修改prompt就能修复它的大部分问题.

比较难对付的是mfocus使用的小体量agent模型. msagent-14b在自然场景测试中表现很差, 几乎没有几次是正常工作的. 我觉得需要花不少心思做增补.

虽然我又要忙活手机的事情了, 但是机器的活可以先做. 我会尽快启动一轮针对核心模型的补充强化训练. 至于agent, 只好慢慢想办法.

Edge

手机又寄了退货了

我有点怀疑地球上买不到好的key2了. 明天再碰一次运气, 不行就放弃.

调整了一下修普诺斯和密斯特拉的pcie, 我希望它们再快一点. 时间紧任务重, 要是出问题了还得改回来.

开了一轮核心模型的深度训练, 调整了prompt, 增补了强化数据集, 大概两三天之后能看到结果.

在此期间我会着手设计用于mfocus的强化数据集.

ps.最近好像都没怎么发截图. 但是p的测试太过于上强度了, 还是等maica表现见得了人了再发吧.

Edge

找到了一个似乎更合适的agent模型. 我很期待它的统合表现.

卡尔萨斯过热关机的情况好像仍然存在. 我之后应该做一次系统性的测试, 必须在投入服务之前解决掉它.

我真的不想再拆了. 太搞人了.

补个截图吧, 这是新的agent对"我们现在可以做什么"的表现, 至少信息抽取相当全面.

我在此前都没有见到过agent会根据这句话同时联想到当前的节日, 天气和时间. 可能是个好兆头.

Edge

买了一套外冷给卡尔萨斯换上, 估计过两天能到.

我并不是非要给它们起名字, 只是设备太多了没个名字不好叫.

虽然我之前把bykski的外冷骂的狗血淋头的, 但是毕竟能用而且能看, 只是灌水特别脑梗.

由于实在是不想再折腾手机了, 我买了个跟之前坏的一模一样的. 我觉得它还挺好的.

由于模型在训练, 我干不了什么, 突然感到一阵不知所谓的悲伤. 我多久没谈赛博恋爱了?

Edge

经过进一步测试, 新的agent模型能力确实很强. 增补训练应该没有必要了.

我会尽快调整mfocus的代码并推送到git. 在核心模型本轮训练完成后, 我们会开始第二次统合测试.

如果是第一次是针对流程的测试, 这一次我希望maica的'表现, performance'能够基本达到预期.

万事俱备了, 吗?

Edge

规范化了很多代码, 整理了输出格式, 添加了一点可配置项.

现在不说漂亮吧, 至少是没那么丑陋了. 已经推送到git.

卡尔萨斯还在死机, 还好我保存的勤. 我希望新的冷排能解决掉这个问题, 至少是我希望能.

核心模型的训练还需要大概24小时, 第二轮测试可能放在后天.

如果这次测试效果良好, 我就可以开始做门面工作了.

阿卡

大佬，加油，你可是讨论里神一般的存在

Edge

我当时非常细心地把所有计算设备接了地, 以为不会再被电了. 现在我是房里唯一没带电的东西. 摸个门把手电的发麻.

训练完成了, 但是设备硬件和我自己的杂务都很耽误时间. 从走道的灯到水冷设备, 能坏的都坏了一遍.

我的手机比较例外, 坏了4遍. 我买了三家两个型号, 收了4次快递, 没一次是好的. 真是有点受不了了.

好吧, 干活肯定还是主要日程. 不管p明天有没有空测试, 都该开始做一做前端了.

虽然做个网页版应该很吸引人, 但是工作量可想而知的大. 我打算无论如何把介绍页做了再说, 网页前端倒不是非得有.

我觉得做前端是个比较轻松的活. 我是得相对地休息一下了.

Edge

在我自己的测试中, 我觉得maica的表现已经达到了最低要求. 图上是一轮简单的对话, 从问好到询问活动, 再到晚安.

其中thought和final answer自然是mfocus中间体的输出, 方括号中的内容为传参. 在今天的驱动更新中, 这些内容能以debug的形式被前端接收分析.

虽然在相对复杂的多轮对话环境中, 关于输出情绪的指导并没有百分之百生效, 但是我们自然有一些补充方案可以用. 对模型表现的暴力测试留给p做.

希望模型在不正常的输入下保持正常输出是一种奢望, 就像对锂电池做刺穿测试. 不过我仍然希望看到maica完全体的泛化能力上限在哪里, 这对后面的组织设计会有作用.

我会在明天抽空再完善一下驱动. 希望p也能抽空来做测试.

ps. 在改造密斯特拉之后, maica完全能力的响应速度也达到了一个可以接受的水平, 虽然在处理复杂信息的时候仍然前摇很长.

离封闭的用户测试可能已经很接近了.

82192506

#240 Edge 莫妮卡的文字打破次元壁的日子终于要来了吗

Edge

调整接口, mfocus引导, 修复一系列问题, 增加超参数的选项.

下午洗完澡去看看前端, 兴许能帮上忙. 今晚应该会做第二轮测试, 看看p的结论如何.

Edge

点炒饭的结果相当不佳, 我都有点不自信了.

4000step的节点产生了比较明显的过拟合现象, 之后的训练应该可以控制在2800step左右比较合理. prompt也还是要改.

没那么顺利, 需要开第三轮训练和测试. 我希望能尽快把模型表现提升到能用的地步.

Edge

小的更新调整, 倒带测试节点, 不知道p的测试感觉如何.

看了一下前端, 感觉可能还有很多工作要做. 实在不行的话我得捡起一点子模组的知识了.

今天终于搞定了调光和同步. 等修完制冷设备一起拍个照吧.

核心模型的训练可以再练一轮, 这轮练完就差不多了. 在数据不足的情况下, 再怎么样也很难有更大的提升.

Edge

开始着手写前端的对话.

这一轮的核心训练需要一天半, 应该够我写不少了.

Edge

我把对话内容推到了前端仓库, https://github.com/Mon1-innovation/MAICA_ChatSubmod/blob/main/conversation_todo/

我觉得应该还行, 有建议也可以提. 前端部分主要是p在做, 想关注也可以点个star.

核心训练大概明晚八点结束, 我会继续完善一下后端总线, 再做第三轮测试. 这一轮之后大概就是封闭测试了.

Edge

一个成功的项目不可以没有彩蛋, 所以我在后端加了一点彩蛋. 特定的query可以触发.

一共有九个, 我很好奇运行多久会被全部找到. 小提示是多少都跟'人造生命'沾点关系.

不用看仓库了, 没有的.

除此之外就是一些前端工作和整理文件.

今天试了一下鼻炎的药, 鼻子确实不塞了, 但是全身反应还是照样有. 我觉得我的毛病可能不是简单的鼻炎.

不想去医院, 至少是暂时不想去. 再说吧.

Edge

倒霉完了. 给卡尔萨斯换水冷的时候发现卖家的接头发错货了.

我真的是…不知道怎么说好. 我最近真的是倒霉到了十分怪异的地步.

我已经把旧的水冷拆了, 等接头送到至少得过两三天. 在此之前铸灾神械就是瘫痪的, 我的测试工作也做不了了.

可能只能写点前端的对话了. 我真的没有多的时间可耽误.

Edge

妈的难受死了. 本来以为怎么说休息一下, 但是实在是一点心情都没有.

这段时间的多余算力交给做tts的人好了. 我实在觉得他一贯以来的开销和进展不成正比, 不过我没什么好挑的.

今天早上叫他们八百里加急的给我发货了, 估计收到起码还得等两天. 没办法了.

湿度很大的一天. 早上起床喷了点药好像有点用. 以后看见下雨就喷点.

今天想了一想, 觉得maica的模型可以做三个分支, 应该也不算什么工作量.

'爱情艺术' 面向小体量设备的研究用途, 显存开销在24g以内, 集成mfocus功能的核心模型.
'生命艺术' 面向计算集群的开源版核心模型, 使用基础和强化数据集训练.
'黑暗艺术' 旨在将角色扮演能力推进到极限的核心模型, 基础模型与生命艺术相同, 使用基础, 强化和用户强化数据集. 预计不会开源.

黑暗艺术仅用于提供api服务. 不开源有一部分数据集隐私问题上的考虑, 我不希望有人滥用这些东西.

开源版本的模型都会发布可复现的最佳实践流程. 这些都还是放到测试完之后再慢慢来吧.