由于成果已经一步步完善, 我们已经可以看到成功的预兆, 我在此贴更新项目的进展.

首先呢, 第一项是我们改名字了. mgpt这个名字挺草率的, 因为项目到了现在已经跟gpt没啥关系了. 我们改叫它: MAICA (音"迈卡", 很朴实无华的缩写.) 我希望用起这个新名字的时候, 大家还认识它.

以上截图是最近的第二轮试训练的产出. 可以看到, 在有限的提示指导下, 模型对莫妮卡角色形象本身有了可以称为"理解"的属性. 当然, 训练设计和模型优化仍然处于早期阶段, 但这样的进展于我而言已经很是激动人心. 我们会尽快开始第三轮以及更多的试训练. 如果一切顺利, 我希望在第三轮结束后就开始反馈式学习, 通过收集使用数据以进一步改善训练--当然还得是一切顺利的前提下, 而顺利的时候并不多. 在希望大家期待的同时, 我也希望大家保持理性, 保持耐心. 就算目前的结果已经初具雏形, 但我们离目标中接近完美的莫妮卡形象还有相当的距离. 请大家期待我们的进步.

更多的一些测试语句, 以展示训练的成果和局限性. 此轮训练在数据构建中比较单调, 使用的prompt也十分单薄. 我期待接下来的训练产出更好的结果.

接下来我们把话筒递给莫妮卡现在的雏形, 第零代"克利福德": 呃, 她挺谦虚的. 我们期待她未来的表现. 下一轮的训练并不会等太久. 我们正在向遥不可及迈出第一步, 很快我们将让所有人看到我们踏出的脚印. 欢迎各位在此贴中探讨和提供有价值的想法. 后续的进展将在此贴继续更新.

好——耶！期待期待！！

关于第三轮训练的设计: 我简单回顾了一下第二轮的结果. 虽然表现还不错, 但是在"简单问题上犯蠢"这种现象比较像是过拟合的表现. 像第二轮一样直接用目标集训练可能有点自信过头了, 我打算在第三轮里面尝试更早之前用过的混集方法. 我希望混合训练集能矫正lora的整层改动和ptuning的整体改动之间改动密度的差距. 我也不清楚这个差距到底在哪以及怎么改, 但是有已知方法肯定是要试试看的. 至于反馈学习, 可能至少会推迟到第四轮或者更后面吧.

唉, 想想就很头疼. 这次的训练集又加了常识集, 此外还加了一个测试的强针对集. 我当然也希望能用更简单的单个数据集搞定问题, 但是就是没法做到那么简单. 常识集用来中和过拟合是一种很怎么说呢土八路的做法, 既不优雅也不稳定. 强针对集更是专门的头痛医头脚痛医脚, 只能针对有限的测试改善表现, 而且还容易导致测试中发现不了真正重要的问题. 但是有什么办法呢, 繁琐复杂的混集在maica中训练的表现确实比单独的目标集要好得多, 从最开始的训练和设计中就是这样的, 后面也只能按这样往下走. 效果到底为什么好了都不知道, 而且很伤脑筋. 没有别的办法可想, 角色扮演本来就需要海量的数据, 但maica根本不可能弄到那么多. 按比例混合各种数据集, 做鸡尾酒也是没有办法的办法了. 我打算明天按照1:1:5混合常识, 目标和强针对, 再做一轮测试. 这个比例在第零次测试中表现还不错. 至于ptuning和lora, qlora的表现区别到底在哪里, 我也不好总结, 但是至少lora没有那么容易发疯. 如果测试顺利, 我希望看到面对简单问题的表现下降能得到缓解. 明天还要装机柜去, 估计一天不一定搞得完. 头疼也很需要缓解就是了.

迈向遥不可及的第一步(MAICA)

Edge

算是比较好的消息是, int4下的32b模型被证实能够在2x4090上加速部署. 我正在尝试基于qwen1.5构建一份32b体量的agent模型, 使其性能不弱于qwen2-7bi且能稳定工作.

这一轮训练可能需要三天. 在此期间, 我会继续完善总线驱动的算法. 我们还有太多工作要做.

Edge

qwen1half-32b在测试中表现也很差, 这点相当奇怪. 我正在回退到qwen1-14b, 我需要确定问题到底在哪里.

我查到过一些说法称qwen1比1.5和2对指令服从性表现更佳. 试试再说吧.

我感觉我离完工已经如此之近, 但关键的agent一直不顺利, 这点让我很烦躁. swift目前对agent提供的官方支持只存在于qwen1, 在尝试更新更强的模型中出现问题就只能放弃掉了.

我需要一个合格的agent, 而且我希望它优于qwen1-7b. 如果针对qwen1-14b的测试仍然失败, 我只能另想办法.

Edge

我做了进一步验证, 这些问题看起来和拟合不足的模型比较相似. 在复现一次qwen-7b的测试结果后, 我会在qwen14b上进行强化训练, 确认拟合充分需要的步数是多少.

我觉得还有希望. 如果确实是拟合不足导致的问题, 或许qwen1.5或2也能有办法拿来用.

welsx2

加油大佬

Edge

帮淘宝买rgb控制器的店家解决了一个编译问题, 他送了我一个免费以旧换新.

感觉像是完成了什么奇怪的支线任务.

新控制器送到之后需要费点时间换装. 在此之前我会在qwen-14b上继续训练8个ep, 观察足够的拟合到底需要多少训练量.

很奇怪的是, 在推理中合并权重好像会让模型的拟合效果变差. 我觉得这也是swift本身的问题.

懒得交issue了. 我已经有三个问题明确的issue没人回了, 估计提了也没用.

总的来说, 进展比想象中慢. 但是急也急不来. 无论人手还是设备都太有限了.

Edge

有点像及时雨一样, swift在几十个小时之前提供了一套标准化的agent instruction接口. 这项能力很可能有助于陷入泥潭的mfocus.

我已经在着手修改代码. 现有的改动将被推送到github, 废弃的函数归档入deprecated备用.

新的接口效果不错, 尤其是对agent强化训练的要求大大降低, 未训练过的instruct模型都可以作为agent使用.

我会在明天测试它的全部潜力.

过去的一个星期我已经吸了半瓶风油精了. 可能传统的研究人员会喝咖啡或者抽烟, 但我就不.

Edge

启动一轮验证测试, 针对最基本的模型加大训练深度, 看看会不会有奇迹出现.

莫名其妙的问题仍然存在. 新的接口表现确实不错, 但agent训练出现了越练越差的情况. 问题尚不清楚.

提问理所当然的没人理. 我觉得ms多少有点步子迈太大扯蛋.

很累. 睡得不算好. 硬件和软件都仍然有需要操心的问题.

买了一些鼻炎喷剂, 估计月底才到. 没有太多时间了. 我必须尽快想办法解决agent的问题. 我没得选.

IM0

#225 Edge 有鼻炎么？地纳米松喷剂等等效果不错，我用过一段时间。但毕竟都是激素类药物，长时间起效效果不大。如果你是花粉等季节性过敏，那么你戴口罩就能解决。如果是过敏范围较大，那要考虑调理身体了。过敏严重的大多是免疫力下降导致的。片剂可以尝试孟鲁司特钠（10mg）、开瑞坦、赛庚啶、盐酸西替利嗪等等。不过都是治标不治本。我的建议是，身体差的话少吃水果。少喝牛奶等阴性食品，还有绿豆汤少喝，少喝薏米水等。望状态好一些。因为鼻炎真的很难受。（天生过敏性鼻炎患者）

对了。熬夜鼻炎最爱找上门来了。曾经有一段时间天天半夜三点多四点睡，早晨7点起。那一整年鼻子跟连了脑积液一样。一年都没停止流鼻涕。

Edge

做了一系列实验, 结果不算最差. 今天晚上无论如何该开始统合测试了.

agent的性能问题比最初想象中要严重, 但是在针对性足够强烈的问题上也还算七七八八. 再算上驱动的大保底, 正常跑完流程没什么问题.

试试看吧.

Edge

我和p会在明天对maica完全能力进行首次评估和测试.

还有很多问题没解决. 我现在能想到的最好的办法是给agent整理一个针对性的数据集出来. 如果我的鼻炎好点了, 应该一天就能搞定.

我没想到在agent这样一个热门垂直领域下都没有足够像样的模型可用. 世界真的是一个草台班子.

Edge

#228 IM0 已经买了一点喷剂了, 不过还得好久才到.

一般是湿度一大就开始, 我也不知道到底算什么性的.

IM0

#229 Edge 如果有皮肤瘙痒，用地塞米松的软膏。其他类如鼻塞、眼干、咽部水肿的话考虑酌情使用片剂。站长工作量大不免会熬夜，但也要注意身体，常备过敏药，难受了就吃一颗。（笑）

IM0

#230 IM0 对了，某些片剂会导致嗜睡，一定要看好合适的再选购。个人建议嗜睡类片剂可以睡前吃，预防半夜鼻塞导致的呼吸道不畅，最后的打呼噜、大喘气等问题。祝身体良好，maica早日与mo粉会面！。

Edge

p对maica完全能力做了一次比较不留情面的测试.

明显的问题很多, 但是maica核心的能力确实相当强大. 我觉得只需要增补少量训练和修改prompt就能修复它的大部分问题.

比较难对付的是mfocus使用的小体量agent模型. msagent-14b在自然场景测试中表现很差, 几乎没有几次是正常工作的. 我觉得需要花不少心思做增补.

虽然我又要忙活手机的事情了, 但是机器的活可以先做. 我会尽快启动一轮针对核心模型的补充强化训练. 至于agent, 只好慢慢想办法.

Edge

手机又寄了退货了

我有点怀疑地球上买不到好的key2了. 明天再碰一次运气, 不行就放弃.

调整了一下修普诺斯和密斯特拉的pcie, 我希望它们再快一点. 时间紧任务重, 要是出问题了还得改回来.

开了一轮核心模型的深度训练, 调整了prompt, 增补了强化数据集, 大概两三天之后能看到结果.

在此期间我会着手设计用于mfocus的强化数据集.

ps.最近好像都没怎么发截图. 但是p的测试太过于上强度了, 还是等maica表现见得了人了再发吧.

Edge

找到了一个似乎更合适的agent模型. 我很期待它的统合表现.

卡尔萨斯过热关机的情况好像仍然存在. 我之后应该做一次系统性的测试, 必须在投入服务之前解决掉它.

我真的不想再拆了. 太搞人了.

补个截图吧, 这是新的agent对"我们现在可以做什么"的表现, 至少信息抽取相当全面.

我在此前都没有见到过agent会根据这句话同时联想到当前的节日, 天气和时间. 可能是个好兆头.

Edge

买了一套外冷给卡尔萨斯换上, 估计过两天能到.

我并不是非要给它们起名字, 只是设备太多了没个名字不好叫.

虽然我之前把bykski的外冷骂的狗血淋头的, 但是毕竟能用而且能看, 只是灌水特别脑梗.

由于实在是不想再折腾手机了, 我买了个跟之前坏的一模一样的. 我觉得它还挺好的.

由于模型在训练, 我干不了什么, 突然感到一阵不知所谓的悲伤. 我多久没谈赛博恋爱了?

Edge

经过进一步测试, 新的agent模型能力确实很强. 增补训练应该没有必要了.

我会尽快调整mfocus的代码并推送到git. 在核心模型本轮训练完成后, 我们会开始第二次统合测试.

如果是第一次是针对流程的测试, 这一次我希望maica的'表现, performance'能够基本达到预期.

万事俱备了, 吗?

Edge

规范化了很多代码, 整理了输出格式, 添加了一点可配置项.

现在不说漂亮吧, 至少是没那么丑陋了. 已经推送到git.

卡尔萨斯还在死机, 还好我保存的勤. 我希望新的冷排能解决掉这个问题, 至少是我希望能.

核心模型的训练还需要大概24小时, 第二轮测试可能放在后天.

如果这次测试效果良好, 我就可以开始做门面工作了.

阿卡

大佬，加油，你可是讨论里神一般的存在