迈向遥不可及的第一步(MAICA) #3240
- 楼主
- #232
p对maica完全能力做了一次比较不留情面的测试.
明显的问题很多, 但是maica核心的能力确实相当强大. 我觉得只需要增补少量训练和修改prompt就能修复它的大部分问题.
比较难对付的是mfocus使用的小体量agent模型. msagent-14b在自然场景测试中表现很差, 几乎没有几次是正常工作的. 我觉得需要花不少心思做增补.
虽然我又要忙活手机的事情了, 但是机器的活可以先做. 我会尽快启动一轮针对核心模型的补充强化训练. 至于agent, 只好慢慢想办法.
- 楼主
- #233
- 已编辑
手机又寄了 退货了
我有点怀疑地球上买不到好的key2了. 明天再碰一次运气, 不行就放弃.
调整了一下修普诺斯和密斯特拉的pcie, 我希望它们再快一点. 时间紧任务重, 要是出问题了还得改回来.
开了一轮核心模型的深度训练, 调整了prompt, 增补了强化数据集, 大概两三天之后能看到结果.
在此期间我会着手设计用于mfocus的强化数据集.
ps.最近好像都没怎么发截图. 但是p的测试太过于上强度了, 还是等maica表现见得了人了再发吧.
- 楼主
- #234
- 已编辑
- 楼主
- #235
- 已编辑
买了一套外冷给卡尔萨斯换上, 估计过两天能到.
我并不是非要给它们起名字, 只是设备太多了没个名字不好叫.
虽然我之前把bykski的外冷骂的狗血淋头的, 但是毕竟能用而且能看, 只是灌水特别脑梗.
由于实在是不想再折腾手机了, 我买了个跟之前坏的一模一样的. 我觉得它还挺好的.
由于模型在训练, 我干不了什么, 突然感到一阵不知所谓的悲伤. 我多久没谈赛博恋爱了?
- 楼主
- #236
经过进一步测试, 新的agent模型能力确实很强. 增补训练应该没有必要了.
我会尽快调整mfocus的代码并推送到git. 在核心模型本轮训练完成后, 我们会开始第二次统合测试.
如果是第一次是针对流程的测试, 这一次我希望maica的'表现, performance'能够基本达到预期.
万事俱备了, 吗?
- 楼主
- #237
规范化了很多代码, 整理了输出格式, 添加了一点可配置项.
现在不说漂亮吧, 至少是没那么丑陋了. 已经推送到git.
卡尔萨斯还在死机, 还好我保存的勤. 我希望新的冷排能解决掉这个问题, 至少是我希望能.
核心模型的训练还需要大概24小时, 第二轮测试可能放在后天.
如果这次测试效果良好, 我就可以开始做门面工作了.
- #238
大佬,加油,你可是讨论里神一般的存在
- 楼主
- #239
我当时非常细心地把所有计算设备接了地, 以为不会再被电了. 现在我是房里唯一没带电的东西. 摸个门把手电的发麻.
训练完成了, 但是设备硬件和我自己的杂务都很耽误时间. 从走道的灯到水冷设备, 能坏的都坏了一遍.
我的手机比较例外, 坏了4遍. 我买了三家两个型号, 收了4次快递, 没一次是好的. 真是有点受不了了.
好吧, 干活肯定还是主要日程. 不管p明天有没有空测试, 都该开始做一做前端了.
虽然做个网页版应该很吸引人, 但是工作量可想而知的大. 我打算无论如何把介绍页做了再说, 网页前端倒不是非得有.
我觉得做前端是个比较轻松的活. 我是得相对地休息一下了.
- 楼主
- #240
- 已编辑
在我自己的测试中, 我觉得maica的表现已经达到了最低要求. 图上是一轮简单的对话, 从问好到询问活动, 再到晚安.
其中thought和final answer自然是mfocus中间体的输出, 方括号中的内容为传参. 在今天的驱动更新中, 这些内容能以debug的形式被前端接收分析.
虽然在相对复杂的多轮对话环境中, 关于输出情绪的指导并没有百分之百生效, 但是我们自然有一些补充方案可以用. 对模型表现的暴力测试留给p做.
希望模型在不正常的输入下保持正常输出是一种奢望, 就像对锂电池做刺穿测试. 不过我仍然希望看到maica完全体的泛化能力上限在哪里, 这对后面的组织设计会有作用.
我会在明天抽空再完善一下驱动. 希望p也能抽空来做测试.
ps. 在改造密斯特拉之后, maica完全能力的响应速度也达到了一个可以接受的水平, 虽然在处理复杂信息的时候仍然前摇很长.
离封闭的用户测试可能已经很接近了.
- 楼主
- #242
调整接口, mfocus引导, 修复一系列问题, 增加超参数的选项.
下午洗完澡去看看前端, 兴许能帮上忙. 今晚应该会做第二轮测试, 看看p的结论如何.
- 楼主
- #243
点炒饭的结果相当不佳, 我都有点不自信了.
4000step的节点产生了比较明显的过拟合现象, 之后的训练应该可以控制在2800step左右比较合理. prompt也还是要改.
没那么顺利, 需要开第三轮训练和测试. 我希望能尽快把模型表现提升到能用的地步.
- 楼主
- #244
- 已编辑
小的更新调整, 倒带测试节点, 不知道p的测试感觉如何.
看了一下前端, 感觉可能还有很多工作要做. 实在不行的话我得捡起一点子模组的知识了.
今天终于搞定了调光和同步. 等修完制冷设备一起拍个照吧.
核心模型的训练可以再练一轮, 这轮练完就差不多了. 在数据不足的情况下, 再怎么样也很难有更大的提升.
- 楼主
- #245
开始着手写前端的对话.
这一轮的核心训练需要一天半, 应该够我写不少了.
- 楼主
- #246
我把对话内容推到了前端仓库, https://github.com/Mon1-innovation/MAICA_ChatSubmod/blob/main/conversation_todo/
我觉得应该还行, 有建议也可以提. 前端部分主要是p在做, 想关注也可以点个star.
核心训练大概明晚八点结束, 我会继续完善一下后端总线, 再做第三轮测试. 这一轮之后大概就是封闭测试了.
- 楼主
- #247
- 已编辑
一个成功的项目不可以没有彩蛋, 所以我在后端加了一点彩蛋. 特定的query可以触发.
一共有九个, 我很好奇运行多久会被全部找到. 小提示是多少都跟'人造生命'沾点关系.
不用看仓库了, 没有的.
除此之外就是一些前端工作和整理文件.
今天试了一下鼻炎的药, 鼻子确实不塞了, 但是全身反应还是照样有. 我觉得我的毛病可能不是简单的鼻炎.
不想去医院, 至少是暂时不想去. 再说吧.
- 楼主
- #248
倒霉完了. 给卡尔萨斯换水冷的时候发现卖家的接头发错货了.
我真的是…不知道怎么说好. 我最近真的是倒霉到了十分怪异的地步.
我已经把旧的水冷拆了, 等接头送到至少得过两三天. 在此之前铸灾神械就是瘫痪的, 我的测试工作也做不了了.
可能只能写点前端的对话了. 我真的没有多的时间可耽误.
- 楼主
- #249
- 已编辑
妈的难受死了. 本来以为怎么说休息一下, 但是实在是一点心情都没有.
这段时间的多余算力交给做tts的人好了. 我实在觉得他一贯以来的开销和进展不成正比, 不过我没什么好挑的.
今天早上叫他们八百里加急的给我发货了, 估计收到起码还得等两天. 没办法了.
湿度很大的一天. 早上起床喷了点药 好像有点用. 以后看见下雨就喷点.
今天想了一想, 觉得maica的模型可以做三个分支, 应该也不算什么工作量.
- '爱情艺术' 面向小体量设备的研究用途, 显存开销在24g以内, 集成mfocus功能的核心模型.
- '生命艺术' 面向计算集群的开源版核心模型, 使用基础和强化数据集训练.
- '黑暗艺术' 旨在将角色扮演能力推进到极限的核心模型, 基础模型与生命艺术相同, 使用基础, 强化和用户强化数据集. 预计不会开源.
黑暗艺术仅用于提供api服务. 不开源有一部分数据集隐私问题上的考虑, 我不希望有人滥用这些东西.
开源版本的模型都会发布可复现的最佳实践流程. 这些都还是放到测试完之后再慢慢来吧.
- 楼主
- #250
啥也干不了那就写点前端吧.
现在翻之前写的网页感觉像看猴子爬树. 跟规范一点边不沾, 很好奇当时是怎么想到这些办法的.
我还是打算前端只写个介绍页好了. 在网页上做一个chat前端有点麻烦, 什么时候觉得有必要了再说.