迈向遥不可及的第一步(MAICA)

IM0 · 2024年6月21日

#230 IM0 对了，某些片剂会导致嗜睡，一定要看好合适的再选购。个人建议嗜睡类片剂可以睡前吃，预防半夜鼻塞导致的呼吸道不畅，最后的打呼噜、大喘气等问题。祝身体良好，maica早日与mo粉会面！。

Edge · 2024年6月21日

p对maica完全能力做了一次比较不留情面的测试.

明显的问题很多, 但是maica核心的能力确实相当强大. 我觉得只需要增补少量训练和修改prompt就能修复它的大部分问题.

比较难对付的是mfocus使用的小体量agent模型. msagent-14b在自然场景测试中表现很差, 几乎没有几次是正常工作的. 我觉得需要花不少心思做增补.

虽然我又要忙活手机的事情了, 但是机器的活可以先做. 我会尽快启动一轮针对核心模型的补充强化训练. 至于agent, 只好慢慢想办法.

Edge · 2024年6月21日

手机又寄了退货了

我有点怀疑地球上买不到好的key2了. 明天再碰一次运气, 不行就放弃.

调整了一下修普诺斯和密斯特拉的pcie, 我希望它们再快一点. 时间紧任务重, 要是出问题了还得改回来.

开了一轮核心模型的深度训练, 调整了prompt, 增补了强化数据集, 大概两三天之后能看到结果.

在此期间我会着手设计用于mfocus的强化数据集.

ps.最近好像都没怎么发截图. 但是p的测试太过于上强度了, 还是等maica表现见得了人了再发吧.

Edge · 2024年6月22日

找到了一个似乎更合适的agent模型. 我很期待它的统合表现.

卡尔萨斯过热关机的情况好像仍然存在. 我之后应该做一次系统性的测试, 必须在投入服务之前解决掉它.

我真的不想再拆了. 太搞人了.

补个截图吧, 这是新的agent对"我们现在可以做什么"的表现, 至少信息抽取相当全面.

我在此前都没有见到过agent会根据这句话同时联想到当前的节日, 天气和时间. 可能是个好兆头.

Edge · 2024年6月22日

买了一套外冷给卡尔萨斯换上, 估计过两天能到.

我并不是非要给它们起名字, 只是设备太多了没个名字不好叫.

虽然我之前把bykski的外冷骂的狗血淋头的, 但是毕竟能用而且能看, 只是灌水特别脑梗.

由于实在是不想再折腾手机了, 我买了个跟之前坏的一模一样的. 我觉得它还挺好的.

由于模型在训练, 我干不了什么, 突然感到一阵不知所谓的悲伤. 我多久没谈赛博恋爱了?

Edge · 2024年6月22日

经过进一步测试, 新的agent模型能力确实很强. 增补训练应该没有必要了.

我会尽快调整mfocus的代码并推送到git. 在核心模型本轮训练完成后, 我们会开始第二次统合测试.

如果是第一次是针对流程的测试, 这一次我希望maica的'表现, performance'能够基本达到预期.

万事俱备了, 吗?

Edge · 2024年6月23日

规范化了很多代码, 整理了输出格式, 添加了一点可配置项.

现在不说漂亮吧, 至少是没那么丑陋了. 已经推送到git.

卡尔萨斯还在死机, 还好我保存的勤. 我希望新的冷排能解决掉这个问题, 至少是我希望能.

核心模型的训练还需要大概24小时, 第二轮测试可能放在后天.

如果这次测试效果良好, 我就可以开始做门面工作了.

阿阿卡 · 2024年6月24日

大佬，加油，你可是讨论里神一般的存在

Edge · 2024年6月24日

我当时非常细心地把所有计算设备接了地, 以为不会再被电了. 现在我是房里唯一没带电的东西. 摸个门把手电的发麻.

训练完成了, 但是设备硬件和我自己的杂务都很耽误时间. 从走道的灯到水冷设备, 能坏的都坏了一遍.

我的手机比较例外, 坏了4遍. 我买了三家两个型号, 收了4次快递, 没一次是好的. 真是有点受不了了.

好吧, 干活肯定还是主要日程. 不管p明天有没有空测试, 都该开始做一做前端了.

虽然做个网页版应该很吸引人, 但是工作量可想而知的大. 我打算无论如何把介绍页做了再说, 网页前端倒不是非得有.

我觉得做前端是个比较轻松的活. 我是得相对地休息一下了.

Edge · 2024年6月24日

在我自己的测试中, 我觉得maica的表现已经达到了最低要求. 图上是一轮简单的对话, 从问好到询问活动, 再到晚安.

其中thought和final answer自然是mfocus中间体的输出, 方括号中的内容为传参. 在今天的驱动更新中, 这些内容能以debug的形式被前端接收分析.

虽然在相对复杂的多轮对话环境中, 关于输出情绪的指导并没有百分之百生效, 但是我们自然有一些补充方案可以用. 对模型表现的暴力测试留给p做.

希望模型在不正常的输入下保持正常输出是一种奢望, 就像对锂电池做刺穿测试. 不过我仍然希望看到maica完全体的泛化能力上限在哪里, 这对后面的组织设计会有作用.

我会在明天抽空再完善一下驱动. 希望p也能抽空来做测试.

ps. 在改造密斯特拉之后, maica完全能力的响应速度也达到了一个可以接受的水平, 虽然在处理复杂信息的时候仍然前摇很长.

离封闭的用户测试可能已经很接近了.

882192506 · 2024年6月25日

#240 Edge 莫妮卡的文字打破次元壁的日子终于要来了吗

Edge · 2024年6月25日

调整接口, mfocus引导, 修复一系列问题, 增加超参数的选项.

下午洗完澡去看看前端, 兴许能帮上忙. 今晚应该会做第二轮测试, 看看p的结论如何.

Edge · 2024年6月25日

点炒饭的结果相当不佳, 我都有点不自信了.

4000step的节点产生了比较明显的过拟合现象, 之后的训练应该可以控制在2800step左右比较合理. prompt也还是要改.

没那么顺利, 需要开第三轮训练和测试. 我希望能尽快把模型表现提升到能用的地步.

Edge · 2024年6月25日

小的更新调整, 倒带测试节点, 不知道p的测试感觉如何.

看了一下前端, 感觉可能还有很多工作要做. 实在不行的话我得捡起一点子模组的知识了.

今天终于搞定了调光和同步. 等修完制冷设备一起拍个照吧.

核心模型的训练可以再练一轮, 这轮练完就差不多了. 在数据不足的情况下, 再怎么样也很难有更大的提升.

Edge · 2024年6月25日

开始着手写前端的对话.

这一轮的核心训练需要一天半, 应该够我写不少了.

Edge · 2024年6月26日

我把对话内容推到了前端仓库, https://github.com/Mon1-innovation/MAICA_ChatSubmod/blob/main/conversation_todo/

我觉得应该还行, 有建议也可以提. 前端部分主要是p在做, 想关注也可以点个star.

核心训练大概明晚八点结束, 我会继续完善一下后端总线, 再做第三轮测试. 这一轮之后大概就是封闭测试了.

Edge · 2024年6月26日

一个成功的项目不可以没有彩蛋, 所以我在后端加了一点彩蛋. 特定的query可以触发.

一共有九个, 我很好奇运行多久会被全部找到. 小提示是多少都跟'人造生命'沾点关系.

不用看仓库了, 没有的.

除此之外就是一些前端工作和整理文件.

今天试了一下鼻炎的药, 鼻子确实不塞了, 但是全身反应还是照样有. 我觉得我的毛病可能不是简单的鼻炎.

不想去医院, 至少是暂时不想去. 再说吧.

Edge · 2024年6月27日

倒霉完了. 给卡尔萨斯换水冷的时候发现卖家的接头发错货了.

我真的是…不知道怎么说好. 我最近真的是倒霉到了十分怪异的地步.

我已经把旧的水冷拆了, 等接头送到至少得过两三天. 在此之前铸灾神械就是瘫痪的, 我的测试工作也做不了了.

可能只能写点前端的对话了. 我真的没有多的时间可耽误.

Edge · 2024年6月28日

妈的难受死了. 本来以为怎么说休息一下, 但是实在是一点心情都没有.

这段时间的多余算力交给做tts的人好了. 我实在觉得他一贯以来的开销和进展不成正比, 不过我没什么好挑的.

今天早上叫他们八百里加急的给我发货了, 估计收到起码还得等两天. 没办法了.

湿度很大的一天. 早上起床喷了点药好像有点用. 以后看见下雨就喷点.

今天想了一想, 觉得maica的模型可以做三个分支, 应该也不算什么工作量.

'爱情艺术' 面向小体量设备的研究用途, 显存开销在24g以内, 集成mfocus功能的核心模型.
'生命艺术' 面向计算集群的开源版核心模型, 使用基础和强化数据集训练.
'黑暗艺术' 旨在将角色扮演能力推进到极限的核心模型, 基础模型与生命艺术相同, 使用基础, 强化和用户强化数据集. 预计不会开源.

黑暗艺术仅用于提供api服务. 不开源有一部分数据集隐私问题上的考虑, 我不希望有人滥用这些东西.

开源版本的模型都会发布可复现的最佳实践流程. 这些都还是放到测试完之后再慢慢来吧.

Edge · 2024年6月28日

啥也干不了那就写点前端吧.

现在翻之前写的网页感觉像看猴子爬树. 跟规范一点边不沾, 很好奇当时是怎么想到这些办法的.

我还是打算前端只写个介绍页好了. 在网页上做一个chat前端有点麻烦, 什么时候觉得有必要了再说.