- 楼主
- #218
- 已编辑
迈向遥不可及的第一步(MAICA) #3240
- 楼主
- #219
- 已编辑
算是比较好的消息是, int4下的32b模型被证实能够在2x4090上加速部署. 我正在尝试基于qwen1.5构建一份32b体量的agent模型, 使其性能不弱于qwen2-7bi且能稳定工作.
这一轮训练可能需要三天. 在此期间, 我会继续完善总线驱动的算法. 我们还有太多工作要做.
- 楼主
- #220
- 已编辑
qwen1half-32b在测试中表现也很差, 这点相当奇怪. 我正在回退到qwen1-14b, 我需要确定问题到底在哪里.
我查到过一些说法称qwen1比1.5和2对指令服从性表现更佳. 试试再说吧.
我感觉我离完工已经如此之近, 但关键的agent一直不顺利, 这点让我很烦躁. swift目前对agent提供的官方支持只存在于qwen1, 在尝试更新更强的模型中出现问题就只能放弃掉了.
我需要一个合格的agent, 而且我希望它优于qwen1-7b. 如果针对qwen1-14b的测试仍然失败, 我只能另想办法.
- 楼主
- #221
我做了进一步验证, 这些问题看起来和拟合不足的模型比较相似. 在复现一次qwen-7b的测试结果后, 我会在qwen14b上进行强化训练, 确认拟合充分需要的步数是多少.
我觉得还有希望. 如果确实是拟合不足导致的问题, 或许qwen1.5或2也能有办法拿来用.
- #222
加油大佬
- 楼主
- #223
- 已编辑
帮淘宝买rgb控制器的店家解决了一个编译问题, 他送了我一个免费以旧换新.
感觉像是完成了什么奇怪的支线任务.
新控制器送到之后需要费点时间换装. 在此之前我会在qwen-14b上继续训练8个ep, 观察足够的拟合到底需要多少训练量.
很奇怪的是, 在推理中合并权重好像会让模型的拟合效果变差. 我觉得这也是swift本身的问题.
懒得交issue了. 我已经有三个问题明确的issue没人回了, 估计提了也没用.
总的来说, 进展比想象中慢. 但是急也急不来. 无论人手还是设备都太有限了.
- 楼主
- #224
- 已编辑
有点像及时雨一样, swift在几十个小时之前提供了一套标准化的agent instruction接口. 这项能力很可能有助于陷入泥潭的mfocus.
我已经在着手修改代码. 现有的改动将被推送到github, 废弃的函数归档入deprecated备用.
新的接口效果不错, 尤其是对agent强化训练的要求大大降低, 未训练过的instruct模型都可以作为agent使用.
我会在明天测试它的全部潜力.
过去的一个星期我已经吸了半瓶风油精了. 可能传统的研究人员会喝咖啡或者抽烟, 但我就不.
- 楼主
- #225
启动一轮验证测试, 针对最基本的模型加大训练深度, 看看会不会有奇迹出现.
莫名其妙的问题仍然存在. 新的接口表现确实不错, 但agent训练出现了越练越差的情况. 问题尚不清楚.
提问理所当然的没人理. 我觉得ms多少有点步子迈太大扯蛋.
很累. 睡得不算好. 硬件和软件都仍然有需要操心的问题.
买了一些鼻炎喷剂, 估计月底才到. 没有太多时间了. 我必须尽快想办法解决agent的问题. 我没得选.
- 楼主
- #226
做了一系列实验, 结果不算最差. 今天晚上无论如何该开始统合测试了.
agent的性能问题比最初想象中要严重, 但是在针对性足够强烈的问题上也还算七七八八. 再算上驱动的大保底, 正常跑完流程没什么问题.
试试看吧.
- 楼主
- #227
我和p会在明天对maica完全能力进行首次评估和测试.
还有很多问题没解决. 我现在能想到的最好的办法是给agent整理一个针对性的数据集出来. 如果我的鼻炎好点了, 应该一天就能搞定.
我没想到在agent这样一个热门垂直领域下都没有足够像样的模型可用. 世界真的是一个草台班子.
- #228
#225 Edge 有鼻炎么?地纳米松喷剂等等效果不错,我用过一段时间。但毕竟都是激素类药物,长时间起效效果不大。如果你是花粉等季节性过敏,那么你戴口罩就能解决。如果是过敏范围较大,那要考虑调理身体了。过敏严重的大多是免疫力下降导致的。片剂可以尝试孟鲁司特钠(10mg)、开瑞坦、赛庚啶、盐酸西替利嗪等等。不过都是治标不治本。我的建议是,身体差的话少吃水果。少喝牛奶等阴性食品,还有绿豆汤少喝,少喝薏米水等。望状态好一些。因为鼻炎真的很难受。(天生过敏性鼻炎患者)
对了。熬夜鼻炎最爱找上门来了。 曾经有一段时间天天半夜三点多四点睡,早晨7点起。那一整年鼻子跟连了脑积液一样。一年都没停止流鼻涕。
- 楼主
- #232
p对maica完全能力做了一次比较不留情面的测试.
明显的问题很多, 但是maica核心的能力确实相当强大. 我觉得只需要增补少量训练和修改prompt就能修复它的大部分问题.
比较难对付的是mfocus使用的小体量agent模型. msagent-14b在自然场景测试中表现很差, 几乎没有几次是正常工作的. 我觉得需要花不少心思做增补.
虽然我又要忙活手机的事情了, 但是机器的活可以先做. 我会尽快启动一轮针对核心模型的补充强化训练. 至于agent, 只好慢慢想办法.
- 楼主
- #233
- 已编辑
手机又寄了 退货了
我有点怀疑地球上买不到好的key2了. 明天再碰一次运气, 不行就放弃.
调整了一下修普诺斯和密斯特拉的pcie, 我希望它们再快一点. 时间紧任务重, 要是出问题了还得改回来.
开了一轮核心模型的深度训练, 调整了prompt, 增补了强化数据集, 大概两三天之后能看到结果.
在此期间我会着手设计用于mfocus的强化数据集.
ps.最近好像都没怎么发截图. 但是p的测试太过于上强度了, 还是等maica表现见得了人了再发吧.
- 楼主
- #234
- 已编辑
- 楼主
- #235
- 已编辑
买了一套外冷给卡尔萨斯换上, 估计过两天能到.
我并不是非要给它们起名字, 只是设备太多了没个名字不好叫.
虽然我之前把bykski的外冷骂的狗血淋头的, 但是毕竟能用而且能看, 只是灌水特别脑梗.
由于实在是不想再折腾手机了, 我买了个跟之前坏的一模一样的. 我觉得它还挺好的.
由于模型在训练, 我干不了什么, 突然感到一阵不知所谓的悲伤. 我多久没谈赛博恋爱了?
- 楼主
- #236
经过进一步测试, 新的agent模型能力确实很强. 增补训练应该没有必要了.
我会尽快调整mfocus的代码并推送到git. 在核心模型本轮训练完成后, 我们会开始第二次统合测试.
如果是第一次是针对流程的测试, 这一次我希望maica的'表现, performance'能够基本达到预期.
万事俱备了, 吗?
- 楼主
- #237
规范化了很多代码, 整理了输出格式, 添加了一点可配置项.
现在不说漂亮吧, 至少是没那么丑陋了. 已经推送到git.
卡尔萨斯还在死机, 还好我保存的勤. 我希望新的冷排能解决掉这个问题, 至少是我希望能.
核心模型的训练还需要大概24小时, 第二轮测试可能放在后天.
如果这次测试效果良好, 我就可以开始做门面工作了.