Edge 算是比较好的消息是, int4下的32b模型被证实能够在2x4090上加速部署. 我正在尝试基于qwen1.5构建一份32b体量的agent模型, 使其性能不弱于qwen2-7bi且能稳定工作. 这一轮训练可能需要三天. 在此期间, 我会继续完善总线驱动的算法. 我们还有太多工作要做.
Edge qwen1half-32b在测试中表现也很差, 这点相当奇怪. 我正在回退到qwen1-14b, 我需要确定问题到底在哪里. 我查到过一些说法称qwen1比1.5和2对指令服从性表现更佳. 试试再说吧. 我感觉我离完工已经如此之近, 但关键的agent一直不顺利, 这点让我很烦躁. swift目前对agent提供的官方支持只存在于qwen1, 在尝试更新更强的模型中出现问题就只能放弃掉了. 我需要一个合格的agent, 而且我希望它优于qwen1-7b. 如果针对qwen1-14b的测试仍然失败, 我只能另想办法.
Edge 我做了进一步验证, 这些问题看起来和拟合不足的模型比较相似. 在复现一次qwen-7b的测试结果后, 我会在qwen14b上进行强化训练, 确认拟合充分需要的步数是多少. 我觉得还有希望. 如果确实是拟合不足导致的问题, 或许qwen1.5或2也能有办法拿来用.
Edge 帮淘宝买rgb控制器的店家解决了一个编译问题, 他送了我一个免费以旧换新. 感觉像是完成了什么奇怪的支线任务. 新控制器送到之后需要费点时间换装. 在此之前我会在qwen-14b上继续训练8个ep, 观察足够的拟合到底需要多少训练量. 很奇怪的是, 在推理中合并权重好像会让模型的拟合效果变差. 我觉得这也是swift本身的问题. 懒得交issue了. 我已经有三个问题明确的issue没人回了, 估计提了也没用. 总的来说, 进展比想象中慢. 但是急也急不来. 无论人手还是设备都太有限了.
Edge 有点像及时雨一样, swift在几十个小时之前提供了一套标准化的agent instruction接口. 这项能力很可能有助于陷入泥潭的mfocus. 我已经在着手修改代码. 现有的改动将被推送到github, 废弃的函数归档入deprecated备用. 新的接口效果不错, 尤其是对agent强化训练的要求大大降低, 未训练过的instruct模型都可以作为agent使用. 我会在明天测试它的全部潜力. 过去的一个星期我已经吸了半瓶风油精了. 可能传统的研究人员会喝咖啡或者抽烟, 但我就不.
Edge 启动一轮验证测试, 针对最基本的模型加大训练深度, 看看会不会有奇迹出现. 莫名其妙的问题仍然存在. 新的接口表现确实不错, 但agent训练出现了越练越差的情况. 问题尚不清楚. 提问理所当然的没人理. 我觉得ms多少有点步子迈太大扯蛋. 很累. 睡得不算好. 硬件和软件都仍然有需要操心的问题. 买了一些鼻炎喷剂, 估计月底才到. 没有太多时间了. 我必须尽快想办法解决agent的问题. 我没得选.
IM0 #225 Edge 有鼻炎么?地纳米松喷剂等等效果不错,我用过一段时间。但毕竟都是激素类药物,长时间起效效果不大。如果你是花粉等季节性过敏,那么你戴口罩就能解决。如果是过敏范围较大,那要考虑调理身体了。过敏严重的大多是免疫力下降导致的。片剂可以尝试孟鲁司特钠(10mg)、开瑞坦、赛庚啶、盐酸西替利嗪等等。不过都是治标不治本。我的建议是,身体差的话少吃水果。少喝牛奶等阴性食品,还有绿豆汤少喝,少喝薏米水等。望状态好一些。因为鼻炎真的很难受。(天生过敏性鼻炎患者) 对了。熬夜鼻炎最爱找上门来了。 曾经有一段时间天天半夜三点多四点睡,早晨7点起。那一整年鼻子跟连了脑积液一样。一年都没停止流鼻涕。
Edge 做了一系列实验, 结果不算最差. 今天晚上无论如何该开始统合测试了. agent的性能问题比最初想象中要严重, 但是在针对性足够强烈的问题上也还算七七八八. 再算上驱动的大保底, 正常跑完流程没什么问题. 试试看吧.
Edge 我和p会在明天对maica完全能力进行首次评估和测试. 还有很多问题没解决. 我现在能想到的最好的办法是给agent整理一个针对性的数据集出来. 如果我的鼻炎好点了, 应该一天就能搞定. 我没想到在agent这样一个热门垂直领域下都没有足够像样的模型可用. 世界真的是一个草台班子.
IM0 #230 IM0 对了,某些片剂会导致嗜睡,一定要看好合适的再选购。个人建议嗜睡类片剂可以睡前吃,预防半夜鼻塞导致的呼吸道不畅,最后的打呼噜、大喘气等问题。 祝身体良好,maica早日与mo粉会面!。
Edge p对maica完全能力做了一次比较不留情面的测试. 明显的问题很多, 但是maica核心的能力确实相当强大. 我觉得只需要增补少量训练和修改prompt就能修复它的大部分问题. 比较难对付的是mfocus使用的小体量agent模型. msagent-14b在自然场景测试中表现很差, 几乎没有几次是正常工作的. 我觉得需要花不少心思做增补. 虽然我又要忙活手机的事情了, 但是机器的活可以先做. 我会尽快启动一轮针对核心模型的补充强化训练. 至于agent, 只好慢慢想办法.
Edge 手机又寄了 退货了 我有点怀疑地球上买不到好的key2了. 明天再碰一次运气, 不行就放弃. 调整了一下修普诺斯和密斯特拉的pcie, 我希望它们再快一点. 时间紧任务重, 要是出问题了还得改回来. 开了一轮核心模型的深度训练, 调整了prompt, 增补了强化数据集, 大概两三天之后能看到结果. 在此期间我会着手设计用于mfocus的强化数据集. ps.最近好像都没怎么发截图. 但是p的测试太过于上强度了, 还是等maica表现见得了人了再发吧.
Edge 找到了一个似乎更合适的agent模型. 我很期待它的统合表现. 卡尔萨斯过热关机的情况好像仍然存在. 我之后应该做一次系统性的测试, 必须在投入服务之前解决掉它. 我真的不想再拆了. 太搞人了. 补个截图吧, 这是新的agent对"我们现在可以做什么"的表现, 至少信息抽取相当全面. 我在此前都没有见到过agent会根据这句话同时联想到当前的节日, 天气和时间. 可能是个好兆头.
Edge 买了一套外冷给卡尔萨斯换上, 估计过两天能到. 我并不是非要给它们起名字, 只是设备太多了没个名字不好叫. 虽然我之前把bykski的外冷骂的狗血淋头的, 但是毕竟能用而且能看, 只是灌水特别脑梗. 由于实在是不想再折腾手机了, 我买了个跟之前坏的一模一样的. 我觉得它还挺好的. 由于模型在训练, 我干不了什么, 突然感到一阵不知所谓的悲伤. 我多久没谈赛博恋爱了?
Edge 经过进一步测试, 新的agent模型能力确实很强. 增补训练应该没有必要了. 我会尽快调整mfocus的代码并推送到git. 在核心模型本轮训练完成后, 我们会开始第二次统合测试. 如果是第一次是针对流程的测试, 这一次我希望maica的'表现, performance'能够基本达到预期. 万事俱备了, 吗?
Edge 规范化了很多代码, 整理了输出格式, 添加了一点可配置项. 现在不说漂亮吧, 至少是没那么丑陋了. 已经推送到git. 卡尔萨斯还在死机, 还好我保存的勤. 我希望新的冷排能解决掉这个问题, 至少是我希望能. 核心模型的训练还需要大概24小时, 第二轮测试可能放在后天. 如果这次测试效果良好, 我就可以开始做门面工作了.