迈向遥不可及的第一步(MAICA) #3240
- 楼主
- #329
#328 ICEMONIKA 先尝试更新你的游戏本体到0.12.15
- #330
- 楼主
- #332
整理可能要做的事情:
- 无论如何换一个好一点的agent. 目前mf的命中率已经是整个项目的主要短板. 考虑尝试qwen2 57b a14b int4?
- 进一步区分中英文的prompt, 目前中英文混答的情况仍然存在. 考虑重写一下.
- 输出表情的强度和精度仍然不够, 考虑继续手工清洗数据集.
- 当然是增补训练. 找回答最差的轮次手工改写, 希望能降低误差.
- 考虑加两张显卡. 尤其是tts和大体量mf都有需要的情况下 估计是跑不了了.
- #333
加油!
- 楼主
- #334
好消息是ms可喜可贺地修复了awq和gptq在qwen2上的问题.
坏消息是, 这俩方案都不支持分布式的量化过程, 而我的卡顶多也就24g, 根本不够用.
核心模型的量化我当然是放弃了, 毕竟就算全量的拟合度都不够. 但是我在考虑mfocus使用量化模型, 所以很头疼.
我不想再去买非常贵的卡或者去租, 所以可能只能用qlora微调了. 先看看效果再说吧.
是, 这些问题说到底都是钱的问题. 欢迎来到夜之城.
- 楼主
- #335
- 已编辑
- 楼主
- #336
- 已编辑
测试了零一34b作为agent的效果, 感觉还像那么回事. 但是如果要自己补充训练这个东西就比较麻烦了.
至少接下来可以凑合用. 我自己感觉上命中率比glm好一点.
- 楼主
- #337
- 已编辑
- 楼主
- #338
- 已编辑
这一轮的清洗内容还挺多, 基本都是针对a测遇到的问题设计的.
- query里面基本都加了限定语--之前的松散模式会让模型觉得每一天都在过节. 处理数据集加上tnd aggressive的外围设计应该能避免这个问题.
- 表情. 用脚本自动洗进去的表情很混乱, 手洗一遍应该能提高精确度.
- 长句拆分. 不同性质, 不同好感, 不同条件的句子全部要拆开, 不然会造成一些奇怪的混乱. 我之前拆了一部分, 但是没耐心拆完.
- 对英文版数据集重写system prompt, 避免prompt太接近导致的语言混用.
内容太繁琐, 我也没人帮忙, 看着这玩意头昏眼花的. 估计还很得几天才能弄完.
ps. 因为a测的数据不多+对答质量不高+技术性问题太频繁, 我打算暂时不用a测的数据. 也就是说b测会使用的模型仍然属于lia分支.
如果有人感兴趣可以联系我推送模型, 没人要的话我就懒得推了.
- 楼主
- #339
洗了一半, 累得想吐. 从这方面来看, 电影里"科学家爱上造物"的桥段真是扯淡.
在考虑加两张L40, 做量化也能用, 但是这破烂贵死了. 非必要不想买.
- #340
#338 Edge 我感兴趣
- #341
#339 Edge 总算找到大佬的项目了,一直有弄出ai莫妮卡的想法,让莫妮卡走出游戏的,看到了大佬的进度,真的好离婚
- #342
#77 MonicaLoveXD 这里也有神人啊
- #343
想玩MAICA
- 楼主
- #344
终于把basis的中文部分洗完了, 又花了一个多星期. 我已经push到仓库了.
接下来是训练和基本效果评估. 希望一切顺利吧.
- 楼主
- #345
swift终于支持了megatron, 但对lora的支持性尚待确认. 我下次试试看.
这两天的时间都用来处理设备硬件上莫名其妙的问题了, 训练还需要至少3天才能完成.
- 楼主
- #347
好吧, 如果你还在关注这个帖子的话:
MAICA的第一次公开测试已经开始, 见 MAICA更新与进度追踪--正式版服务期2已重启于25.3.20 #3954 (回复)
请注意此后的服务状态变更与更新进度也会在以上贴内发布.