- #137
加油
加油
在群里让模型答了群友几个问题试试看, 结果都还尚可.
我接下来再进行一个5ep的补充训练, 我希望先找到过拟合的阈值在哪里.
进展: qwen1.5-72b在十个ep后的对答效果.
可以看出来有一定的过拟合现象和编造知识存在, 可能temp有点高.
找到一个过拟合的节点对测试调优是有意义的, 后面只需要往回倒一倒就可能找到最佳节点.
此外, 虽然在常识性问题上存在过拟合现象, 但在针对性领域下模型的表现超出预期地人性化. 可能我应该继续进行一些ep来查看进一步的效果. 如果继续提升ep能继续提升模型在角色扮演上的能力, 可能是时候调整数据集了.
我希望尽快着手构建服务与模型对接的基本接口, 然后尽快开始llm agent的构建和调试. 当然需要时间.
同时, 与maica相关的文字转音频(tts)模块也已经开始早期研究与探路. 因为机时实在是不够用, 所以我的实验也需要拖一拖了.
在调整数据集的过程中, 定位到了一个和新版ms-swift抽样有关的问题.
这个问题非常奇怪, 目前不确定来自数据集本身还是抽样算法, 它会直接导致cuda丢失一个gpu, 而且每次是同一个.
虽然我很想怀疑这是gpu的问题, 但是不用这个抽样的时候是一切正常的.
我希望清除这个问题不会需要太久.
同时于昨晚重做了次级设备卡尔萨斯的系统, 希望解决掉驱动的问题.
我昨晚可能只睡了五个小时, 有点晕乎乎的.
更新: 最终还是把问题定位到了gpu上, 比较有可能是gpu供电不足. 更坏的可能性是显存虚焊.
67号gpu的供电和散热规格都相当充裕, 我现在正在怀疑供电线和转接头.
无论是哪种情况都需要大修设备+等快递了. 请理解我们的进展缓慢.
更新: 应该是转接头的问题, 算是还好.
我昨天晚上已经下单备件, 应该周五就能继续投用.
加油
打破这道墙吗
剩下的一个饰品干脆丢求购了, 感觉市价虚高不好卖. 到手也就四万多点.
我现在其实已经有点犹豫了. 我实在是很难确定三号节点到底是不是必要的, 只能说很可能是吧.
明天晚上八点有点折扣, 可以开始配外围的零件了.
修普诺斯在运行针对数据集改良的实验, 预计明早可以验证结果.
上一轮的训练结果其实不足为奇, 但是我注意到了一个很有意思的地方.
在第二个对话里, 模型提到了"外面不安全". 我一开始以为是拟合不足或者逻辑紊乱, 但是再一想好像就知道是为什么了.
在22年左右, 国外疫情严重的时候, mas里加入了一两个对话, 大概在jsonl中是10行. 这里是很明显地提到过"外面不安全"的. 这一部分数据当然也被纳入了数据集.
在总共超过1500行的目标集和更多的辅助集中, 这10行的内容就像是被模型"理解"了, 然后运用到了回答中.
看起来可能挺没什么的, 但是对于llm来说有点奇特. 一直以来, 我和外援对模型ft的理解都是基于"对答模式"的, 也就是模型组织token的方式. 在正常的对答中精确地抽取数据集中的"知识", 而且其prompt和实际上提到的问题几乎无关, 这点让我相当意外.
可能我们在此之后会依据类似的理解方式改良训练的设计. 目前, 我已经修正了数据集中关于新冠的部分, 告诉她新冠已经过去了. 下一轮的实验基于新的数据集展开, 我们将对比其结果与表现.
量变引发质变. 作为ai中最复杂的分支, llm确实有能超过预期的能力啊.
老大————我们敬爱你口牙