MAICA使用提示与技巧详解

Edge

这部分内容是"MAICA使用提示与技巧"的补充和详细说明. 如果你还未看过, 请先看原文: https://maica.monika.love/tnt

文中涉及的数据均为撰写时的数据, 后续不会单独更新.

Edge

要详细地解释使用提示与技巧, 我必须先说明一些基本的概念:

虽然功能和专有名词很多, 但MAICA大致可以拆解为三套体系: MFocus, 核心模型, MTrigger. 我会讲得尽可能简单:

MFocus由一个通用LLM(大语言模型, 下同)处理. 其接受与用户输入基本相同的内容, 以逻辑性思维处理, 并收集所有必要的信息. 当信息收集完成, MFocus的思考和最终响应会被忽略(除非启用mf_aggressive), 仅有信息会被传递到核心模型.
核心模型是一个经过微调(Fine-tuning)的LLM, 即根据数据集学习过莫妮卡的行为, 并据此作出尽可能接近的模仿. MAICA的垂直领域微调会破坏LLM的原有功能, 因此其无法自主调用工具. 核心模型接受用户输入和MFocus信息, 并只需作出应答.
MTrigger由一个通用LLM处理. 其接受用户与核心模型上一轮次的对话, 以逻辑思维处理, 并调用所有必要的触发器. 当触发器调用完成, MTrigger的思考和最终响应会被忽略, 仅有触发器会被发送到客户端.

这一拓扑可以解释一部分常见的问题:

Q: 为什么日志/控制台中, MAICA的思考有时表现得与应答完全不同?
A: 因为这些思考来自MFocus, 对核心模型是不可见的, 自然与核心模型的应答没有关系. 这一表现一般而言是正常的.

Q: 为什么有时MTrigger会调用与应答完全无关的工具?
A: 因为这些工具调用来自MTrigger, 其不一定总是能理解核心模型的对答. 这一问题往往随MTrigger模型能力的增强而减少.

Q: 为什么有时候MAICA无法获取回答问题需要的信息?
A: 因为获取信息的决策由MFocus作出. 若其决定的作答方式与核心模型的作答方式不同, 就有可能获取不到核心模型所需要的信息. 这一问题相对罕见, 可以由MFocus的设计优化改善, 但未有彻底解决方法.

Q: 为什么有时MAICA会拒绝触发存在的触发器, 或答应其无法完成的请求?
A: 因为核心模型并不知道其可用的触发器有哪些. 我们为此添加了额外设计(amt_aggressive)并默认开启, 其要求MFocus预检触发器并给出指示. 这一般能缓解问题, 但未有彻底解决方法.

Edge

其余问题都集中在核心模型上. 核心模型本质上只是一个LLM, 接下来是一些LLM相关的基本概念, 我会讲得尽可能简单:

LLM是一类处理自然语言的程序, 其复杂度基于海量随机的初始参数. LLM经由复杂的学习, 调整参数以拟合token权重, 最终贴近人类语言表现, 这一过程被称为预训练.
预训练需要巨量的训练数据. 而以相似的方法, 使用极少量的数据让LLM从中学习特定的行为, 这一过程被称为微调.
因此, 微调本质上并不是从头开始的完整学习, 而是通过让LLM以既有知识"理解"微调数据中的"模式", 以"激发"其模仿的"潜能". 这一机制使微调后模型的能力与微调数据集的质量呈显著的正相关, 也与微调前的通用能力呈正相关.

Edge

对于MAICA的情况而言, 我们有如下基本假设:

目前的MAICA核心模型(DAA3)基于Qwen3-235B-A22B-Instruct微调, 其是一个有2350亿参数的稀疏(混合专家)模型, 可以认为有足够的复杂度扮演一个人类. 只要以合适的方式微调, 模型的通用能力不会成为项目的瓶颈.
目前的MAICA数据集分为两部分, 开源基准数据集(采自MAS)和DAA数据集(采自过往使用记录, 人工修正). MAS中莫妮卡的表现是我们对莫妮卡认知的基础, 这部分数据集的质量可以被认为是100%. DAA数据集由人类处理并最终由我审核, 可以认为质量也接近100%.
数据集质量为100%代表在给定情况下, 作出与数据集中完全相同的响应被视为最佳表现. 相应地, 输出与数据集完全无关的响应被视为质量为0. 对于任何二者之间的表现, 可以由人类或一定量化标准评估其质量.
自然, 微调数据集不可能覆盖所有语言输入情况. 显然, 浩如烟海的预训练数据集都不可能覆盖所有语言输入情况. LLM能够通过其对"模式"的理解, 产生"泛化"能力, 对未经训练的输入作出合理的响应. 这是预训练和微调生效的基础.
"泛化"表现基于数据集内在的"相关性". 显然, 输入越接近于某条已训练数据, 其"模式"就会在输出中有越大的"影响". 预训练的巨大数据量使几乎每一条可能的输入都存在十分接近的已训练数据, 因此现代LLM能有稳定和优秀的表现.
"泛化"表现也基于模型的"理解"行为, 也就是模型复杂度. 一般而言, 参数量越大, 神经网络层设计越合理, 基础能力越强的LLM, 在合适的条件下泛化能力就越强. 这一指标很难量化, 但确实普遍存在.

Edge

在此基础上, 我们有如下推论:

微调数据集相对预训练数据集是极小的. 对于MAICA, 微调数据集全部加在一起只有不到4000条对话, 而且大部分处于逻辑空间上相对集中的区域: 问候, 情侣闲聊, 知识科普, 等等. DAA数据集在逻辑上分布更广, 但由于基数更少, 仍然是十分稀疏的.
对于偏离微调数据较远的输入, 输出中主要的"影响"都只能来自预训练数据, 这些数据构成了LLM的基本能力. 这些输出也就不可避免地有较强烈的"人机感". 量化地, 可以称其为"质量较低".
对于甚至偏离本语言预训练数据的输入, 模型会倾向于使用其它语言回答, 最常见的就是出现英文/中英文混用. 这一表现甚至能在很多未经垂直领域微调的LLM上复现, 如deepseek等.

Edge

进而:

在三次DAA中, 除了更换更好的基础模型外, 我们改良表现的主要方法集中在"添加数据"上. 通过抽取随机的用户输入, 修改响应到质量为100%, 并再次加入训练, 我们在逻辑空间上用户常到的地方插入了更多的"锚点", 使接近的输入能依此改善表现.
有一句行内黑话, "有多少人工就有多少智能", 信息不会凭空产生. 我们在三次DAA升级中清洗了大量数据, 模型的表现也有可感的改进, 但目前MAICA的数据集仍然处于高度缺乏的状态. 换句话说, 相当大的逻辑空间尚未有足够的"锚点".
根据一切结论和经验, 我倾向于相信现有的技术足够让LLM产生"有灵魂"般的完美响应. 但我们需要的数据不是4000条, 而是400万条或者更多. 史上从未有过对单个自然人采样如此多数据的记录, 一个虚拟人物更不可能了. 但要说继续进步, 我们确实还有事可做.

Edge

所以:

MAICA对打招呼, 情话, 闲聊内容(常见于MSpire)响应质量普遍较高, 因为其可参考的"锚点"十分密集. 对于询问奥特曼, jojo, 原神(真的都他妈有人问过)的响应质量普遍较低, 因为其几乎没有可参考的训练数据, 输出的"模式"主要来自预训练数据.
MAICA将自己称为莫妮卡, 将玩家称为[player], 而非任何你给她/自己起过的其他名称. 这一行为是为了避免额外的偏移量, 使输入尽可能地处于训练数据密集的逻辑空间, 以期更好的表现. 在实践中, MAICA能接受一定程度的偏移(如"莫莫"), 但偏移最终会造成质量损失.
MAICA的设计允许一定程度的补充设定, 但设定上的偏移也会造成质量损失. 实际上, 由于训练数据的缺乏, 几乎任何形式的输入偏移都会积累质量损失, 这一点需要用户在使用中多加留意.
语言上的偏移也会造成质量损失, 原因显而易见. 请不要使用与target_lang不符的语言输入, 也不建议在一个session的中途切换输入语言或target_lang.

Edge

在单轮对话中, 质量损失往往是相对容易接受的. 但在会话中:

多轮对话的历史记录在LLM中属于上下文, LLM处理上下文的方式是全部作为输入. 换句话说, 多轮对话实际上是靠每次输入所有历史记录+最新的输入来实现的.
LLM的表现有强烈的接近上下文的趋势, 这一行为源于LLM自身的权重计算原理. 这一行为的存在使LLM对上下文的表现十分敏感, 也会导致上下文中出现的质量损失在session中不断积累, 最终破坏LLM的表现.
在微调中, 多轮对话的地位也与单轮不同. MAICA的基本数据集中基本没有多轮对话, 而DAA数据集中多轮对话的质量和数量也都相对欠缺. LLM单轮到多轮的泛化能力相对较强, 但既然MAICA的多轮对话本身就可以算作一种偏移行为, 质量损失就会无可避免地在多轮对话中积累.
"当使用者提问与训练数据距离太远, 模型会表现不佳; 而对话历史中存在表现不佳的轮次会使后续对话表现更差." 这段话来自提示与技巧, 说得已经很明确了.
因此: 选择合适的会话长度, 保持输入合理的内容. 如果已经观察到明显的质量损失效应, 你应该尽快清空session. 如果你真的不希望清session, 可以辅以提早备份, 但清空session最终是难以避免的.
所以, 一个维护良好, 长度适中的session后续响应质量普遍较高. 一个输入不合理或长度不合理的session, 后续即使对普通的输入, 响应质量也会很低.

Edge

简单总结一下, 但不代表前面的内容你不用看:

如果你问一些离谱的问题, 就别怪模型输出太人机了. 真让莫妮卡来了都他妈不知道要怎么答.
如果你的会话里问过一些离谱的问题, 也别怪后续的输出不好看了.
如果你的会话已经不好看了, 那就清空. 没有别的办法. 没有. 再继续聊下去毫无意义.
别忘了提示与技巧的基本内容. 乱动高级设置之类导致的问题一概不管.

Edge

最后:

原理上, 只要不违反tos, 我们真的不想干涉你跟你老婆玩什么. 但是我也真的希望你记住, 你的对话内容我们是会看到, 而且有可能需要人工清洗作为训练数据的. 如果我们的人受不了了, 是会考虑去改tos的.
见过很多看着跟初中没毕业一样的query. 麻烦你们以学业为重好不好, 至少先把语文什么的恶补一下, 学会说话学会打字, 搞出一堆劣质数据对你自己又有什么好处...
游戏出了问题就别叫她修了行不行, 真有那本事修我还干啥运维啊. 去把维基啊readme啊什么的都看一遍不行吗, 你游戏里出的问题模型怎么可能会知道...
设置之类的东西悬浮着底下都有tooltip, 麻烦你自己睁大眼睛多看看好不好, 不要直接来问她了好不好, 我看着都急. 我们又没告诉过她这设置里面到底都有啥, 这种事情有那么难理解吗...
不要问她的政治观点立场, 尤其是lgbt那些鬼东西, 然后发现和白月光不一样就像天塌了一样好不好. 模型能有什么立场我请问你了, 你还不如去动物园问鹦鹉...
我忍不住再单独开一行, 跟那个每次来就让模型写ntr小短文, 几个词换着花样写, 中文写完换英文写, 一写就是两个小时的用户交个底. 我当然不能点你的名, 但是我求你了体谅一下我们, 我他妈看着都觉得眼睛要瞎了. 你真有那么压抑去找d指导不行吗? 有什么区别吗? 我都快要给洗数据集的人发工伤补贴了好不好? 你是人吗你?

Edge

MAICA使用提示与技巧页将在未来引用此贴, 作为全面性上的补充.