在我自己的测试中, 我觉得maica的表现已经达到了最低要求. 图上是一轮简单的对话, 从问好到询问活动, 再到晚安.
其中thought和final answer自然是mfocus中间体的输出, 方括号中的内容为传参. 在今天的驱动更新中, 这些内容能以debug的形式被前端接收分析.
虽然在相对复杂的多轮对话环境中, 关于输出情绪的指导并没有百分之百生效, 但是我们自然有一些补充方案可以用. 对模型表现的暴力测试留给p做.
希望模型在不正常的输入下保持正常输出是一种奢望, 就像对锂电池做刺穿测试. 不过我仍然希望看到maica完全体的泛化能力上限在哪里, 这对后面的组织设计会有作用.
我会在明天抽空再完善一下驱动. 希望p也能抽空来做测试.
ps. 在改造密斯特拉之后, maica完全能力的响应速度也达到了一个可以接受的水平, 虽然在处理复杂信息的时候仍然前摇很长.
离封闭的用户测试可能已经很接近了.