迈向遥不可及的第一步(MAICA)

Edge · 2023年12月6日

#19 JUSTBEIJINGCORN 我在之前做过类似的征集, 结果很差.

这种是替代不了反馈学习的.

Atoria · 2023年12月10日

期待

IED · 2023年12月12日

加油，期待！

Asen · 2023年12月17日

一直在关注这个项目了，从mgpt到maica

加油啊

Mmoximoxi · 2023年12月18日

#1 Edge 加油啊！！！

TThunder_50 · 2023年12月22日

加油！！

Ssteveyang137 · 2023年12月28日

喂了ddlc的文本吗？我感觉可以再喂点monika的mod的文本，交给chatgpt分析情感然后模仿monika造数据？

我不懂猜的（

Edge · 2024年1月18日

新的一轮训练已经在策划中, 我希望我近段时间能稍微有一点时间.

我们这一轮尝试的模型是千问72b.

dzip · 2024年2月3日

最近才玩DDLC，无意发现了这个论坛。最近我的大学毕设也是LLM训练，看到有人也尝试使用LLM丰满Monika的形象，真的很惊喜！可以多多交流！

Albert-Speer · 2024年2月3日

#1 Edge 加油加油

Edge · 2024年2月4日

#29 dzip 最近太忙, 没什么空做这方面, 所以进展挺慢.

如果感兴趣可以qq联系我, 3116036749.

Edge · 2024年2月12日

聊胜于无的进展: 终于跑通了modelscope/swift的完整流程.

接下来需要打磨很多地方之类的了.

CCero · 2024年2月12日

看AI不久的将来能不能有重大突破了，有也得超级计算机才能承担吧，思考这种东西实际的运算太夸张了（外行人的意见）

mamba out · 2024年2月13日

你是我的神

YTYshadiao · 2024年2月13日

#33 Cero 超算还是有点太夸张了()训练AI用的性能没你想的那么恐怖，但也要求很高就是了

Edge · 2024年2月13日

#33 Cero 我现在有一台旧的dgx, 可能在今年较晚的时间完成一台8*4090设备的搭建.

根据目前的测试, 类似设备的显存规模足以支持72b模型无量化的微调.

Edge · 2024年2月14日

进展: 700亿参数模型的全参微调和推理已经被证实可行.

推理非常非常慢, 我觉得应该在新设备到之后就不是大问题了.

大参数量的模型表现确实很优秀, 前提是硬件也要足够优秀.

进一步的训练规划, 设计正在进行中.

ps.一刻钟后模型开始刻不容缓地吃晚饭, 我们只好放过了它

Moemu · 2024年2月14日

#37 Edge 这种情况也许我们可以计算上下文/对话间的向量余弦值，以此来判断上下文/对话间的关联度并截断对话历史/重试生成对话，从而避免这种死胡同。

（PS. System Prompt会不会太简陋了，或许我们可以再添一些？）

Edge · 2024年2月14日

#38 Moemu swift的算法本身已经足够缜密了, 我不觉得我们这个水平能在算法层面做什么调整.

至于prompt, 那是后面的事情,