讨论了DeepseekJanusPro模型特点、训练情况及AI产业发

丹萱谈生活文化 2025-01-29 20:48:19

讨论了 Deepseek Janus Pro 模型特点、训练情况及 AI 产业发展,具体如下: Janus Pro 模型参数与理解: 参数版本 :Janus Pro 有 1B(实际 15 亿参数)和 7B(70 亿参数)两个版本,词表大小基本一样为 100K,7B 的 embedding size 大一倍左右,attention heads 越多信息量越大,layers 层数和 context window 类似。 训练资源与耗时 :15 亿参数模型在 16×8 = 128 张 40GB 的 A100 卡上训练 7 天,70 亿参数模型在 32×8 = 256 张 A100 卡上训练 14 天。 与其他模型对比及能力评估: 与通用模型对比 :V3 是通用模型,Deepseek Janus Pro 只是通用模型中的视觉理解能力,构建在通用模型能力之上,训练成本比 V3 等通用模型低。 与视觉大模型对比 :与谷歌的 imagine、开源的 stable diffusion 等视觉大模型相比,Janus Pro 参数量 OK,但它不是专业图片生成模型,与其他模型能力各有差异和优势。 模型训练环节分析: 预训练与后训练理解 :预训练如小孩上学前散养,不断增加算力、数据集;后训练像小孩上学后精挑细选学习内容,不同阶段学不同知识。 后训练发展变化 :原来后训练多用 finetune(类似家长检查孩子学习成果),现在开始重视强化学习(像给孩子上各种辅导班提升能力),post training 刚刚开始。 强化学习在模型中的重要性: 理论依据 :机器学习起点是强化学习,要达到超人智能靠超级强化学习(super skill IL),因为历史上阿尔法狗、阿尔法 Zero、ChatGPT 等都用了强化学习提升能力。 强化学习环节理解 :强化学习(IL)分为 learning 和 search,learning 是用数据抽离模态,如同小孩从上学到大学集中学习总结世界规律;search 是在工作生活中用计算推理总结规律经验。 AI 产业发展展望: 未来研究重点 :后续一到两周将汇报 Deepseek 对 AI 产业链算力、模型、应用终端等各环节的影响。 产业节奏与重估 :中国 AI 资产在当前时间点值得重估,要结合中长期产业逻辑和短期节奏,美股 AI 产业进展值得跟踪学习,中国 AI 变化也需重视。

0 阅读:15