消息面上,豆包发布视频生成实验模型“VideoWorld”。据介绍,不同于Sor

执著的宋 2025-02-10 19:46:01

消息面上,豆包发布视频生成实验模型“VideoWorld”。据介绍,不同于Sora、DALL-E、Midjourney等主流多模态模型,VideoWorld在业界首次实现无需依赖语言模型,仅通过“视觉信息”即可认知世界,也就是说,VideoWorld可通过浏览视频数据,让机器掌握推理、规划和决策等复杂能力。团队实验发现,仅300M参数量下,VideoWorld已取得可观的模型表现。

目前,该项目代码与模型已开源。

0 阅读:19
执著的宋

执著的宋

感谢大家的关注