OpenAI传说中的新模型终于发布，其推理能力突飞猛进，不再需要担心大模型无法

Open AI传说中的新模型终于发布，其推理能力突飞猛进，不再需要担心大模型无法做题。该新模型代号为o1，并非GPT的延续，而是Open AI重新开启了一个新项目，专门用于提升推理能力。在数学方面，2024年美国数学邀请赛中，之前GPT-4o的平均正确率为12%，而新模型o1的首次尝试平均正确率达到了74%。如果使用集体决策和高级评分策略，o1的正确率甚至可以达到93%。这一成绩不仅让o1跻身全美前500名优秀学生之列，还超过了美国数学奥林匹克竞赛的入选分数线。在物理、化学和生物方面，o1也表现出色。在GPQA Diamond这项专门评估物理、化学和生物等专业知识的测试中，o1不仅完成了测试，还超越了部分博士学位的人类专家。除此之外大模型在之前就擅长的编程方面也有所突破。在国际信息学奥林匹克竞赛中，在与人类参赛者相同的条件下，新模型o1获得了213分，位列参赛者的前50%。如果放宽限制，每个问题的提交次数从50次提高到1万次，o1能拿到362.14的高分，直接超越了金牌的分数线。 o1之所以能补全大模型推理的短板，主要有两个方面。一是AI界的“文艺复兴”，采用了之前已经证明实力的自博弈机制，这项机制最擅长的就是单点突破。这两年比较火的大模型属于“杂学家”，什么都会点，但什么都不精，而自博弈机制擅长垂直领域的单点突破。二是新模型采用了链式思考机制，简单来说，之前的模型是用直觉回答问题，而o1给出的则是深思熟虑后的回答。用Open AI研究主管的话来说，就是模型在学习自己思考，而不是试图模仿人类的思维方式。目前o1的缺点也很明显，首先是响应速度较慢，回答一个问题通常需要10~20秒，不过考虑到是在做题，慢点也能理解。缺点是目前还不能浏览网页、处理文件，也不支持多模态，不能输入图像和音频。并且在记忆力不好、幻觉严重和迷之自信方面，比传统GPT模型还要严重一些。最后一点就是成本高。 o1在数学、科学计算和编程上的巨大突破，不仅代表着更高的价值，也带来了更高的智能水平，而高智能的代价就是高成本。有内部人士估算，o1的算力消耗成本预计是GPT4的10倍以上，定价方面也相应提高。目前o1包含两个模型，一个是更全面的o1-preview，另一个是效率高一些的o1-mini。o1-preview每100万个token的输入价格为15美元，输出价格为60美元，比GPT-4o高出3~4倍。要知道很多科研级别的问题题干和答案都相当长，基本上博士生几道题下来100美元就花完了。但如果o1真能解决高阶的科研问题，那这个性价比可以说是无敌的。