这个周末,我国大模型领域突发超级重磅大利好!Deepseek公司负责人梁文峰出现在央视新闻联播,参与总理座谈会!我国AI公司深度求索推出全新的DeepSeek开源模型,Deepseek大模型仅利用英伟达限制型显卡H800 GPU来训练,训练成本不到美国最先进GPT-4o训练成本的5%。但是功能却超越包括chatGPT在内的所有美国大模型,甚至被认为在推理和数学等领域比美国的大模型更加优秀。DeepSeek一系列动作和功能展现让Meta的生成式AI团队陷入了恐慌。深度求索推出的DeepSeek-V3大模型在全球AI领域已经引起惊涛骇浪。Deepseek的性能已经处于第一梯队。而且因为它是完全开源的,大家可以观察DeepSeek是如何用更有效率的训练方式与细腻的技术手段扬长避短的。深度求索公司已经开创出一条与众不同低成本的AI发展路径。理论上讲,算法、数据、算力会决定大模型的发展速度和水平。美国大模型各大厂商都在算力上投入巨资,马斯克旗下xAI的超级计算数据中心投入了10万颗英伟达H100 GPU芯片。OpenAI创始人奥特曼表示将投入1000亿美金建设10座数据中心,未来4年还要耗资5000亿美金在全美打造20个超算集群。以前,大家都觉得GPU芯片数量大,谁的算力强,谁就是AI大模型的王者。但是DeepSeek不倦算力,它主要在创造组合的最优解方向做出重大突破。中国的AI大模型的发展将不再被英伟达的GPU所束缚,犹如潜龙在渊,腾飞在即。我们看好25年包括大模型在内的全AI的发展,也坚信AI产业链上市公司是最重要的投资主线!
DeepSeek是北京深度求索人工智能基础技术研究有限公司推出的一系列人工智能模型。Deepseek以transformer架构为基础,采用自主研发的深度神经网络模型,基于注意力机制。Deekseek模型分为DeepSeek LLM、DeepSeek Coder、DeepSeek Math、DeepSeek VL四大种类。Deepseek具有多任务处理、语言理解与生成能力强、代码生成能力突出、多模态理解能力优秀等功能特色。Deepseek主要应用场景包括:智能对话场景;服务企业端客户学习场景(可作为知识随身学习助手,进行精准知识解答、概念深度讲解);职场应用场景(能实现代码智能编写、文档一键生成、专业方案设计、数据分析支持)。Deepseek的出现很有意义,一个是提升我国开源模型竞争力,再是推动行业发展:其高性价比引发了国产大模型的降价热潮,为大模型发展提供新思路,迫使竞争对手重新评估定价,推动整体价格下降。Deepseek主要概念股一览表如下表所示: