DeepSeek仅排第五！大语言模型“幻觉”评测结果出炉，这次百度文心一言表现最

DeepSeek仅排第五！大语言模型“幻觉”评测结果出炉，这次百度文心一言表现最优！

这几天，针对大语言模型（LLM）普遍存在的“幻觉”问题，一项评测结果引起了广泛关注。

那什么是“幻觉”呢？所谓AI“幻觉”，是指AI生成内容虽然看似合乎逻辑、有说服力，但实际上有可能是错误或捏造的。比如前两年ChatGPT刚出现时，就存在这个问题，有人问它“林黛玉能否倒拔垂杨柳”，它会“一本正经”地写一大堆，被网友嘲笑为“胡说八道”。

而“幻觉”产生根本原因，在于大模型运作原理。简单说，大模型回答问题是从全网采集知识，但大模型可能在没有验证真伪情况下就采用了，而且在对多方面来源信息进行“拼接”时，也有可能导致内容错误或误导。

当然了，为了检测模型的“幻觉率”，开发者们也测试设计了多个领域问题，其中包括历史、科技、文化等等，模型需根据自己的知识库生成回答。经过分析，在国内外6大主流大语言模型的评测中，这一问题在Deep Seek-R1、GPT-4、文心一言等主流大语言模型中都有不同程度的“幻觉”表现。

从排名来看，百度文心ERNIE 4.0 Turbo成为为本次评测中表现最优异模型，非幻觉率接近83%。尤其在事实验证和冷门知识领域表现尤为出色，说明其在知识库构建和推理能力方面有显著提升。紧随其后的是GPT-4o、千问和豆包。

近期“红得发紫”的DeepSeek在这一次排名中排到第五位，其非幻觉率大约为65%，生成回答时虽然注重上下文连贯性，但在某些领域的深度知识上仍存在幻觉问题。

这几年，大模型进步可谓日新月异，但是这次评测也提醒我们，人工智能毕竟还不是“人”，但如何有效减少幻觉，特别是在真实信息验证和知识深度上，仍是将来需要努力的方向。

0 阅读：215

算力暗战：DeepSeek背后藏着一只"核弹级"独饺兽。深夜的北京中国大饭店灯火