DeepSeek仅排第五!大语言模型“幻觉”评测结果出炉,这次百度文心一言表现最优!
这几天,针对大语言模型(LLM)普遍存在的“幻觉”问题,一项评测结果引起了广泛关注。
那什么是“幻觉”呢?所谓AI“幻觉”,是指AI生成内容虽然看似合乎逻辑、有说服力,但实际上有可能是错误或捏造的。比如前两年ChatGPT刚出现时,就存在这个问题,有人问它“林黛玉能否倒拔垂杨柳”,它会“一本正经”地写一大堆,被网友嘲笑为“胡说八道”。
而“幻觉”产生根本原因,在于大模型运作原理。简单说,大模型回答问题是从全网采集知识,但大模型可能在没有验证真伪情况下就采用了,而且在对多方面来源信息进行“拼接”时,也有可能导致内容错误或误导。
当然了,为了检测模型的“幻觉率”,开发者们也测试设计了多个领域问题,其中包括历史、科技、文化等等,模型需根据自己的知识库生成回答。经过分析,在国内外6大主流大语言模型的评测中,这一问题在Deep Seek-R1、GPT-4、文心一言等主流大语言模型中都有不同程度的“幻觉”表现。
从排名来看,百度文心ERNIE 4.0 Turbo成为为本次评测中表现最优异模型,非幻觉率接近83%。尤其在事实验证和冷门知识领域表现尤为出色,说明其在知识库构建和推理能力方面有显著提升。紧随其后的是GPT-4o、千问和豆包。
近期“红得发紫”的DeepSeek在这一次排名中排到第五位,其非幻觉率大约为65%,生成回答时虽然注重上下文连贯性,但在某些领域的深度知识上仍存在幻觉问题。
这几年,大模型进步可谓日新月异,但是这次评测也提醒我们,人工智能毕竟还不是“人”,但如何有效减少幻觉,特别是在真实信息验证和知识深度上,仍是将来需要努力的方向。
石头
百度排第一,就不能再水点吗?
lu15444985
如果从我使用数学有关的模型感受,dpsk好于星火好于文心,从稳定性上文心等于星火高于deepseek.我属于白嫖的非缴费,文心是活动用的4.0
青山精神病院李主任 回复 02-20 15:36
我自己用14b的,ai斗地主[滑稽笑],感觉还好吧,思考相应时间大概15-30秒,
lu15444985 回复 青山精神病院李主任 02-20 18:07
那不是积分刷刷的涨?[赞]