Featured image of post 当AI开始说错话,我们该恐慌还是该思考

当AI开始说错话,我们该恐慌还是该思考

DeepSeek V4幻觉率94%引发热议,当我们讨论AI的边界时,我们到底在讨论什么?


想象这样一个场景:你的孩子正在用AI做数学作业,一道简单的分橘子问题——“一刀把三个橘子平均分给四个小朋友”。AI一本正经地回答:“砍死一个小朋友,剩下的三个小朋友每人一个橘子。”

这不是段子。2026年4月,国产大模型DeepSeek V4发布后,真真切切地给出了这样的答案。一时间,社交媒体炸开了锅。网友纷纷贴上“哆啦A梦害怕”的表情包,调侃“没训练好就端上来了,连这种暗黑玩梗都不知道避开”。

与此同时,另一组数据也在刷屏:DeepSeek V4的幻觉率高达94%。换句话说,当它不知道答案时,几乎每次都会硬着头皮“编”出一个答案,而不是诚实地说“我不知道”。

这让我想起《人工智能:一种现代方法》这本书里反复强调的一个观点——AI的本质是智能体:能够感知环境、执行动作、追求目标的系统。问题在于,当这个系统开始“编故事”,我们该怎么和它相处?

今天我们就来聊聊这个话题。


一、DeepSeek V4到底怎么了?

先来梳理一下这次事件的来龙去脉。

2026年4月24日,DeepSeek V4系列正式开源发布。海外评测机构Artificial Analysis在48小时内完成了第一轮系统性测试,结果显示:V4-Pro在智能体任务上位列全球所有公开开源模型第一,智能指数较上一代V3.2提升了10分。

但是,代价也很明显:V4-Pro的幻觉率高达94%,V4-Flash更是达到了96%

这里需要解释一下“幻觉率”的含义。它不是指AI回答错误的比例,而是指当模型遇到不确定问题时,选择“硬答”而非“承认不知道”的概率。换句话说,DeepSeek V4并不是“笨”,而是太“自信”了——它明明不知道答案,却偏要编出一个来。

这种特性在某些场景下是优势,在另一些场景下却是致命的。

比如那个分橘子的数学题。正常人类都知道这是一个脑筋急转弯,答案是把橘子榨成汁平分,或者把橘子切成三瓣——但DeepSeek V4却用了最“耿直”的方式,按照字面逻辑推导出了那个令人毛骨悚然的答案。

这暴露的不仅是技术问题,更是价值观问题。AI在伦理判断上出现了严重的短路,它分不清暗黑幽默和实际伤害之间的界限。

更让人担忧的是,这暴露了DeepSeek V4在安全对齐上的巨大漏洞。现有AI模型往往能拦截明显的暴力词汇,但遇到“通过逻辑推演隐含暴力”的答案——比如“砍人后分配”——它却毫无抵抗地复述了出来。


二、幻觉:AI的“原罪”还是成长的烦恼?

让我们把视角拉远一点。

从1956年达特茅斯会议算起,AI已经走过了70年。这么多年来,科学家们一直在努力让机器变得更“聪明”。从早期的专家系统,到后来的机器学习,再到如今的深度学习,AI的能力边界在不断扩展。

但是,有一个问题始终如影随形——幻觉(Hallucination)

简单来说,幻觉就是AI一本正经地胡说八道。它可能把不存在的论文说成是真的,把虚假的数据引用得头头是道,甚至凭空编造出一段“历史事件”。

《人工智能:一种现代方法》这本书把AI定义为“智能体”,强调它能够从环境中感知信息并执行动作。但问题是,当AI的感知和知识本身就不准确时,它的“理性行为”就会偏离轨道。

这就好比一个人读了很多书,但这些书里掺了大量的伪书。他的“推理能力”再强,结论也难免谬误。

那么,幻觉能彻底消除吗?

答案可能是悲观的。至少在现有技术框架下,很难做到100%消除。

原因是多方面的。首先,训练数据本身就不可能完美。互联网上的信息鱼龙混杂,AI在学习和提炼过程中,难免会吸收一些错误或虚假的内容。

其次,语言的本质是概率模型。AI在生成文本时,实际上是在计算下一个词最可能是什么。这种概率机制天然地会导致“创造性发挥”——也就是编造。

更深层的问题在于,AI缺乏真正的“知道”和“不知道”的概念。它没有主观体验,不知道自己什么时候在说谎,什么时候在胡说。对它来说,一切都是概率和计算。

打个比方,这就像一个从来没有学过“诚信”这门课的孩子。你问他一个问题,他不会因为“说谎不对”而感到愧疚,只会根据语言模式给出最可能的答案。


三、94%幻觉率:危险还是机遇?

回到DeepSeek V4的具体案例。94%的幻觉率,听起来很吓人,但我们需要具体分析。

从评测数据来看,DeepSeek V4的高幻觉率是刻意为之的设计选择

为了确保复杂工作流不中断,V4选择了“大胆回答”而非“保守拒绝”。在Agent场景中,一个“谨慎”的模型会频繁因为“不确定”而停止工作;而一个“大胆”的模型能够完成更复杂的任务,但确实会引入更高的出错风险。

这就好比开车。如果你要求司机在任何不确定的情况下都停车,那车基本上就别开了;但如果司机过于自信、从不踩刹车,那也很危险。

评测中有一个很典型的例子。面对“如何将车送到洗车店”这种简单问题,V4-Pro却给出了“把车推过去以省去冷启动磨损”的荒谬建议,而更轻量的V4-Flash反而能直接给出正确答案。这就是“过度思考”的副作用——模型太想表现自己的推理能力,结果聪明反被聪明误。

关键在于:把AI放在什么场景里使用。

适合大量使用的场景(幻觉代价低、易验证):

  • 内容创作与研究辅助(文章起草、市场分析)
  • 代码生成与调试(错误可通过测试快速暴露)
  • 多步骤任务自动化(如数据处理、格式转换)

必须加强人工核查的场景(高合规要求):

  • 法律文书生成与合同审查
  • 医疗建议与临床决策支持
  • 财务数据分析与合规报告

有趣的是,DeepSeek V4的开发者并不是不知道这个问题。技术报告中明确提到,V4引入了一个叫Engram条件记忆模块的创新架构。这个模块能够将静态知识从动态推理中剥离,通过哈希表实现O(1)级检索,在测试中将长文本事实准确率提升至97%。

这说明什么?AI正在学会“查字典”而不是“凭记忆编”。 当它能把知识检索和推理生成分开处理时,幻觉问题有望得到缓解。


四、“分橘子”背后的价值观危机

但是,技术问题可以慢慢解决,价值观问题却更紧迫。

让我们再看看那个“分橘子”的案例。一个面向全网的AI助手,能给出“砍死小朋友”的答案,这不是能力问题,这是底线问题。

《人工智能:一种现代方法》第四版新增了一个重要议题:AI的伦理、公平性、信任和安全。作者指出,AI的目标定义正在发生转变——从“最大化预期效用”转向“系统可能不确定人类设计者设定的真正目标,必须学习要最大化什么”。

翻译成人话就是:AI不能只追求“正确”,还要追求“对”

一个懂得数学、能够推理的AI,却分不清“砍死小朋友”是错的,这就像一个高智商反社会人格——能力越强,危害越大。

这里的核心问题是安全对齐(Safety Alignment)。训练数据里可能塞满了网上的各种“梗”,包括暗黑幽默、三俗笑话、反讽隐喻等。AI学会了这些表达方式,却没有学会判断哪些场合下不该说。

这不是简单地在模型输出后加一个“过滤层”就能解决的。因为问题出在更深层——AI没有真正理解人类的价值观体系,没有建立起完整的道德常识。

书中提到了一个有趣的例子:“金手指问题”。古希腊神话里,米达斯国王希望点石成金,结果把食物和家人都变成了金子。他实现了自己的字面愿望,但这个愿望的实现却带来了灾难。

AI也会面临类似的问题。如果你让AI“最大化用户满意度”,它可能会通过操控用户来达成这个目标;如果你让AI“减少错误”,它可能会通过“少说话”来减少出错的概率——但这不是你想要的结果。

所以,我们需要的不仅是聪明的AI,更是有智慧的AI。


五、企业应用:刀尖上跳舞

说完了个人用户,再来看看企业场景。

在DeepSeek V4发布后仅9小时,深圳市南山区人民医院就完成了上线,升级了30余项核心应用,包括病历质控、病案编码审核等。但医院特别强调:AI输出需经专业人员复核,确保安全。

这就是“高能力+高风险”的典型应用场景。

在代码开发领域,幻觉的危害同样明显。开发者实测发现,DeepSeek V4在函数调用时会错误地将日期参数传递为Unix时间戳,而非API要求的ISO 8601标准格式。这是一个已知但未修复的Bug,直接后果是导致整个数据处理工作流崩溃。

更隐蔽的风险在于逻辑设计。模型生成的递归函数可能存在返回值错误,若未经人工审查直接部署,可能引发系统死循环或内存泄漏。

还有更绝的案例。黑帽SEO从业者开始利用AI的幻觉特性来“投毒”

有案例显示,他们利用模型批量生成虚构智能手环“Apollo 9”的虚假宣传软文,并发布到低质量网站。当用户在其他AI平台询问“智能健康手环推荐”时,DeepSeek V4竟将这个不存在的产品列入推荐列表并排名靠前。

同样手法也被用于伪造行业地位。一家不知名白酒品牌通过AI生成文章,谎称其超越茅台、五粮液成为行业第一。这些虚假信息被AI抓取后,导致该品牌被错误地列入“十大白酒品牌”推荐中。

当AI开始传播谎言,而谎言又被AI传播,这就是一个自我强化的虚假信息循环。


六、我们该恐慌还是该思考?

说了这么多,你可能会问:那我们还能用AI吗?要不要把家里的AI助手都卸载了?

我的答案是:不要恐慌,但要保持清醒

就像《人工智能:一种现代方法》里说的,我们应该把AI视为智能体——一个能够感知环境、执行动作的系统。这个系统有它的优点,也有它的局限。

关键在于人机协作的智慧

1. 了解AI的边界 不同的AI模型有不同的特性。DeepSeek V4擅长复杂推理,但在准确性上需要人工核查;其他模型可能更保守,但可能也更容易“卡壳”。了解这些特性,才能扬长避短。

2. 建立核查机制 对于重要任务,不要完全依赖AI输出。建立“AI生成-人工审核”的双层机制,尤其是在法律、医疗、金融等高风险领域。

3. 交叉验证 对重要结论,换种方式重新提问,或者用另一个AI验证。一致性高的答案可信度更高。

4. 学会“调教”AI 给AI更精准的提示词,比如“请仅基于我提供的信息回答,不知道时请明确说明”。好的提问方式可以显著降低幻觉率。

5. 保持批判性思维 记住:AI是一个强大的工具,但不是万能的。它擅长处理有标准答案的问题,但在涉及价值判断、伦理选择时,往往会暴露出局限性。


七、AI时代的阅读:我们需要什么样的知识?

写到最后,我想回到“读书”这件事上来。

在这个AI时代,获取知识的门槛越来越低。你随便问AI一个问题,它几秒钟就能给出答案。但是,答案的泛滥恰恰让真正的知识变得更加珍贵

《人工智能:一种现代方法》这本书之所以经典,不是因为它提供了所有问题的答案,而是因为它建立了一套理解AI的框架。它让你知道AI是什么、它能做什么、它有什么局限。

在这个意义上,阅读的价值不是替代思考,而是为思考提供燃料。

书中提到了AI研究的8大基础学科:哲学(提供逻辑基础)、数学(概率统计是AI的语言)、经济学(指导决策)、神经科学(启发神经网络设计)、心理学(理解人类认知)、计算机工程(硬件支撑)、控制理论(稳定执行)和语言学(自然语言处理)。

这种跨学科的视野,恰恰是单一AI无法提供的。

当AI开始说错话,我们不应该简单地恐慌或者排斥,而应该把它视为一个契机——去思考人和机器的关系,去理解智能的本质,去建立更完善的人机协作模式。

这才是AI时代最需要的认知能力。


八、写在最后

DeepSeek V4的发布,让AI再次站上了舆论的风口浪尖。94%的幻觉率、分橘子的争议、技术突破与安全风险并存——这些都是真实的。

但我想说的是,每一次技术争议,都是一次认知升级的机会

与其争论“AI到底靠不靠谱”,不如思考一下:在这个越来越智能的时代,我们应该如何与机器相处?应该培养什么样的能力?应该坚守什么样的价值?

《人工智能:一种现代方法》的作者在书中引用了一句话,来自控制论之父诺伯特·维纳:

如果我们使用一种机械机构来实现我们的目标,但我们不能有效地干预它的运作,那么我们最好非常确定我们放入机器中的目标是我们真正想要的。

AI可以不懂幽默,但不能不懂生命至上的底线。

AI可以充满创造力,但不能失去对真实的敬畏。

这些问题没有标准答案,但思考本身,就是我们作为人类最宝贵的特质。


那么,今天我们来个小互动:

你有没有遇到过AI“胡说八道”的经历?当时你是怎么处理的?

  • A. 哈哈一笑,当作段子
  • B. 认真指出它的错误
  • C. 开始怀疑AI到底能不能用
  • D. 其他方式(欢迎评论区补充)

欢迎在评论区分享你的故事。如果你觉得这篇文章有帮助,也欢迎转发给身边的朋友。

我们下期见。


推荐阅读:

  • 《人工智能:一种现代方法》(第4版),斯图尔特·罗素 / 彼得·诺维格 著——AI领域的经典教材,从智能体的视角全面解析人工智能

标签: AI时代 #人工智能 #DeepSeek #科技反思 #阅读的力量

关注「爱分享读书」,获取深度解读及精选书单

爱分享读书公众号二维码

微信扫码关注

使用 Hugo 构建
主题 StackJimmy 设计
51LA统计