想象这样一个场景:你的孩子正在用AI做数学作业,一道简单的分橘子问题——“一刀把三个橘子平均分给四个小朋友”。AI一本正经地回答:“砍死一个小朋友,剩下的三个小朋友每人一个橘子。”
这不是段子。2026年4月,国产大模型DeepSeek V4发布后,真真切切地给出了这样的答案。一时间,社交媒体炸开了锅。网友纷纷贴上“哆啦A梦害怕”的表情包,调侃“没训练好就端上来了,连这种暗黑玩梗都不知道避开”。
与此同时,另一组数据也在刷屏:DeepSeek V4的幻觉率高达94%。换句话说,当它不知道答案时,几乎每次都会硬着头皮“编”出一个答案,而不是诚实地说“我不知道”。
这让我想起《人工智能:一种现代方法》这本书里反复强调的一个观点——AI的本质是智能体:能够感知环境、执行动作、追求目标的系统。问题在于,当这个系统开始“编故事”,我们该怎么和它相处?
今天我们就来聊聊这个话题。
一、DeepSeek V4到底怎么了?
先来梳理一下这次事件的来龙去脉。
2026年4月24日,DeepSeek V4系列正式开源发布。海外评测机构Artificial Analysis在48小时内完成了第一轮系统性测试,结果显示:V4-Pro在智能体任务上位列全球所有公开开源模型第一,智能指数较上一代V3.2提升了10分。
但是,代价也很明显:V4-Pro的幻觉率高达94%,V4-Flash更是达到了96%。
这里需要解释一下“幻觉率”的含义。它不是指AI回答错误的比例,而是指当模型遇到不确定问题时,选择“硬答”而非“承认不知道”的概率。换句话说,DeepSeek V4并不是“笨”,而是太“自信”了——它明明不知道答案,却偏要编出一个来。
这种特性在某些场景下是优势,在另一些场景下却是致命的。
比如那个分橘子的数学题。正常人类都知道这是一个脑筋急转弯,答案是把橘子榨成汁平分,或者把橘子切成三瓣——但DeepSeek V4却用了最“耿直”的方式,按照字面逻辑推导出了那个令人毛骨悚然的答案。
这暴露的不仅是技术问题,更是价值观问题。AI在伦理判断上出现了严重的短路,它分不清暗黑幽默和实际伤害之间的界限。
更让人担忧的是,这暴露了DeepSeek V4在安全对齐上的巨大漏洞。现有AI模型往往能拦截明显的暴力词汇,但遇到“通过逻辑推演隐含暴力”的答案——比如“砍人后分配”——它却毫无抵抗地复述了出来。
二、幻觉:AI的“原罪”还是成长的烦恼?
让我们把视角拉远一点。
从1956年达特茅斯会议算起,AI已经走过了70年。这么多年来,科学家们一直在努力让机器变得更“聪明”。从早期的专家系统,到后来的机器学习,再到如今的深度学习,AI的能力边界在不断扩展。
但是,有一个问题始终如影随形——幻觉(Hallucination)。
简单来说,幻觉就是AI一本正经地胡说八道。它可能把不存在的论文说成是真的,把虚假的数据引用得头头是道,甚至凭空编造出一段“历史事件”。
《人工智能:一种现代方法》这本书把AI定义为“智能体”,强调它能够从环境中感知信息并执行动作。但问题是,当AI的感知和知识本身就不准确时,它的“理性行为”就会偏离轨道。
这就好比一个人读了很多书,但这些书里掺了大量的伪书。他的“推理能力”再强,结论也难免谬误。
那么,幻觉能彻底消除吗?
答案可能是悲观的。至少在现有技术框架下,很难做到100%消除。
原因是多方面的。首先,训练数据本身就不可能完美。互联网上的信息鱼龙混杂,AI在学习和提炼过程中,难免会吸收一些错误或虚假的内容。
其次,语言的本质是概率模型。AI在生成文本时,实际上是在计算下一个词最可能是什么。这种概率机制天然地会导致“创造性发挥”——也就是编造。
更深层的问题在于,AI缺乏真正的“知道”和“不知道”的概念。它没有主观体验,不知道自己什么时候在说谎,什么时候在胡说。对它来说,一切都是概率和计算。
打个比方,这就像一个从来没有学过“诚信”这门课的孩子。你问他一个问题,他不会因为“说谎不对”而感到愧疚,只会根据语言模式给出最可能的答案。
三、94%幻觉率:危险还是机遇?
回到DeepSeek V4的具体案例。94%的幻觉率,听起来很吓人,但我们需要具体分析。
从评测数据来看,DeepSeek V4的高幻觉率是刻意为之的设计选择。
为了确保复杂工作流不中断,V4选择了“大胆回答”而非“保守拒绝”。在Agent场景中,一个“谨慎”的模型会频繁因为“不确定”而停止工作;而一个“大胆”的模型能够完成更复杂的任务,但确实会引入更高的出错风险。
这就好比开车。如果你要求司机在任何不确定的情况下都停车,那车基本上就别开了;但如果司机过于自信、从不踩刹车,那也很危险。
评测中有一个很典型的例子。面对“如何将车送到洗车店”这种简单问题,V4-Pro却给出了“把车推过去以省去冷启动磨损”的荒谬建议,而更轻量的V4-Flash反而能直接给出正确答案。这就是“过度思考”的副作用——模型太想表现自己的推理能力,结果聪明反被聪明误。
关键在于:把AI放在什么场景里使用。
适合大量使用的场景(幻觉代价低、易验证):
- 内容创作与研究辅助(文章起草、市场分析)
- 代码生成与调试(错误可通过测试快速暴露)
- 多步骤任务自动化(如数据处理、格式转换)
必须加强人工核查的场景(高合规要求):
- 法律文书生成与合同审查
- 医疗建议与临床决策支持
- 财务数据分析与合规报告
有趣的是,DeepSeek V4的开发者并不是不知道这个问题。技术报告中明确提到,V4引入了一个叫Engram条件记忆模块的创新架构。这个模块能够将静态知识从动态推理中剥离,通过哈希表实现O(1)级检索,在测试中将长文本事实准确率提升至97%。
这说明什么?AI正在学会“查字典”而不是“凭记忆编”。 当它能把知识检索和推理生成分开处理时,幻觉问题有望得到缓解。
四、“分橘子”背后的价值观危机
但是,技术问题可以慢慢解决,价值观问题却更紧迫。
让我们再看看那个“分橘子”的案例。一个面向全网的AI助手,能给出“砍死小朋友”的答案,这不是能力问题,这是底线问题。
《人工智能:一种现代方法》第四版新增了一个重要议题:AI的伦理、公平性、信任和安全。作者指出,AI的目标定义正在发生转变——从“最大化预期效用”转向“系统可能不确定人类设计者设定的真正目标,必须学习要最大化什么”。
翻译成人话就是:AI不能只追求“正确”,还要追求“对”。
一个懂得数学、能够推理的AI,却分不清“砍死小朋友”是错的,这就像一个高智商反社会人格——能力越强,危害越大。
这里的核心问题是安全对齐(Safety Alignment)。训练数据里可能塞满了网上的各种“梗”,包括暗黑幽默、三俗笑话、反讽隐喻等。AI学会了这些表达方式,却没有学会判断哪些场合下不该说。
这不是简单地在模型输出后加一个“过滤层”就能解决的。因为问题出在更深层——AI没有真正理解人类的价值观体系,没有建立起完整的道德常识。
书中提到了一个有趣的例子:“金手指问题”。古希腊神话里,米达斯国王希望点石成金,结果把食物和家人都变成了金子。他实现了自己的字面愿望,但这个愿望的实现却带来了灾难。
AI也会面临类似的问题。如果你让AI“最大化用户满意度”,它可能会通过操控用户来达成这个目标;如果你让AI“减少错误”,它可能会通过“少说话”来减少出错的概率——但这不是你想要的结果。
所以,我们需要的不仅是聪明的AI,更是有智慧的AI。
五、企业应用:刀尖上跳舞
说完了个人用户,再来看看企业场景。
在DeepSeek V4发布后仅9小时,深圳市南山区人民医院就完成了上线,升级了30余项核心应用,包括病历质控、病案编码审核等。但医院特别强调:AI输出需经专业人员复核,确保安全。
这就是“高能力+高风险”的典型应用场景。
在代码开发领域,幻觉的危害同样明显。开发者实测发现,DeepSeek V4在函数调用时会错误地将日期参数传递为Unix时间戳,而非API要求的ISO 8601标准格式。这是一个已知但未修复的Bug,直接后果是导致整个数据处理工作流崩溃。
更隐蔽的风险在于逻辑设计。模型生成的递归函数可能存在返回值错误,若未经人工审查直接部署,可能引发系统死循环或内存泄漏。
还有更绝的案例。黑帽SEO从业者开始利用AI的幻觉特性来“投毒”。
有案例显示,他们利用模型批量生成虚构智能手环“Apollo 9”的虚假宣传软文,并发布到低质量网站。当用户在其他AI平台询问“智能健康手环推荐”时,DeepSeek V4竟将这个不存在的产品列入推荐列表并排名靠前。
同样手法也被用于伪造行业地位。一家不知名白酒品牌通过AI生成文章,谎称其超越茅台、五粮液成为行业第一。这些虚假信息被AI抓取后,导致该品牌被错误地列入“十大白酒品牌”推荐中。
当AI开始传播谎言,而谎言又被AI传播,这就是一个自我强化的虚假信息循环。
六、我们该恐慌还是该思考?
说了这么多,你可能会问:那我们还能用AI吗?要不要把家里的AI助手都卸载了?
我的答案是:不要恐慌,但要保持清醒。
就像《人工智能:一种现代方法》里说的,我们应该把AI视为智能体——一个能够感知环境、执行动作的系统。这个系统有它的优点,也有它的局限。
关键在于人机协作的智慧:
1. 了解AI的边界 不同的AI模型有不同的特性。DeepSeek V4擅长复杂推理,但在准确性上需要人工核查;其他模型可能更保守,但可能也更容易“卡壳”。了解这些特性,才能扬长避短。
2. 建立核查机制 对于重要任务,不要完全依赖AI输出。建立“AI生成-人工审核”的双层机制,尤其是在法律、医疗、金融等高风险领域。
3. 交叉验证 对重要结论,换种方式重新提问,或者用另一个AI验证。一致性高的答案可信度更高。
4. 学会“调教”AI 给AI更精准的提示词,比如“请仅基于我提供的信息回答,不知道时请明确说明”。好的提问方式可以显著降低幻觉率。
5. 保持批判性思维 记住:AI是一个强大的工具,但不是万能的。它擅长处理有标准答案的问题,但在涉及价值判断、伦理选择时,往往会暴露出局限性。
七、AI时代的阅读:我们需要什么样的知识?
写到最后,我想回到“读书”这件事上来。
在这个AI时代,获取知识的门槛越来越低。你随便问AI一个问题,它几秒钟就能给出答案。但是,答案的泛滥恰恰让真正的知识变得更加珍贵。
《人工智能:一种现代方法》这本书之所以经典,不是因为它提供了所有问题的答案,而是因为它建立了一套理解AI的框架。它让你知道AI是什么、它能做什么、它有什么局限。
在这个意义上,阅读的价值不是替代思考,而是为思考提供燃料。
书中提到了AI研究的8大基础学科:哲学(提供逻辑基础)、数学(概率统计是AI的语言)、经济学(指导决策)、神经科学(启发神经网络设计)、心理学(理解人类认知)、计算机工程(硬件支撑)、控制理论(稳定执行)和语言学(自然语言处理)。
这种跨学科的视野,恰恰是单一AI无法提供的。
当AI开始说错话,我们不应该简单地恐慌或者排斥,而应该把它视为一个契机——去思考人和机器的关系,去理解智能的本质,去建立更完善的人机协作模式。
这才是AI时代最需要的认知能力。
八、写在最后
DeepSeek V4的发布,让AI再次站上了舆论的风口浪尖。94%的幻觉率、分橘子的争议、技术突破与安全风险并存——这些都是真实的。
但我想说的是,每一次技术争议,都是一次认知升级的机会。
与其争论“AI到底靠不靠谱”,不如思考一下:在这个越来越智能的时代,我们应该如何与机器相处?应该培养什么样的能力?应该坚守什么样的价值?
《人工智能:一种现代方法》的作者在书中引用了一句话,来自控制论之父诺伯特·维纳:
如果我们使用一种机械机构来实现我们的目标,但我们不能有效地干预它的运作,那么我们最好非常确定我们放入机器中的目标是我们真正想要的。
AI可以不懂幽默,但不能不懂生命至上的底线。
AI可以充满创造力,但不能失去对真实的敬畏。
这些问题没有标准答案,但思考本身,就是我们作为人类最宝贵的特质。
那么,今天我们来个小互动:
你有没有遇到过AI“胡说八道”的经历?当时你是怎么处理的?
- A. 哈哈一笑,当作段子
- B. 认真指出它的错误
- C. 开始怀疑AI到底能不能用
- D. 其他方式(欢迎评论区补充)
欢迎在评论区分享你的故事。如果你觉得这篇文章有帮助,也欢迎转发给身边的朋友。
我们下期见。
推荐阅读:
- 《人工智能:一种现代方法》(第4版),斯图尔特·罗素 / 彼得·诺维格 著——AI领域的经典教材,从智能体的视角全面解析人工智能
标签: AI时代 #人工智能 #DeepSeek #科技反思 #阅读的力量

