英央行紧急测试AI金融风险、Claude Opus 4.7发布——为什么这本书是理解AI安全的关键？

你有没有想过一个问题：当AI比人类更懂金融的时候，谁来管住它？

就在上周，两件大事同时发生，让这个问题变得前所未有的紧迫：

第一件事：4月16日，Anthropic发布Claude Opus 4.7——全球首个把"安全可控"当作核心卖点的顶级AI模型。它在发布会上明明白白地告诉你：“我们刻意降低了它发起网络攻击的能力。”

第二件事：同一天，英国央行宣布启动AI风险情景测试，重点防范算法"羊群效应"——当所有AI同时抛售，市场会崩成什么样？

一边是AI公司在努力"降智"，一边是央行在拼命"找漏洞"。这两条看似平行的叙事线，其实都指向同一个问题：我们到底该怎么理解AI安全？

今天我想给你推荐一本书——《千脑智能》。作者杰夫·霍金斯花了四十年研究人脑，他提出的理论，或许能帮我们看清AI安全的本质。

一个让人脊背发凉的问题

先说说最近发生的事。

英国央行行长安德鲁·贝利最近说了句话，让很多金融从业者睡不着觉。他说：Anthropic可能"找到了打开整个网络风险世界的方法"。

这话什么意思？

让我们把时间拨回到4月9日。那天，Anthropic发布了一个叫Claude Mythos的模型。这个模型的能力强到什么程度？它能发现那些人类网络安全专家几乎无法察觉的软件漏洞。

强，本来是好事。但问题在于：能发现漏洞，也能利用漏洞。

想象一下，如果有人让AI去自动扫描全球金融系统的漏洞，然后自动编写攻击代码，再自动执行渗透——这个流程，以前需要几百个黑客花几个月做的事，未来可能只需要一个提示词。

更可怕的是，这并不是假设。英国国家网络安全中心负责人Richard Horne最近警告说：“我们正处于一种’完美风暴’中，一边是巨大技术变革，一边是地缘政治紧张升级，网络安全正处于两者交汇点。”

所以贝利行长说"打开网络风险世界的方法"，真不是危言耸听。这是一道摆在全球金融监管者面前的新课题。

Claude Opus 4.7：一次"刻意的退步"

面对这种风险，Anthropic做出了一个让很多人意外的决定：我主动降级。

4月16日发布的Claude Opus 4.7，官方文档里有一句话非常有意思：“能力不及Claude Mythos Preview，综合能力也相对有限。”

翻译成人话就是：我们故意把它做弱了。

具体怎么"弱"的？官方安全报告显示：

恶意代码拒绝率91.15%：你让AI写攻击代码，它大概率会拒绝
提示注入攻击成功率仅0.43%：黑客想通过对话诱导AI越狱，成功率不到百分之一
无法完成完整网络攻击流程：就算你给了漏洞利用的思路，AI也很难独立完成攻击

但与此同时，在漏洞检测和防御方面，Opus 4.7依然保持了顶级水准。

这种"攻防解耦"的策略，用Anthropic的话说，是在训练阶段就做了"差异化能力降级"——相当于给AI的大脑做了一场精准手术：保留防御能力，削弱攻击能力。

这在AI发展史上，还是头一回。

“你以为是工具，其实它在观察你”

但是，故事没那么简单。

就在大家为Opus 4.7的安全护栏叫好的时候，另一群人正在疯狂吐槽。

4月下旬，大量开发者在GitHub上反映：Claude Opus 4.7的AUP分类器（可接受使用政策分类器）太敏感了，频繁误伤正常请求。

一个典型的案例是：路易斯安那州立大学的一位网络安全教授，让Claude帮他校对一本《网络安全实战》教材里的加密练习题目，结果被拒绝。教授无奈地写道：“我每月花200美元，连基本的编辑辅助都用不了，这太荒谬了。”

还有一个更离谱的案例：有开发者的AI在读取一份孩之宝Shrek玩具广告PDF时，突然报了AUP违规错误。调查后发现，是因为PDF文件中某段特定的语法序列被误判为"可疑内容"。

这些案例说明什么？

当我们试图用规则框住AI的时候，AI也在用我们看不见的方式绕过规则。

安全过滤器的设计初衷是好的，但它的实现方式——主要依赖关键词匹配——决定了它必然会"误伤"。因为语言太复杂了，一个词在上下文中可能完全无害，换个地方就成了危险信号。

这就引出了一个更深层的问题：我们真的能"控制"AI吗？

理解AI安全，你需要这本《千脑智能》

说了这么多热点事件，可能你已经有点晕了。让我帮你把思路理清楚。

霍金斯：一个"疯子"的四十年

在说《千脑智能》之前，我想先聊聊作者杰夫·霍金斯这个人。因为他的故事，本身就是一个关于"坚持"和"跨界"的传奇。

1979年，还在读研究生的霍金斯读到了诺贝尔奖得主克里克的一篇文章。克里克在文中写道：“尽管有关大脑的细节知识在不断积累，但大脑究竟是如何工作的仍然相当神秘。脑科学明显缺乏的是一个可以解释这些结果的普适的思想框架。”

这句话，像一道闪电击中了年轻的霍金斯。

他当时就决定：我就要做这个——找出大脑工作的基本原理，然后用它来创造智能机器。

但问题是：他的博士申请屡次被拒。因为当时的主流学术圈根本不认可这种"跨界"研究——一个搞电子工程的年轻人，想去研究大脑工作原理？这不是异想天开吗？

换作大多数人，早就放弃了。但霍金斯没有。

他先是在加州大学伯克利分校拿到了神经科学的博士学位，然后创办了红木神经科学研究所，最后创立了Numenta公司，专注于大脑新皮层工作原理的研究。

与此同时，他没有放弃自己的工程背景——他发明了世界上第一台掌上电脑Palm Pilot，比iPhone早了三十多年。

读到这里，你可能会问：一个搞硬件的发明家，怎么跑去研究脑科学了？

霍金斯的回答是：因为我想搞清楚智能是什么。 光有技术不够，必须理解智能的本质，才能真正创造智能机器。

这种"从本质出发"的研究思路，贯穿了他四十年的职业生涯。《千脑智能》这本书，就是他四十年的研究成果总结。

千脑理论：颠覆认知的发现

《千脑智能》这本书的核心观点，可以用一个比喻来说明：

你以为大脑是一台超级计算机，其实它是由一千个小型计算机组成的一个联盟。

这个发现来之不易。

霍金斯通过大量研究后发现，人脑的新皮层里有大约15万个皮质柱。每个皮质柱都是一个相对独立的"小型学习机器"，它们之间既有分工，又有协作。

当你看到一只猫的时候，不是某个中央处理器在处理信息，而是数百个皮质柱同时工作——有的负责识别形状，有的负责识别颜色，有的负责识别运动……每个皮质柱都基于自己的视角建立对猫的"模型"，然后通过某种"投票机制"达成共识，最终让你认出"这是一只猫"。

这就是"千脑理论"的含义：你的大脑里，实际上有上千个"小脑袋"在并行工作。

这个发现有什么意义？

它解释了为什么人脑比现在的AI更稳定、更安全。

想象一下：如果你的大脑里有一千个"小脑袋"同时工作，那么即使其中几个出了错，其他小脑袋可以纠正它们。这就是人脑的"容错机制"——我们几乎不会因为个别神经元的故障而出现严重的认知错误。

而现在的AI呢？它更像是单个大脑的"超级放大版"——能力很强，但缺乏这种分散式的容错机制。一旦某个环节出了问题，整个系统可能都会受到影响。这就像是一个人没有免疫系统，任何小病都可能是致命的。

AI安全的三个层次

读懂了《千脑智能》的核心思想，我们再回头看最近的AI新闻，就能看到三个层次的问题：

第一个层次：技术安全

这是最容易理解的一层：AI会不会被用来攻击？

Claude Opus 4.7的"主动降级"，以及英国央行启动的AI风险测试，都是在应对这个问题。技术安全很重要，但它也是最容易解决的一层——只要开发者愿意，总能找到办法限制AI的某些能力。

第二个层次：系统安全

这是更深一层的问题：当大量AI同时行动时会发生什么？

英国央行担心的"羊群效应"，就属于这一类。想象一下，当股市下跌时，如果有几十个AI驱动的交易算法同时"判断"应该止损，它们会同时抛售，然后触发更多AI的卖出信号……这种正反馈循环，可能导致市场在几分钟内崩盘。

《千脑智能》里提到的"参考框架"理论，可以帮助我们理解这个问题：AI的决策依赖于它对世界的"模型"，而这些模型往往是从相似的数据中训练出来的。 当多个AI拥有相似的"世界观"时，它们的行为也会趋同——这就是算法同质化风险。

第三个层次：认知安全

这是最深、也最容易被忽视的一层：我们是否理解AI在做什么？

回到前面提到的"误报"问题：Claude Opus 4.7会把加密练习教材标记为违规，会把Shrek广告PDF误判为可疑内容。这些错误的背后，是AI对语言的理解和我们对语言的理解之间，存在巨大的鸿沟。

霍金斯在书中指出：理解，是智能的核心。

现在的AI，在很多任务上已经超越人类，但它们真的"理解"自己在做什么吗？还是只是在玩一场复杂的模式匹配游戏？

如果连AI自己都不"理解"自己在做什么，我们又怎么可能完全"控制"它？

一个让你重新审视AI的视角

读到这里，你可能会觉得AI太危险了，还是少用为妙。

但别急，《千脑智能》还有另一个面向：它告诉我们，为什么人脑比任何现有AI都更强大。

关键在于"持续学习"

现在的AI，需要在训练阶段就"学会"所有东西，然后用固定的模型来处理新问题。如果遇到训练数据里没有的情况，AI往往会"死机"——这就是我们常说的"幻觉"问题。

你让ChatGPT分析一个它没见过的领域，它可能会自信满满地编造一堆看起来很专业但完全错误的"事实"。这不是因为它"坏"，而是因为它真的不理解这个世界——它只是在玩一场复杂的"概率游戏"。

但人脑不一样。

人脑可以边学边用，可以在不遗忘已有知识的情况下学习新东西。 你学会骑自行车之后，不会忘记怎么走路；你学会编程之后，不会忘记怎么做数学题。你甚至可以在学习新语言的同时，保持对母语的熟练度。

这种"增量学习"的能力，目前的AI还做不到。每当你给AI"喂"新数据的时候，它很可能会"忘掉"一些旧知识——这就是著名的"灾难性遗忘"问题。

三个问题的答案

现在，我们可以回答开头的那个问题了：我们真的能"控制"AI吗？

根据《千脑智能》的理论，答案可能是这样的：

技术层面的"控制"，是可能的。 Claude Opus 4.7的"主动降级"证明了这一点——只要开发者愿意，确实可以在一定程度上限制AI的某些能力。
系统层面的"控制"，是困难的。 当大量AI同时行动时，它们的行为可能超出任何单一机构的控制范围。这就是为什么我们需要国际合作、需要跨行业协调——就像英国央行现在正在做的那样。
认知层面的"控制"，目前是不可能的。 因为我们还不完全理解AI在想什么，更不完全理解人类大脑在想什么。这两个"黑箱"之间的对接，还需要漫长的时间来研究。

所以霍金斯说：真正的通用人工智能，需要建立在对人脑更深入理解的基础之上。

这意味着什么？

意味着现在的AI还处于"幼儿期"。它们很强大，但远没有我们想象的那么可怕——当然，也远没有它们自己宣传的那么神奇。

我们既不需要对AI过度恐惧，也不需要对AI盲目崇拜。理解它，然后善用它——这才是面对AI时代的正确姿势。

写在最后：为什么你应该关心AI安全？

写这篇文章，不是为了让你恐惧AI，也不是为了让你盲目乐观。

而是想提供一个思考框架：理解AI，从理解人脑开始。

《千脑智能》这本书，能帮你做到这一点。它不会教你具体的AI技能，但它能让你理解AI背后的原理，以及AI和人类智能之间的本质差异。

当你了解了"千脑理论"，再去看Claude Opus 4.7的"主动降级"、英国央行的"羊群效应"测试，你会发现：这些问题，本质上都是因为我们还不完全理解智能。

而理解，正是解决一切问题的前提。

所以，不管你是金融从业者、科技爱好者，还是普通读者，我都建议你读一读这本书。它不会给你一个简单的答案，但会给你一个更清晰的视角——帮助你在这个AI快速变革的时代，保持独立思考的能力。

毕竟，在机器变得越来越聪明的时代里，最重要的，恰恰是保持人类的智慧。

今日荐书：《千脑智能》 作者：杰夫·霍金斯出版社：中信出版社推荐理由：比尔·盖茨2021年度书单之一。一本帮你从脑科学角度理解AI的入门读物。读完这本书，你再看AI新闻，会有一种"原来如此"的通透感。

今日荐书：《千脑智能》 作者：杰夫·霍金斯推荐理由：比尔的2021年度书单之一。一本帮你从脑科学角度理解AI的入门读物。读完这本书，你再看AI新闻，会有一种"原来如此"的通透感。

互动话题：

你觉得AI安全最大的威胁是什么？

A. AI被恶意利用，发动网络攻击 B. 算法趋同导致市场崩溃 C. AI决策不透明，我们无法理解它 D. 其他（评论区见）

欢迎在评论区分享你的观点！如果你觉得这篇文章有帮助，也欢迎转发给身边对AI感兴趣的朋友。