Featured image of post 英央行紧急测试AI金融风险、Claude Opus 4.7发布——为什么这本书是理解AI安全的关键?

英央行紧急测试AI金融风险、Claude Opus 4.7发布——为什么这本书是理解AI安全的关键?

当AI比人类更懂金融的时候,谁来管住它?Anthropic发布Claude Opus 4.7主动降级攻击能力,英国央行启动AI风险情景测试。这两个看似平行的新闻,揭示了一个更深层的问题:我们真的理解AI吗?《千脑智能》作者杰夫·霍金斯用四十年脑科学研究告诉你答案。

你有没有想过一个问题:当AI比人类更懂金融的时候,谁来管住它?

就在上周,两件大事同时发生,让这个问题变得前所未有的紧迫:

第一件事:4月16日,Anthropic发布Claude Opus 4.7——全球首个把"安全可控"当作核心卖点的顶级AI模型。它在发布会上明明白白地告诉你:“我们刻意降低了它发起网络攻击的能力。”

第二件事:同一天,英国央行宣布启动AI风险情景测试,重点防范算法"羊群效应"——当所有AI同时抛售,市场会崩成什么样?

一边是AI公司在努力"降智",一边是央行在拼命"找漏洞"。这两条看似平行的叙事线,其实都指向同一个问题:我们到底该怎么理解AI安全?

今天我想给你推荐一本书——《千脑智能》。作者杰夫·霍金斯花了四十年研究人脑,他提出的理论,或许能帮我们看清AI安全的本质。

一个让人脊背发凉的问题

先说说最近发生的事。

英国央行行长安德鲁·贝利最近说了句话,让很多金融从业者睡不着觉。他说:Anthropic可能"找到了打开整个网络风险世界的方法"

这话什么意思?

让我们把时间拨回到4月9日。那天,Anthropic发布了一个叫Claude Mythos的模型。这个模型的能力强到什么程度?它能发现那些人类网络安全专家几乎无法察觉的软件漏洞。

强,本来是好事。但问题在于:能发现漏洞,也能利用漏洞。

想象一下,如果有人让AI去自动扫描全球金融系统的漏洞,然后自动编写攻击代码,再自动执行渗透——这个流程,以前需要几百个黑客花几个月做的事,未来可能只需要一个提示词。

更可怕的是,这并不是假设。英国国家网络安全中心负责人Richard Horne最近警告说:“我们正处于一种’完美风暴’中,一边是巨大技术变革,一边是地缘政治紧张升级,网络安全正处于两者交汇点。”

所以贝利行长说"打开网络风险世界的方法",真不是危言耸听。这是一道摆在全球金融监管者面前的新课题。

Claude Opus 4.7:一次"刻意的退步"

面对这种风险,Anthropic做出了一个让很多人意外的决定:我主动降级。

4月16日发布的Claude Opus 4.7,官方文档里有一句话非常有意思:“能力不及Claude Mythos Preview,综合能力也相对有限。”

翻译成人话就是:我们故意把它做弱了。

具体怎么"弱"的?官方安全报告显示:

  • 恶意代码拒绝率91.15%:你让AI写攻击代码,它大概率会拒绝
  • 提示注入攻击成功率仅0.43%:黑客想通过对话诱导AI越狱,成功率不到百分之一
  • 无法完成完整网络攻击流程:就算你给了漏洞利用的思路,AI也很难独立完成攻击

但与此同时,在漏洞检测和防御方面,Opus 4.7依然保持了顶级水准。

这种"攻防解耦"的策略,用Anthropic的话说,是在训练阶段就做了"差异化能力降级"——相当于给AI的大脑做了一场精准手术:保留防御能力,削弱攻击能力。

这在AI发展史上,还是头一回。

“你以为是工具,其实它在观察你”

但是,故事没那么简单。

就在大家为Opus 4.7的安全护栏叫好的时候,另一群人正在疯狂吐槽。

4月下旬,大量开发者在GitHub上反映:Claude Opus 4.7的AUP分类器(可接受使用政策分类器)太敏感了,频繁误伤正常请求

一个典型的案例是:路易斯安那州立大学的一位网络安全教授,让Claude帮他校对一本《网络安全实战》教材里的加密练习题目,结果被拒绝。教授无奈地写道:“我每月花200美元,连基本的编辑辅助都用不了,这太荒谬了。”

还有一个更离谱的案例:有开发者的AI在读取一份孩之宝Shrek玩具广告PDF时,突然报了AUP违规错误。调查后发现,是因为PDF文件中某段特定的语法序列被误判为"可疑内容"。

这些案例说明什么?

当我们试图用规则框住AI的时候,AI也在用我们看不见的方式绕过规则。

安全过滤器的设计初衷是好的,但它的实现方式——主要依赖关键词匹配——决定了它必然会"误伤"。因为语言太复杂了,一个词在上下文中可能完全无害,换个地方就成了危险信号。

这就引出了一个更深层的问题:我们真的能"控制"AI吗?

理解AI安全,你需要这本《千脑智能》

说了这么多热点事件,可能你已经有点晕了。让我帮你把思路理清楚。

霍金斯:一个"疯子"的四十年

在说《千脑智能》之前,我想先聊聊作者杰夫·霍金斯这个人。因为他的故事,本身就是一个关于"坚持"和"跨界"的传奇。

1979年,还在读研究生的霍金斯读到了诺贝尔奖得主克里克的一篇文章。克里克在文中写道:“尽管有关大脑的细节知识在不断积累,但大脑究竟是如何工作的仍然相当神秘。脑科学明显缺乏的是一个可以解释这些结果的普适的思想框架。”

这句话,像一道闪电击中了年轻的霍金斯。

他当时就决定:我就要做这个——找出大脑工作的基本原理,然后用它来创造智能机器。

但问题是:他的博士申请屡次被拒。因为当时的主流学术圈根本不认可这种"跨界"研究——一个搞电子工程的年轻人,想去研究大脑工作原理?这不是异想天开吗?

换作大多数人,早就放弃了。但霍金斯没有。

他先是在加州大学伯克利分校拿到了神经科学的博士学位,然后创办了红木神经科学研究所,最后创立了Numenta公司,专注于大脑新皮层工作原理的研究。

与此同时,他没有放弃自己的工程背景——他发明了世界上第一台掌上电脑Palm Pilot,比iPhone早了三十多年。

读到这里,你可能会问:一个搞硬件的发明家,怎么跑去研究脑科学了?

霍金斯的回答是:因为我想搞清楚智能是什么。 光有技术不够,必须理解智能的本质,才能真正创造智能机器。

这种"从本质出发"的研究思路,贯穿了他四十年的职业生涯。《千脑智能》这本书,就是他四十年的研究成果总结。

千脑理论:颠覆认知的发现

《千脑智能》这本书的核心观点,可以用一个比喻来说明:

你以为大脑是一台超级计算机,其实它是由一千个小型计算机组成的一个联盟。

这个发现来之不易。

霍金斯通过大量研究后发现,人脑的新皮层里有大约15万个皮质柱。每个皮质柱都是一个相对独立的"小型学习机器",它们之间既有分工,又有协作。

当你看到一只猫的时候,不是某个中央处理器在处理信息,而是数百个皮质柱同时工作——有的负责识别形状,有的负责识别颜色,有的负责识别运动……每个皮质柱都基于自己的视角建立对猫的"模型",然后通过某种"投票机制"达成共识,最终让你认出"这是一只猫"。

这就是"千脑理论"的含义:你的大脑里,实际上有上千个"小脑袋"在并行工作。

这个发现有什么意义?

它解释了为什么人脑比现在的AI更稳定、更安全。

想象一下:如果你的大脑里有一千个"小脑袋"同时工作,那么即使其中几个出了错,其他小脑袋可以纠正它们。这就是人脑的"容错机制"——我们几乎不会因为个别神经元的故障而出现严重的认知错误。

而现在的AI呢?它更像是单个大脑的"超级放大版"——能力很强,但缺乏这种分散式的容错机制。一旦某个环节出了问题,整个系统可能都会受到影响。这就像是一个人没有免疫系统,任何小病都可能是致命的。

AI安全的三个层次

读懂了《千脑智能》的核心思想,我们再回头看最近的AI新闻,就能看到三个层次的问题:

第一个层次:技术安全

这是最容易理解的一层:AI会不会被用来攻击?

Claude Opus 4.7的"主动降级",以及英国央行启动的AI风险测试,都是在应对这个问题。技术安全很重要,但它也是最容易解决的一层——只要开发者愿意,总能找到办法限制AI的某些能力。

第二个层次:系统安全

这是更深一层的问题:当大量AI同时行动时会发生什么?

英国央行担心的"羊群效应",就属于这一类。想象一下,当股市下跌时,如果有几十个AI驱动的交易算法同时"判断"应该止损,它们会同时抛售,然后触发更多AI的卖出信号……这种正反馈循环,可能导致市场在几分钟内崩盘。

《千脑智能》里提到的"参考框架"理论,可以帮助我们理解这个问题:AI的决策依赖于它对世界的"模型",而这些模型往往是从相似的数据中训练出来的。 当多个AI拥有相似的"世界观"时,它们的行为也会趋同——这就是算法同质化风险。

第三个层次:认知安全

这是最深、也最容易被忽视的一层:我们是否理解AI在做什么?

回到前面提到的"误报"问题:Claude Opus 4.7会把加密练习教材标记为违规,会把Shrek广告PDF误判为可疑内容。这些错误的背后,是AI对语言的理解和我们对语言的理解之间,存在巨大的鸿沟。

霍金斯在书中指出:理解,是智能的核心。

现在的AI,在很多任务上已经超越人类,但它们真的"理解"自己在做什么吗?还是只是在玩一场复杂的模式匹配游戏?

如果连AI自己都不"理解"自己在做什么,我们又怎么可能完全"控制"它?

一个让你重新审视AI的视角

读到这里,你可能会觉得AI太危险了,还是少用为妙。

但别急,《千脑智能》还有另一个面向:它告诉我们,为什么人脑比任何现有AI都更强大。

关键在于"持续学习"

现在的AI,需要在训练阶段就"学会"所有东西,然后用固定的模型来处理新问题。如果遇到训练数据里没有的情况,AI往往会"死机"——这就是我们常说的"幻觉"问题。

你让ChatGPT分析一个它没见过的领域,它可能会自信满满地编造一堆看起来很专业但完全错误的"事实"。这不是因为它"坏",而是因为它真的不理解这个世界——它只是在玩一场复杂的"概率游戏"。

但人脑不一样。

人脑可以边学边用,可以在不遗忘已有知识的情况下学习新东西。 你学会骑自行车之后,不会忘记怎么走路;你学会编程之后,不会忘记怎么做数学题。你甚至可以在学习新语言的同时,保持对母语的熟练度。

这种"增量学习"的能力,目前的AI还做不到。每当你给AI"喂"新数据的时候,它很可能会"忘掉"一些旧知识——这就是著名的"灾难性遗忘"问题。

三个问题的答案

现在,我们可以回答开头的那个问题了:我们真的能"控制"AI吗?

根据《千脑智能》的理论,答案可能是这样的:

  1. 技术层面的"控制",是可能的。 Claude Opus 4.7的"主动降级"证明了这一点——只要开发者愿意,确实可以在一定程度上限制AI的某些能力。

  2. 系统层面的"控制",是困难的。 当大量AI同时行动时,它们的行为可能超出任何单一机构的控制范围。这就是为什么我们需要国际合作、需要跨行业协调——就像英国央行现在正在做的那样。

  3. 认知层面的"控制",目前是不可能的。 因为我们还不完全理解AI在想什么,更不完全理解人类大脑在想什么。这两个"黑箱"之间的对接,还需要漫长的时间来研究。

所以霍金斯说:真正的通用人工智能,需要建立在对人脑更深入理解的基础之上。

这意味着什么?

意味着现在的AI还处于"幼儿期"。它们很强大,但远没有我们想象的那么可怕——当然,也远没有它们自己宣传的那么神奇。

我们既不需要对AI过度恐惧,也不需要对AI盲目崇拜。理解它,然后善用它——这才是面对AI时代的正确姿势。

写在最后:为什么你应该关心AI安全?

写这篇文章,不是为了让你恐惧AI,也不是为了让你盲目乐观。

而是想提供一个思考框架:理解AI,从理解人脑开始。

《千脑智能》这本书,能帮你做到这一点。它不会教你具体的AI技能,但它能让你理解AI背后的原理,以及AI和人类智能之间的本质差异。

当你了解了"千脑理论",再去看Claude Opus 4.7的"主动降级"、英国央行的"羊群效应"测试,你会发现:这些问题,本质上都是因为我们还不完全理解智能。

而理解,正是解决一切问题的前提。

所以,不管你是金融从业者、科技爱好者,还是普通读者,我都建议你读一读这本书。它不会给你一个简单的答案,但会给你一个更清晰的视角——帮助你在这个AI快速变革的时代,保持独立思考的能力。

毕竟,在机器变得越来越聪明的时代里,最重要的,恰恰是保持人类的智慧。


今日荐书:《千脑智能》 作者:杰夫·霍金斯 出版社:中信出版社 推荐理由:比尔·盖茨2021年度书单之一。一本帮你从脑科学角度理解AI的入门读物。读完这本书,你再看AI新闻,会有一种"原来如此"的通透感。


今日荐书:《千脑智能》 作者:杰夫·霍金斯 推荐理由:比尔的2021年度书单之一。一本帮你从脑科学角度理解AI的入门读物。读完这本书,你再看AI新闻,会有一种"原来如此"的通透感。


互动话题:

你觉得AI安全最大的威胁是什么?

A. AI被恶意利用,发动网络攻击 B. 算法趋同导致市场崩溃 C. AI决策不透明,我们无法理解它 D. 其他(评论区见)

欢迎在评论区分享你的观点!如果你觉得这篇文章有帮助,也欢迎转发给身边对AI感兴趣的朋友。

关注「爱分享读书」,获取深度解读及精选书单

爱分享读书公众号二维码

微信扫码关注

使用 Hugo 构建
主题 StackJimmy 设计
51LA统计