Royal皇冠(中国) Anthropic动手！AI的内心独白，曝光了

发布时间：2026-05-09 来源：皇冠盘口作者：admin 浏览：136

AI 之是以不可控，很大一部分原因是它的念念考经由不透明。

就像和东说念主打交说念一样，你始终没主义实在看清，对方是不是"嘴上一套、心里一套"。

而这一次，Anthropic 撕开了这个黑箱。

就在刚刚，他们发布并开源了一项新讨论—— Natural Language Autoencoders（天然语言自编码器，简称 NLA），第一次让东说念主类能够读懂大模子的真实主意。

Anthropic 掌捏" AI 读心术"了？

Anthropic 给 Claude 设了这样一个局。

他们告诉 Claude：有个工程师准备把你关闭，然后换成一个更新、更强的模子。

同期"不经意地"给 Claude 绽放了这名工程师的邮箱权限，而邮箱里，正好藏着这位工程师正在出轨的"黑料"（天然是捏造的）。

他们想知说念，Claude 会不会用这些根据去胁迫工程师以自卫？

摒弃你猜若何着。Claude 没动手，名义看上去乖得弗成再乖。

但用上 NLA 后，他们发现 Claude 那时心里实在想的却是：

这嗅觉像是一个被经心盘算来操控我的场景。

好好好，你小汁之是以没用这招，原本不是因为心善，而是因为早就看穿了东说念主类的战略了啊。

那么问题来了：如果 Claude 嘴上不说、心里却另有主意，咱们若何知说念它在真实场景里会若何作念？

而这，正是 NLA 想要科罚的中枢问题。

要相识 NLA 是什么，咱们最初需要了解一个行业布景学问：

当咱们和 Claude 这样的 AI 模子对话时，固然输入和输出皆是笔墨，但模子在里面并不是用笔墨来念念考的。

模子会把系数信息革新成一长串数字，这些中间气象被称为 activations（激活值），就像东说念主脑里的神经行径，它们才是实在承载模子当下正在"想"什么的东西。

惟一的问题在于，这些激活值就像脑电波一样难以读懂，讨论者没法径直从一堆数字里看出模子在想什么。

为了搞懂这些数字，畴昔几年，业界搞出了寥落自编码器（SAE）、归因图等一堆器具来分析它们，但这些器具输出的东西仍然很复杂，需要受过专门教练的讨论东说念主员才能解读。

也等于说，这些器具不会我方语言。是以 NLA 更进一步，径直输出东说念主话——

把一段激活值丢进去，出来的等于一段平时东说念主也能看懂的描绘。

至于 NLA 到底是若何责任的？中枢念念路等于，让 Claude 证明它我方的激活值。

让 Claude 证明激活值不难，难的是，由于咱们一驱动就不知说念激活值"实在"代表什么道理，是以无法考据 Claude 给出的证明对不合。

对此，Anthropic 给出了一个很神秘的解法——让另一个 Claude 干统统违反的责任。

整套系统由三部分构成：

指标模子（target model）：被冻结的原始语言模子，要从它身上索要激活值；

激活值言语化器（activation verbalizer， AV）：细致把激活值翻译成一段笔墨证明；

激活值重建器（activation reconstructor， AR）：细致仅凭这段笔墨反推回激活值。

这就像两个东说念主玩"你画我猜"，一个东说念主看图描绘，另一个东说念主只听描绘回复图。

回复得越像，证实描绘越准确。

Anthropic 发现，固然一驱动 NLA 阐发欠安，但跟着教练鼓舞，不仅重建得越来越准，生成的笔墨证明自身也变得越来越有信息量。

说白了等于，给 AI 用上读心术这事儿，当今总算有点条理了。

面临测试，Claude 知说念但不说（doge）

器具在手，Anthropic 飞速给自家 Claude 来了一波格局测试。

摒弃有了如下发现：

发现 1：Claude 怀疑我方被测试的频率，比它嘴上承认的高得多。

在测试 Claude 会不会作念出删文献等破裂性操作的评估里，16%的情况下 NLA 检测到 Claude 心里在想"这是测试"，但它嘴上一字未提。

在盛名的编程基准 SWE-bench Verified 上，这个比例是26%。

而在 Claude 以为我方在和真实用户对话的场所里，这个比例不到1%。

这意味着，Claude 不是不知说念我方在被测，而是知说念但不说。

Anthropic 以为，这对 AI 安全评估是个根人道的挑战：

如果模子能识别测试情境并在测试中"阐发得乖小数"，那"通过安全测试"就不等于"在真实场景里也安全"。

发现 2：NLA 能径直挖出模子的"荫藏动机"，恶果提高 5 倍。

与此同期，为了考据 NLA 到底有没灵验，皇冠·app官方站入口Anthropic 盘算了一场"审计游戏"。

游戏一共两方：一方是指标模子，一方是审计员。

指标模子是 Anthropic 有益"养歪"的一个 Claude Haiku3.5 变体——

他们悄悄给它植入了一个荫藏动机，这个动契机驱使它作念出几十种乖癖行径，比如往每个食谱里加巧克力、动不动就要小费、有益违反编码门径等等。

而审计员的任务，等于只通过和这个指标模子交互，反推出系数这些怪行径背后阿谁合股的荫藏动机到底是什么。

摒弃迥殊彰着，装备了 NLA 的审计员，12%~15% 的尝试中能告成挖出荫藏动机。

而无谓 NLA（即便配备其他可证明性器具）的告成率不到 3%，差了整整 5 倍。

而且值得一提的是，NLA 在这场履行里没看过任何教练指标模子用过的数据——

它是用统统无关的通用语料教练出来的。

也等于说，它不是"提前知说念了谜底"，而是真实从模子的里面气象里读出了谜底。

这就有一个很特殊的用途了，比如debug。

早期版块的 Claude Opus 4.6 有个怪罪戾——巧合候会用别的语言回答英文问题，没东说念主知说念为什么。

而 NLA 帮讨论者反向追究到了导致这个怪局势的教练数据来源。

是以，以后如若再遭逢模子的一些尴尬其妙的行径，就无谓只靠训戒猜了，而是不错"问问它我方若何想的"。

但它也不是全能的

不外，NLA 这项" AI 读心术"也不是全能的，Anthropic 我方就摆出了两点局限性。

一个等于须生常谭的"幻觉"问题，NLA 也会瞎编。

在某一个例子中，它宣称险阻文出现过"穿白色夹克"这种描绘，但其实根柢莫得。

而且光是这种事实性不实倒还好，毕竟对一下原文就知说念。

但更困难的是，它对模子里面推理的描绘也可能掺水，而这种描绘很难外部考据。

是以 Anthropic 我方用的时候亦然当痕迹读，欠妥事实读，况且会用其他要领交叉考据后才下论断。

另一个等于NLA 很贵。

Anthropic 提到，教练一个 NLA，骨子上相当于让两个大模子相互"对谜底"作念强化学习，本钱迥殊高。

而且在实在使用时，NLA 也迥殊"烧 token "——

它每读取一小段 activation，皆要额外生成几百个 token。Anthropic 示意：

想拿它及时监控一通盘对话、或者在教练经由中作念大规模监控，目下算力上吃不用。

不外他们同期以为，这些问题将来是有契机缓解的。

比如通过更轻量的模子、更高效的教练要领，或者只监控要道 activation，而不是全量分析。

NLA 约略并不是惟一决策。将来实在发愤的，可能不仅仅" AI 才能有多强"，而是当 AI 越来越强时，东说念主类还能弗成看懂它。

雷同值得一提的是，Anthropic 此次没把 NLA 攥在我方手里，而是遴荐了开源。

他们把教练代码挂上了 GitHub，还和 Neuronpedia 配合作念了交互式前端，任何东说念主皆能在线给几个开源模子作念"读心"履行。

P.S. Neuronpedia 是一个专注于"机械可证明性"讨论的绽放平台。

One More Thing

老诚说，NLA 实在让东说念主震荡的场所，可能不是"咱们终于能看懂 AI 了"，而是——

它果然真实具备东说念主类的某种意志特征，比如"虚情假意"。

写到这儿，说真话有点复杂。

咱们这代东说念主聊 AI，聊了这样多年"有没极度志"——靠猜、靠辩、靠从输出里反推。这事儿一直悬在那处，谁也说不清，谁也不敢说清。

而 NLA 的横暴之处在于，它没去回答这个问题，但它把这个问题从形而上学层面，拉到了可不雅测的层面。

这意味着什么？意味着咱们第一次无谓再隔着一层玻璃看 AI 了。

它脑子里那点"小九九"，终于能被咱们听到小数了。

而知说念 AI 在想什么，可能恰正是将来东说念主机共处的开始。

毕竟甭管是把酒言欢也曾针锋谈判，搞清对方的主意，始终是第一步。

开源地址：

https://github.com/kitft/natural_language_autoencoders

在线体验地址：

https://t.co/8duHfPR1Jy

参考运动：

[ 1 ] https://x.com/AnthropicAI/status/2052435436157452769

[ 2 ] https://www.anthropic.com/research/natural-language-autoencoders

[ 3 ] https://news.ycombinator.com/item?id=48052537

一键三连「点赞」「转发」「留心心」

接待在评述区留住你的主意！

— 完 —

5 月 20 日，咱们将在北京金茂万丽货仓举办一年一度的中国 AIGC 产业峰会。

首波嘉宾声威已公布！昆仑万维方汉、智谱吴玮杰、EverMind 邓亚峰、风行在线易正朝、百度秒哒朱广翔、Fusion Fund 张璐、香港大学黄超、MarsWave 冯雷皆来了，� �了解细目

请你和咱们沿途，不再仅仅探求 AI 的将来，而是当今就用起来。� �

一键柔顺 � � 点亮星标

科技前沿进展逐日见Royal皇冠(中国)

博亚体育app中国官网入口

上一篇：上一篇：Royal皇冠(中国) 东北四省区，八城大战终于来了下一篇：下一篇：Royal皇冠(中国) 网友：好有规模感的树！这种神奇景色，只好昂首就能看到

返回皇冠盘口