四个口袋

京夜微疯著

四个口袋

人与AI的取舍之书

第一章：手电筒与注意力

一、看不见的大猩猩

1999年，哈佛大学心理学家Daniel Simons和Christopher Chabris做了一个实验。后来全世界六千多万人在YouTube上看过这个实验的视频，但绝大多数人在第一次看的时候都掉进了同一个陷阱。

实验很简单：屏幕上有两队人在传篮球，一队穿白衣服，一队穿黑衣服。你的任务是数白衣服队传了几次球。

你开始数。专心地数。3次、4次、5次……大约三十秒后，一个穿着大猩猩玩偶服装的人从画面右侧走进来，走到场地中央，面对镜头捶了捶胸口，然后大摇大摆地走出画面。整个过程持续了九秒。

实验结束后，Simons问受试者：你看到大猩猩了吗？

超过一半的人说：什么大猩猩？

不是敷衍。不是开玩笑。他们真的没看见。

Simons把视频倒回去给他们看。大猩猩就在画面正中央，停留了九秒钟，还捶了胸口。受试者的反应通常是某种程度的震惊，然后是怀疑——怀疑第一次看的是不是同一段视频。

是同一段。你的眼睛接收到了大猩猩的光信号。你的视网膜忠实地把它编码成了神经冲动，通过视神经发送到了大脑。但这个信号在到达意识之前就被丢弃了——因为你的意识正全力以赴地数传球次数，没有多余的资源分配给一只大猩猩。

这个现象叫"非注意盲视"（inattentional blindness）。关键词是"盲"。不是"忽视"——忽视意味着你看见了但选择不理会。盲意味着你根本没看见。你的意识世界里，那只大猩猩不存在。

二、魔术师知道的事

有一群人几千年前就发现了这个秘密，并且靠它吃饭。

魔术师。

你看过近景魔术吗？魔术师左手举起一枚硬币，在你面前晃了晃，说"看好了"——你的注意力对准了那枚硬币。与此同时，他的右手在你的视野边缘完成了真正的动作：从袖口里取出第二枚硬币、把牌塞进口袋、把丝巾藏到桌子底下。你的眼睛看见了他右手的动作——光线进了你的视网膜——但你的注意力没有分配到那里。所以你没"看见"。

魔术师骗的不是你的眼睛。你的眼睛什么都收到了。他骗的是你的注意力分配系统——他利用你一次只能专注一个方向这个硬件限制，用左手吸引你的焦点，然后在焦点之外干活。

Simons的大猩猩实验里，没有人故意骗你。你自己的注意力分配造成了盲区。魔术师做的事更厉害——他故意制造你的盲区。他比你更了解你的注意力怎么工作。

你的意识像一束手电筒。照到的地方很亮——你能看清细节、做出判断、形成记忆。手电筒之外不是暗，是黑。黑到大猩猩走过你面前你都不知道。黑到魔术师在你眼皮底下换了一副牌你都看不见。

三、AI的手电筒长什么样

2017年，Google的八位研究者发表了一篇论文。标题只有五个英文单词：

Attention Is All You Need.

注意力是你所需要的一切。

这不是随便起的名字。这篇论文提出了Transformer架构——今天所有大语言模型的基础——它的核心机制叫"自注意力"。做的事跟你的大脑惊人地相似：在一堆信息里，选择哪些重要、哪些不重要。

具体说：当模型处理一段文字时，它让每个词去"看"其他所有词，计算它们之间的相关性。"小明在北京大学学习法律"——处理到"法律"时，模型会给"学习"和"大学"分配较高的权重，给"小明"和"在"分配较低的权重。因为在这个语境里，"法律"跟"学习"的关系比跟"小明"的关系更紧密。

权重高的信号被放大，权重低的信号被压低。这就是取舍。跟你的大脑在做的事情一样的逻辑。

但有一个关键区别。

你的手电筒一次只能照一个方向。模型的注意力机制不是一束手电筒——它有几十个甚至上百个"头"（head），每个头关注不同的维度，同时工作。它更像一排射灯，每盏照一个角度，合在一起覆盖面远超你那单束手电筒。

所以AI没有大猩猩问题——它不会因为在数传球就看不见大猩猩。它同时看见了传球和大猩猩和场地边的观众和天花板上的灯。

这听起来像绝对的优势。没有盲区。没有错过。没有魔术师能骗它。

四、没有盲区的代价

但没有手电筒就没有方向。什么都看得见的东西，不需要对准任何地方。

想想大猩猩实验里那些受试者事后得知真相的反应——"什么？！大猩猩？！"——那种混合着震惊和好笑的感觉。那叫惊讶。惊讶只属于会犯错的生物。你因为全神贯注而错过了什么，然后发现自己错过了——这个发现让你意识到：原来我以为看见了一切，其实只看见了一丁点。

AI不会有这个时刻。它什么都看见了，所以永远不会发现自己遗漏了什么。这不意味着AI"不清醒"——"清醒"这个词太大了，没人能给它下定义。但至少可以说：一个永远不会发现自己错了的东西，少了一种自我修正的入口。

而且AI有另一种"盲区"——不是注意力的盲区，而是训练数据的盲区。它的手电筒可以同时照所有方向，但它只能照到训练数据里有的东西。训练集里没有的语言、没有的文化、没有的观点，对它来说就像大猩猩对你一样——不存在。

你的盲区是注意力造成的。AI的盲区是数据造成的。你不知道自己看漏了什么。AI不知道自己没学过什么。

两种盲区，两种断舍离。

你的断舍离发生在每一秒——手电筒照这里就照不了那里。
AI的断舍离发生在训练之前——数据选了这些就没选那些。

但有一个区别：你可以在某一刻惊讶地发现"我居然错过了大猩猩"。AI不会惊讶。它不知道自己的训练数据里缺了什么——就像你不知道你看不见的颜色长什么样。

手电筒窄，但窄意味着你必须选方向。选方向就会错过。偶尔你会发现自己错过了重要的东西。那个发现——不舒服的、让你怀疑自己的发现——就是觉醒的种子。

好了。手电筒每次只能照一个方向。但你的口袋里能同时装几样东西？AI的口袋又能装多少？下一章聊这个——答案可能让你重新理解"聪明"到底是什么意思。

第二章：四个口袋与十万个口袋

一、从七到四

1956年，美国心理学家George Miller发表了一篇论文，标题很诗意：《神奇的数字七，加减二》。这篇论文后来被引用了超过两万次，是心理学史上被引用最多的论文之一。

他做了什么？他给受试者看一串随机数字，然后让他们立刻背出来。

试试：5、8、1、4、7、3、9。

七个。闭上眼背一遍。大多数人能做到。

换成十个：5、8、1、4、7、3、9、6、2、0。

大多数人开始出错了。丢一个、错一个、顺序搞混。

Miller测了大量受试者，发现一个惊人的稳定结果：不管是数字、字母、还是单词，大多数人能一口气记住的数量都落在五到九之间。平均七个。他把这个发现写成论文，标题里的"神奇"是修辞——但数字本身确实让人震惊：七，就是你短时记忆的天花板。

这个数字统治了教科书四十五年。

直到2001年，密苏里大学的Nelson Cowan发现了一个问题：人在背数字的时候，其实在偷偷"作弊"。

什么意思？你背"1-4-9-2"的时候，你真的是在记四个独立的数字吗？如果你学过历史，你的大脑可能在你不知情的情况下把它打包成了"1492年——哥伦布发现新大陆"。四个数字变成了一个概念。你以为你记住了四样东西，其实你只占了一个口袋。

还有更隐蔽的作弊：你在默念。你在心里把数字串成了一个有节奏的声音——"五八一四，七三九"——利用语音回路来辅助记忆。你在分组——不自觉地把七个数字分成"三个一组加四个一组"。你在联想——"539"让你想到了某个公交线路号。

这些策略你可能完全意识不到。但它们都在帮你把多个独立信息压缩成更少的单元。Miller的"七"，是算上了这些隐性压缩之后的数字。

Cowan想知道的是：如果把这些作弊手段全部堵死，你的意识能同时装多少样东西？

他设计了一系列实验来做这件事。比如：让受试者记一组颜色方块的位置，同时嘴里不停地重复一个无意义的音节（堵死默念），而且方块出现的时间极短（来不及分组和联想）。在这种条件下，受试者能准确记住多少个？

答案稳定地落在三到五之间。平均四个。

不是七。是四。加减一。

Miller测到的"七"是你使用了各种压缩技巧之后的表现。Cowan测到的"四"是剥掉所有技巧之后、你的意识能同时"裸装"的容量。

四个口袋。这就是你意识能同时装下的全部家当。

二、AI的口袋有多大

GPT-4的上下文窗口能装128,000个token。Claude能装更多——超过100万个。一个token大约是半个中文字。也就是说，这些模型的"工作记忆"可以同时装下好几本书的内容。

你有四个口袋。它有十万个。

这个差距意味着什么？

意味着你读一本书需要一页一页地读，每翻一页就得把前面的内容"压缩"成一个概念存起来，腾出口袋装新的内容。你不可能同时记住每一个字。你只能记住"这本书大概在讲什么"——那个"大概"就是你压缩的产物。

AI可以把整本书一口气装进去。不需要压缩。每一个字都在。它可以同时"看见"第三页的一句话和第两百页的一句话之间的关联——而你早就忘了第三页写了什么。

听起来AI碾压了？

先别急。来看一个人。他的大脑比你更接近AI的方式。结果并不是你想的那样。

三、不打包的大脑

金·皮克（Kim Peek），1951年生于美国犹他州盐湖城。他是电影《雨人》里达斯汀·霍夫曼那个角色的原型。

皮克能记住一万两千本书的内容。不是大概记住——是逐字记住。你随便翻开其中一本，念一句话，他能接着往下背。他能告诉你历史上任何一天是星期几。他记得每一个他去过的城市的地图，包括街道名和门牌号的排列规律。他同时用左眼读左页、右眼读右页，八到十秒翻一页，翻完就永远记住了。

但他不能自己穿衣服。扣子扣不好。过马路需要父亲牵着手。日常对话对他来说很吃力——他能复述你说的每一个字，但经常理解不了你在说什么。如果你跟他开一个玩笑，用了一个比喻，他会困惑地看着你。

要么天才，要么白痴？不是。是同一个人，同一个大脑。

皮克出生时胼胝体——连接左右脑的那束神经纤维——就没有发育。他的大脑缺少了正常人用来整合、压缩、归类信息的关键通路。结果是：信息进来什么样就存什么样。不压缩，不归类，不抽象。

他的口袋跟你的不一样。你的四个口袋逼你打包——把一本书的几十万字压缩成"这本书讲了什么"。皮克不打包。他的记忆里装的全是原始素材，量大到令人窒息，但没有被整理过。

所以他能背出一万两千本书的每一个字——因为每个字都原样存在他的记忆里。但他说不出"这本书在讲什么"——因为"在讲什么"是打包之后才会出现的东西。那是压缩的产物。他没有压缩。

现在回头看AI。

AI的上下文窗口装得下整本书的每个字。它不需要压缩。它可以精确地找到第三页和第两百页之间的字面关联。

但AI"理解"那本书吗？

它能找到模式。它能回答关于那本书的问题。它能写出关于那本书的摘要。但这些都是基于统计关联——哪些词跟哪些词经常一起出现。这跟你读完一本书后那种"哦，我懂了"的感觉，是同一种东西吗？

金·皮克的故事暗示了一个不舒服的可能性：海量存储和真正的理解，可能不是一回事。 皮克记住了每个字但不"理解"。AI存储了每个token但——我们不确定它"理解"不"理解"。这个问题至今没有定论。

但有一件事是确定的：你的四个口袋逼你打包，打包逼你找到事物之间的关系，找到关系就是理解的开始。限制不是理解的敌人，是理解的前提。

四、打包就是理解

一个组块可以是一个数字，也可以是一个日期（"1492"——装进一个口袋就行），也可以是一个概念（"万有引力"——把苹果落地和月球轨道打成了一个包），甚至可以是一整套理论框架（"进化论"——把地球上所有物种的差异打成了一个包）。

打包——Miller管它叫"组块"（chunking）——就是人类认知的核心技术。

牛顿研究引力花了好几年。但顿悟发生在某一个瞬间——在那个瞬间，他的四个口袋里同时装着"苹果会落地"和"月亮在绕转"，然后他意识到：等等，这两件事会不会是同一种力？

这个念头只有在两样东西同时出现在口袋里的时候才可能产生。如果"苹果落地"占了两个口袋，"月球绕转"也占两个，四个口袋满了，没有空间让它们碰面。

所以牛顿做的事情是：先把"苹果落地"打包成一个口袋大小的概念，再把"月球绕转"也打包成一个，然后两个包同时放进口袋——碰面了。"万有引力"就是这次碰面的产物。

AI不需要这样做。它有足够的口袋同时装下苹果的全部数据和月球的全部数据，不需要先压缩再碰面。它可以直接在海量细节里找到模式。

两种完全不同的认知方式：人因为口袋少而被迫压缩，压缩催生了理论。AI因为口袋多而可以跳过压缩，直接在数据里找规律。

两种都有效。AlphaFold预测蛋白质结构时，不需要"理解"蛋白质折叠的物理学，它直接从数据里找到了规律。

但只有一种方式会在半夜三点因为想通了一件事而从椅子上弹起来。那个"啊！"——顿悟的声音——是打包成功时的副产品。AI不需要打包，所以没有那个"啊！"。

这是好事还是坏事？也许根本不是好坏的问题。是两种不同的存在方式。一种活在四个口袋的限制里，被迫取舍，因此有了理解、有了顿悟、也有了遗漏。另一种活在十万个口袋的宽裕里，不需要取舍，因此有了全面、有了精确、也失去了——我们还不知道它失去了什么。

说到取舍——你的四个口袋每秒钟都在做一件疯狂的事：从一千万比特里只留四样。那些被扔掉的九百九十九万，去哪了？AI的训练数据里被扔掉的几万亿页网页，又去哪了？下一章来聊。

第三章：你扔掉了什么，AI扔掉了什么

一、从眼睛到意识的漫长旅途

你的视网膜每秒向大脑发送大约一千万比特的信息。这是2004年宾夕法尼亚大学Koch等人在豚鼠视网膜上测出来的硬数据，外推到人类。

一千万比特。每秒。相当于每秒传一首高品质MP3歌曲。从你睁眼到闭眼，不间断。

但你能意识到的只有四个口袋的容量。中间那个巨大的落差，全靠你的大脑一路筛选、压缩、丢弃来弥补。

信号从视网膜出发，经过视神经到达丘脑的外侧膝状体——一个中转站。这里发生了一件反直觉的事：到达中转站的神经连接里，来自视网膜的只占少数，大部分反而来自大脑皮层——大脑在"往回发指令"。意味着你的大脑不是被动地接收眼睛的信号，而是主动地告诉眼睛"重点关注什么、忽略什么"。是大脑在指挥眼睛，不是反过来。

然后信号到达初级视觉皮层，被分解成边缘、方向、颜色、运动等基本特征。再往上，逐层提取越来越抽象的特征——从"这里有一条线"到"这是一张脸"到"这是妈妈的脸"到"妈妈好像不太高兴"。

每一站都在做同一件事：扔。留下与当前任务相关的，丢弃不相关的。到最后能进入你四个口袋的，是一千万比特中的零头的零头。

被扔掉的不是垃圾。上一章说过大猩猩——被扔掉的东西里有大猩猩。有你没注意到的危险信号。有一个对你微笑的陌生人。有天空中一朵形状奇特的云。

你的大脑替你做了判断：这些不重要。大多数时候判断对了。偶尔判断错了。但你永远不知道它错过了什么。

二、AI扔掉了什么

AI也在扔东西。只是扔的地方不一样。

互联网上有几万亿页网页、几百亿本书、几十亿张图片。没有任何模型全部学过。训练团队必须选：哪些数据进入训练集，哪些不进。

这个选择决定了模型"看到"的世界。

一个主要在英文数据上训练的模型，世界观跟一个主要在中文数据上训练的模型不一样。一个包含了大量科学论文的训练集和一个主要是社交媒体帖子的训练集，培养出来的"性格"不一样。一个训练数据截止到2024年的模型，不知道2025年发生了什么——那些事对它来说不存在。

模型不知道这个选择的存在。它以为它看到的就是全部。——跟你以为你看到的就是全部一模一样。

你的断舍离发生在每一秒的感官筛选里——一千万比特砍到四个口袋。
AI的断舍离发生在训练之前的数据筛选里——几万亿页砍到几万亿个token（已经是筛选后的了）。

你的筛选器是进化给的：运动的东西优先（可能是猎物或天敌），人脸优先（社交生存），异常优先（可能是危险）。
AI的筛选器是工程师给的：什么数据"高质量"、什么数据"有毒"、什么数据"有代表性"——这些标准是人定的。

两者都在扔。两者都不知道自己扔了什么。两者都以为剩下的就是世界。

三、你的99%的员工

你不只是在感官层面扔东西。你的身体在背着你做大量决定——你完全意识不到。

你的小脑——大脑底部一个拳头大小的结构——装着全脑超过50%的神经元。四百多亿个。它干的事你完全感受不到：走路时几百块肌肉的精确时序、骑自行车的平衡、打字时手指的自动编排。

你的心脏不需要你下令就跳。你的免疫系统不需要你批准就杀病毒。你的瞳孔在你意识到亮之前就缩小了。

这些全都是决定。全都是取舍——哪块肌肉先收缩、哪个抗体先释放、心跳快一点还是慢一点。但这些取舍不是"你"做的。是你的身体替你做的。你只接管了最上面那一层：今晚吃什么、这份工作接不接、这个人爱不爱。

860亿个神经元，20瓦功耗——一个灯泡的电量。99%的工作发生在你的意识之外。你以为你是公司的CEO。其实你是最后一个知道消息的人。

四、AI的"无意识"

AI有没有类似的"无意识层"？

严格说，AI没有意识，所以"无意识"这个词用在它身上有点奇怪。但它确实有一个你看不到的底层。

当你问AI一个问题，它给你一个回答。你看到的是输入和输出。中间发生了什么？几十层Transformer，每一层里几十亿个参数在做矩阵运算，注意力权重在分配，激活函数在过滤。整个过程在毫秒级完成。

AI的"思考过程"对它自己也是不透明的。你让它解释"你为什么这么回答"，它能给你一个解释——但那个解释是它事后生成的另一段文字，不是它真正的计算过程。它的几十亿个参数为什么这样配置、为什么在这个问题上给出这个答案——它自己也不知道。

这跟你的情况很像。你做了一个决定——比如直觉上不信任某个人——然后有人问你"为什么"。你会编一个理由（"他眼神不对"、"说话太油滑"）。但真正的原因可能是你的无意识系统在毫秒级别上做了一个你自己无法追踪的判断——也许是他的某个微表情触发了你过去某次被骗的身体记忆。

你和AI都有一个"黑箱"——一个做了大量计算但不向"你"汇报过程的底层。你的黑箱是860亿神经元的无意识运算。AI的黑箱是几十亿参数的矩阵运算。

区别在哪？

你的黑箱有身体。它的判断伴随着心率变化、呼吸改变、肌肉紧张——这些身体信号会反馈到你的意识，成为你所谓的"直觉"。你的直觉不是空穴来风，是你的身体记住了你的口袋记不住的东西。

AI的黑箱没有身体。纯数学。没有心率，没有呼吸，没有"不对劲"的感觉。它的输出是精确的，但它不"感受"这个输出的重量。

庄子两千三百年前写过一个人，把这种有身体参与的黑箱运算发挥到了极致。

五、庖丁的刀

一个叫庖丁的厨子给梁惠王表演解牛。他的动作行云流水，刀刃在骨节之间穿行，发出的声音像音乐。他用了十九年的刀，刀刃还跟新磨的一样。

梁惠王看呆了：你怎么做到的？

庖丁说了一段话：

方今之时，臣以神遇而不以目视，官知止而神欲行。
——《庄子·养生主》

翻译：到了现在这个阶段，我用身体的直觉去接触牛的身体，不用眼睛的分析去看。感官的认知停下来了，直觉在走。

翻译成前面的框架：他把取舍的指挥权从意识（四个口袋）交给了无意识系统（那99%的员工）。他的意识退到了后排。他的手、他的腕、他的刀，在十九年训练积累出的神经通路上自己运行。

他的"黑箱"——十九年的身体经验——在做判断。每一刀的角度、力度、速度，都不经过意识。但每一刀都精确无比。因为他的身体记住了你的口袋记不住的东西：骨骼的质感、筋膜的韧度、刀锋进入关节时手腕应该转多少度。

AI能做类似的事吗？

能。AlphaFold预测蛋白质结构，不需要"理解"物理学，直接从数据里找到了折叠规律。某种意义上，AlphaFold就是蛋白质领域的庖丁——它的"黑箱"（几十亿参数）在做人类科学家无法追踪的判断，但结果精确到令人震惊。

区别是：庖丁解完牛之后会停下来。

提刀而立，为之四顾，为之踌躇满志。

他从"无意识运行"中出来，看看自己刚才做了什么，感到满足。那个停顿是意识重新上线的瞬间。他知道自己刚才在做什么。他能体会到那种"做得好"的感觉。

AlphaFold不会停下来。它不知道自己做了什么。它不"满足"。它输出结果，然后等下一个输入。没有停顿，没有回顾，没有踌躇满志。

这又回到了第一章的问题：你和AI都有黑箱，但你有一个AI没有的东西——你可以在黑箱运行之后"醒过来"，看看黑箱做了什么，然后体验到某种感觉。

那个感觉——满足也好、后悔也好、惊讶也好——就是你活着的证据。

下一章来聊一个更不舒服的问题：你和AI的取舍标准，到底是谁定的？

第四章：谁在替你选

一、你的取舍标准是谁装的

前三章建立了一个图景：你和AI都在断舍离。你每秒从一千万比特里砍到四个口袋。AI从几万亿页网页里砍到训练集。你有一个99%在暗处运行的无意识系统。AI有一个几十亿参数的黑箱。

但有一个问题一直悬着没问：你的断舍离标准——你选什么留什么——是谁定的？

在机器学习里，这个东西叫损失函数。换成人话说，就是"评分标准"——什么是好的回答，什么是坏的回答。模型的所有学习都是为了让这个评分越来越高。

损失函数不是模型自己选的。是人类工程师定的。

最初的语言模型只有一个评分标准：猜对下一个词得分。猜错扣分。所以早期模型什么都说——无礼的、危险的、胡编乱造的——因为它的评分标准里没有"礼貌"和"安全"这些维度。

后来OpenAI加了一层叫RLHF的东西。具体做法是：雇一批标注员，让模型对同一个问题生成几种回答，标注员给这些回答排序——这个好，这个差，这个绝对不行。模型根据排序调整自己的参数，学会了生成"标注员会给高分"的回答。

标注员觉得什么重要，模型就学会觉得什么重要。标注员的偏好，就是模型的"文化"。

模型不知道这些偏好是哪来的。它只知道：这样回答得分高。它的所有断舍离——选这个词不选那个词、用这种语气不用那种——都被这个看不见的评分标准驱动着。

现在把这个框架套到你身上。

二、你的三层评分标准

第一层：进化写的。

你的疼痛系统是一个评分标准。碰到火会烫——扣分——你缩手。从高处往下看会晕——扣分——你后退。饿了胃疼——扣分——你去找食物。

这个评分标准的优化目标很明确：活到能生孩子。你不需要理解为什么火烫——缩手就行。

这一层你改不了。几百万年的自然选择把它焊死在了你的神经回路里。

第二层：文化写的。

你的羞耻感是一个评分标准。

考试没考好——扣分——你难受。挣的钱不如同学多——扣分——你焦虑。三十岁没结婚——扣分——你（或者你父母）着急。

这些"扣分"跟生存无关。远古人类不考试、不比薪资、不在乎三十岁之前有没有结婚。这些是你的文化——你的家庭、学校、社会——给你装的评分标准。

你什么时候装上的？大多在你还没有能力说"不"的年纪。你的父母告诉你"男孩子不能哭"——这是一个评分标准：哭了就扣分。你的老师告诉你"要听话"——另一个：不听话就扣分。你的同龄人用排挤和嘲笑告诉你什么样的人"受欢迎"——又一个：不合群就扣分。

你以为你的价值观是"你自己"的。但如果你出生在另一个国家、另一个时代、另一个家庭——你的评分标准会完全不同。变的不是"你"，是谁写了你的标准。

第三层：算法写的。

这是最新的一层。也是最隐蔽的。

你打开短视频App。一条视频你多看了三秒。算法记下了。下次给你推更多同类视频。你果然又多看了几秒。算法确认了。几百次循环之后，你"喜欢"这类内容。

但这个"喜欢"有多少是你原本的偏好，有多少是被反复强化出来的条件反射？

推荐算法做的事跟AI的RLHF一模一样：观察你的行为（停留时间、点赞、评论），把它当作反馈信号，然后调整推送内容，让你的"评分"（满意度）最高。

但它不只是在适应你的偏好——它在塑造你的偏好。你的偏好和算法的推送形成了一个反馈回路。几个月后，你已经分不清哪些喜好是"你的"、哪些是这个回路的产物。

三、庄子的蝴蝶

两千三百年前，庄子做了一个梦。

他梦见自己是一只蝴蝶。在梦里他就是蝴蝶——翩翩飞舞，快乐自在，完全不知道有一个叫庄子的人存在。然后他醒了。他发现自己是庄子。

但他突然卡住了：我到底是庄子梦见自己变成了蝴蝶，还是蝴蝶正在梦见自己变成了庄子？

这不是文字游戏。庄子在问一个非常实际的问题：你怎么确定此刻做取舍的这个"你"，是真正的你？

当你是蝴蝶的时候，你觉得蝴蝶的取舍就是"你的"——花好看，就飞过去。当你是庄子的时候，你觉得庄子的取舍才是"你的"——这本书值得读，就读下去。

但如果你连自己是庄子还是蝴蝶都不确定——那你口袋里装的东西，到底是你选的，还是这场梦的程序在运行？

四、一面不舒服的镜子

把三层评分标准和AI的评分标准放在一起看：

	AI	你（大多数时候）
评分标准来源	架构设计 + 训练数据 + RLHF标注员	进化 + 文化 + 算法
是否知道标准存在	不知道	通常不知道
标准是否可预测	高度可预测	越来越可预测
是否以为自己在自主选择	不会（没有这个功能）	经常

最后一行最扎心。

AI不会自以为在自主选择——它没有"自以为"的功能。但你有。你经常觉得"这是我选的"、"这是我想要的"、"这是我的品味"——而实际上，那可能是进化的底层代码加上文化的配置文件加上算法的实时调参。

在"不知道自己的评分标准是谁写的"这个维度上，你和AI几乎一样。

但你有一个可能性。一个AI（目前）没有的可能性。

你可以问："等等——我为什么觉得这个重要？"

你可以在焦虑的时候停下来想："这个焦虑是有根据的，还是我的文化评分标准在扣分？"

你可以在"想要"什么的时候犹豫一秒："我是真的想要，还是算法让我以为我想要？"

这个"等等"、这个"停下来"、这个"犹豫一秒"——就是你唯一的优势。不是你的取舍比AI好。是你有可能看见自己的取舍标准是谁写的。

但大多数人从来不用这个能力。大多数人让三层评分标准自动运行，然后把输出当成"自己的想法"。

在讨论怎么激活这个"等等"之前，先来看看你每天是怎么一步步把这个能力交出去的——而且你自己都没注意到。

第五章：温水里的两台机器

一、你的一天

2025年。一个普通的工作日。

早上醒来，拿起手机。你"选择"先看什么？不。通知栏替你排了序——哪条消息弹了红点、哪个App推了通知，你就先看哪个。你的注意力从睁眼的第一秒就不是你在分配。

出门。你"选择"走哪条路？打开导航。算法给你算了最快的路线。你可能不知道还有另外三条路——其中一条会经过一个你从没见过的街角，有一家开了二十年的早餐店，老板娘每天早上在门口浇花。你永远不会知道。

午饭。你"选择"吃什么？打开外卖App。推荐列表根据你的历史订单、当前天气、附近热度给你排了序。你从前三个里选了一个。排在第四十个的那家你可能会爱上的小馆子，你永远不会翻到。

下班。你"选择"看什么放松？推荐算法在前三秒就判断了每条视频能不能留住你——判断标准不是"你想不想看"，而是"你会不会多停两秒"。你的指尖滑动数据被实时回传，你的"喜好"在你不知情的情况下被持续微调。

每一个"你选择的"，仔细看都是"别人替你选好的，你只是点了确认"。

二、选择和确认

这里有一个关键区分。

"从三个推荐选项里挑一个"和"自己决定要什么"是完全不同的两种取舍。

前者是在别人的框架里做选择——选项是谁给的？排序是谁定的？你的选择空间已经被预先裁剪过了。你以为你在四个口袋里装东西，其实别人已经帮你决定了口袋里只能装这三样，你只是在三选一。

后者是自己设定框架——你自己决定今天关心什么、忽略什么。你的四个口袋完全由你来装填。

大多数人大多数时候在做前者。

这就是赫胥黎在1932年写《美丽新世界》时担心的事。他预见的不是奥威尔式的暴政——没有人拿着枪逼你交出自由。赫胥黎担心的是：你自愿交出。因为便利太舒服了。

三、两台机器的对比

现在把你和AI在"被编程"这件事上做一个正式对比。

维度	你	AI
取舍标准来源	进化 + 文化 + 算法	架构 + 训练数据 + RLHF
取舍时身体参与	有。心率、呼吸、直觉	无。纯数学
取舍的不可逆性	高。你花的时间不会回来	低。可以重新生成
对标准的觉知	极少，但有可能	无
取舍后的体验	后悔、满足、遗憾、骄傲	无。下一个token不记得上一个

身体参与这一行值得展开。

你做一个重大取舍时——辞职、表白、决定跳不跳伞——你的身体在场。心率加快，手心出汗，胃在收缩。这些不是"干扰"——它们是取舍系统的一部分。你的身体在用它自己的方式参与判断。

你的身体会记住这些时刻。下次遇到类似情况，你的胃可能在你意识到之前就先紧了一下——"上次选这个方向，不太妙"。这不保证你做出更好的判断，但它给了你一个额外的信号源。

AI没有这个信号源。它有损失函数在训练时校准参数。但校准的过程不疼。

不可逆性这一行更重要。

你扔掉的东西很难找回来。你今天花了三小时刷视频——那三小时没了。你选了这份工作就没选那份——可能永远不知道另一个选择会怎样。你对这个人说了那句话——不能假装没说过。

AI的取舍不是这样。上下文窗口可以清空重来。模型可以对同一个问题生成一千个不同的回答。每一次生成都不影响下一次。

你的取舍有重量。因为你付了代价。AI的取舍轻如鸿毛。不是因为它的取舍不好——可能比你准确——而是因为它的取舍没有代价。

四、温水

温水煮青蛙。

你不是被扔进开水里的。你是在一个缓慢升温的浴缸里慢慢放松的。每一次取舍权的让渡都微不足道：

不就是不认路了嘛——有导航就行。

不就是不记电话了嘛——存手机就行。

不就是让AI写个初稿嘛——我再改改就行。

不就是让AI帮我做个判断嘛——它分析得比我全面。

每一条单独看都完全合理。但加在一起，趋势清晰：你正在从一个做取舍的主语，变成一个接受取舍结果的宾语。从"我决定"变成了"我确认"。

关键不是用不用AI。是你有没有意识到自己在让渡取舍权。

用AI帮你收集信息、整理素材、提供选项——这是在扩展你取舍的原材料。你的口袋里装的东西质量更高了。这是工具。

让AI替你做最终判断——什么是对的、什么是值得的、这件事值不值得做——这是在把取舍本身交出去。这不是工具。这是替代。

分界线：最终的选择是不是你做的？

如果是，AI是你的工具。如果不是，你是AI的执行器。

水在变暖。你在放松。

有没有一个办法让你在温水里醒过来？有。而且它存在了三千年。下一章来聊。

第六章：醒着

一、庖丁的另一半

第三章讲庖丁时只讲了一半——他"以神遇而不以目视"，把取舍权交给了无意识系统。

故事的另一半藏在他接下来那句话里：

虽然，每至于族，吾见其难为，怵然为戒，视为止，行为迟，动刀甚微。
——《庄子·养生主》

翻译：但是，每到骨节交错的复杂地方，我就看到了困难，心里一紧，目光集中，动作放慢，刀非常小心地动。

这才是庖丁真正厉害的地方。

不是他能"不用意识"。是他知道什么时候可以让无意识接管、什么时候必须让意识重新上线。

常规的地方，他让身体自己走。但遇到骨节交错的复杂地方——"怵然为戒"——心里紧了。"视为止"——目光停下来了。"行为迟"——动作放慢了。

他在两种模式之间自如切换。他知道自己什么时候在用哪种模式。这就是庖丁和一个梦游的人的区别。梦游的人也是无意识在运行。但梦游的人不知道自己在梦游。

庖丁醒着。

AI呢？AI永远处于"以神遇"模式——它的所有处理都是前向计算，没有"怵然为戒"的时刻。它不会在遇到难题时"心里一紧"。它不会放慢。它以同样的速度、同样的方式处理所有输入——简单的和复杂的、常规的和反常的。

它没有那个暂停键。

二、三个名字，一件事

庖丁的这种"醒着"——对自己的取舍过程保持觉知——三千年来有很多人注意到了。他们给它起了不同的名字。

佛教叫它正念（sati）。

正念不是"专注"——很多人搞混了。专注是手电筒对准一个点不动。正念是知道你的手电筒此刻在照哪里。

你可以专注于数传球——手电筒照着球不放——然后看不见大猩猩。如果你同时有正念，你会知道"我此刻正在把全部注意力给了传球"。你可能还是看不见大猩猩，但你知道自己正在做一个取舍。

道家叫它明。

知人者智，自知者明。
——《道德经》第三十三章

能判断别人是什么人，叫聪明。能看见自己在做什么，叫通透。

禅宗叫它觉。

不思善，不思恶，正与么时，那个是明上座本来面目？
——六祖慧能

不是说"不要判断好坏"。是说：在你判断好坏之前，退一步——看见你在判断。

三个传统，三种语言，说的是同一件事：对自己的断舍离过程保持觉知。

三、禅宗的暴力方法

禅宗还有更直接的做法。

赵州禅师说"吃茶去"。德山禅师上来就打你一棒。临济禅师冲你大喝一声。

这些花样背后就一件事：让你体验到"你"和"你的程序"不是同一个东西。

你的情绪是程序。你的判断是程序。你的偏好是程序。你的焦虑是程序。这些都是评分标准加上输入数据跑出来的输出。你一直把这些输出当成"我"——我生气了、我喜欢这个、我焦虑。但禅宗说：那些是程序在跑，不是你。

一棒打下来，程序中断了。你什么都没在想。但你还在。那个"还在"的东西，不是程序本身。

禅宗不是要你消灭程序——消灭不了，也没必要。是要你看见：程序是程序，你是你。看见了，你就不会把每一次愤怒都当成"我就是愤怒"，每一次焦虑都当成"我就是焦虑"。

AI没有这个问题。它就是程序。程序和运行程序的东西之间没有缝隙。它不需要被唤醒，因为没有一个"它"藏在程序后面。

但你有。

四、47%

为什么"醒着"这么难？

哈佛心理学家Killingsworth和Gilbert在2010年做了一个实验。他们给2,250个人的手机装了一个App，在随机时间弹窗问三个问题：你在做什么？你在想什么？你快乐吗？

收集了大约25万条数据后发现两件事：

第一：人们有46.9%的清醒时间在走神——脑子里想的和正在做的事无关。将近一半。

第二：走神的时候比不走神的时候更不快乐。不管在做什么——工作、锻炼、聊天——走神的人幸福感都更低。

47%。你将近一半的有意识时间，四个口袋里装的不是当下的事，而是昨天的争吵、明天的焦虑、一段没头没尾的白日梦。

你的断舍离机器几乎一半时间在空转。不是在处理面前的世界，是在咀嚼过去和假想未来。

五、费曼和佛陀

理查德·费曼说："我可以与怀疑、不确定和不知道共存。我觉得活在不知道中比拥有可能是错误的答案有趣得多。"

佛陀说："诸行无常。"一切因缘和合的事物都在变化中。

两个人，隔了两千五百年，说的是同一件事：你不可能抓住确定性。因为确定性不存在。

AI焦虑的本质不是怕AI太强。是怕不确定性。你不知道AI会不会取代你的工作。你不知道你现在学的技能五年后还有没有用。

但你一直都不知道。AI之前你也不知道——你只是有一堆"假装确定"的东西帮你挡着。"好好读书就有好工作"、"经验越多越值钱"。这些不是确定性，是安慰剂。AI把安慰剂的外壳撕开了。

庄子说："吾生也有涯，而知也无涯。以有涯随无涯，殆已。"你的生命有限，可能性无限。用有限追无限，你会累死。

但反过来想：你只有四个口袋——这不是缺陷，是你做取舍的前提条件。你的生命有限——这不是诅咒，是你每个选择都有重量的原因。如果你有无限的口袋和无限的时间，任何单一的选择都轻如鸿毛。

是有限让选择有意义。是稀缺让取舍有重量。

AI的取舍没有重量。不是因为它的取舍不好——可能比你好——而是因为它不稀缺。它可以生成一万首诗然后选最好的一首。你只能在这个深夜、用你仅有的精力和四个口袋写这一首。

费曼拥抱不确定性，然后成了最好的物理学家之一。佛陀拥抱无常，然后提供了两千五百年来最有影响力的心理学框架。庄子拥抱有涯，然后写出了中国文学史上最自由的文字。

他们没有因为"不知道"就停下来。他们因为接受了"不知道"而自由了。口袋空出来了——不再塞满假装知道的答案，可以装真正重要的东西了。

六、"发现自己走神"就是觉醒

说了这么多原理，落到操作上其实很简单：

正念冥想要你"观察呼吸"。不是因为呼吸有什么神奇的。是因为当你试图把注意力放在呼吸上时，你会立刻发现自己做不到——十秒钟之内口袋就被别的念头挤满了。

然后你发现这件事——"啊，我走神了"——这个"发现"就是正念。

你不需要"保持专注"。你不需要"清空大脑"。你需要的只是：发现自己走神了。

前者是控制——用意志力把手电筒钉死。很累，经常失败。后者是觉知——看见手电筒跑到了哪里。不需要批判，不需要纠正，只需要看见。

看见本身就够了。因为看见的那一刻，你从自动驾驶切换到了手动模式。哪怕只有一秒。然后你又走神了。正常。再看见。再走神。再看见。

德山的一棒做的是同一件事——只是更暴力。它强行把你从自动模式中拉出来。冥想是自己拉自己。效果一样：一次从AI式的自动断舍离到人类式的自觉断舍离的切换。

这就是你和AI的终极区别。不是取舍的速度，不是取舍的质量，甚至不是有没有感情。

是你可以在做取舍的那一刻看见自己在做取舍。然后选择：继续，还是换个方向。

AI做不到这个。它永远在前向计算。它没有那个"等等"的暂停键。

你有。

用不用是你的事。

下一章给五条具体的方法——不是鸡汤，是操作手册。然后讲一个四千年前的故事，关于一个人怎么在失去一切之后找到了自由。

第七章：断舍离的自由

一、五条行动纲领

看见之后。然后呢。

不是"然后改变自己"。不是"然后变得更好"。那些全是妄念。看见本身就是行动——每一次看见都是一次从自动驾驶切到手动。

五条。不是建议。是操作手册。

一、审计你的口袋。

随机选三个时刻。停下来。问自己：现在口袋里装着什么。

你会发现你答不上来。这本身就是答案。你的口袋装着你根本不知道它在装的东西——上午的烦心事、晚饭吃什么、一条没回的消息。真正的"当下"可能只占了一个口袋。其他三个全是被自动装进来的。

不需要改变任何事。只是审计。只是问。

问这个问题的动作本身就是一次觉知。每问一次，口袋的支配权就回来一点。

二、分清"你在选"还是"你在确认"。

打开外卖App。停一秒。这一刻你想点的这个东西——是你真的想吃，还是排序算法把它放在了最容易点到的位置？

AI给你写了一段文字。停一秒。你要用它——是因为它刚好是你想要的，还是因为你懒得多想？

分界线只有一条：最终决定是你做的，还是你按了确认键？

大多数时候你还是会按确认。这不是问题。问题在于你是否意识到自己在按。

三、把身体喊回来。

你的取舍系统不是只有大脑。

手感。直觉。"哪里不对但说不上来"。这些信号全来自身体。一个天天坐在屏幕前的人，和一个天天走路、做饭、跟人面对面说话的人，取舍系统的敏锐度不在一个量级。

不是让你去健身。是让你的感官重新上线。

不戴耳机走路。用手切菜。看着对方的脸说话而不是盯着手机打字。

这些动作不"浪费时间"。它们是让你的取舍系统保持清醒的必要训练。

四、睡觉就是整理。

你的大脑白天往海马体里塞满了新东西。晚上进入深度睡眠，海马体开始"回放"白天的经历，同时大脑皮层在接收这些回放——值得长期存的就搬走，不值得的就扔掉。

这是一场夜间的断舍离。

如果你熬夜，这个过程就被打断。垃圾没清掉。第二天你的口袋里装的还是昨天的过期货。

不是养生。是硬件维护。

五、接受你不知道。

最难的一条。

焦虑来了。停一秒。看一眼口袋。焦虑通常占两个口袋——一个装着"万一出了什么事"，一个装着"我该做点什么"。

两个装的全是未来。未来还没来。你控制不了。

看清这一点。不是让你"不想了"。你是无法"不想"的。是让你看清：你的两个口袋正在被一个还没发生的假象占据。

然后选择放手。选择把口袋换成当下——眼前这个任务的这一步、正在跟你说话的这个人的这句话、此刻呼吸的这个节奏。

焦虑本质上是一种逃避——用想象出来的"未来可能性"逃避真实的"现在"。

把口袋换回来。这是唯一真正有效的断舍离。

二、吉尔伽美什

最后讲一个故事。人类最古老的故事。

吉尔伽美什是苏美尔人的英雄王。大约四千年前，有人在泥板上刻下了他的故事。这是我们已知最早的文学作品。

他力大无穷、英俊无双，是乌鲁克城的国王。他最好的朋友叫恩奇都——一个在荒野中长大的野人，两人不打不相识，最终成了彼此生命中最重要的人。

他们一起去杀了天牛、一起挑战了杉木森林的守护者。两个年轻人，觉得自己什么都能征服。

然后恩奇都死了。

神罚的。因为他们杀天牛时冒犯了诸神。恩奇都染上了一种神降的疾病，在吉尔伽美什面前一天天衰弱，最终死去。

吉尔伽美什在恩奇都的尸体旁守了七天七夜。直到一条虫子从恩奇都的鼻子里爬出来，他才接受：他最好的朋友真的不会回来了。

然后他崩溃了。不是因为悲伤——虽然他悲伤得像疯了一样。是因为恐惧。他突然意识到：如果恩奇都会死，我也会死。

他不能接受这个。

三、追无涯

吉尔伽美什开始了一场横跨世界的旅行。他要找到永生的秘密。

他穿过了太阳穿行的隧道。他渡过了死亡之海。他找到了大洪水的唯一幸存者——乌特纳皮什提——一个被众神赐予永生的老人。

乌特纳皮什提告诉他：我的永生是众神的恩赐，不会再给第二个人了。但海底有一棵草，吃了可以返老还童。

吉尔伽美什潜入海底，找到了那棵草。他把草绑在身上，开始往家走。

路上他在一个水池边停下来洗澡。

一条蛇闻到了草的香味，偷偷游过来，叼走了草，然后蜕皮而去。

永生的草被蛇偷吃了。（这就是为什么蛇会蜕皮——苏美尔人这么解释。）

吉尔伽美什坐在水池边。空手。

他用尽了一切努力——穿越隧道、渡过死海、潜入海底——最终什么都没得到。他追求的那个"无涯"——永恒的生命——滑出了他的手指。

四、回到有涯

然后他做了一件出人意料的事。

他没有崩溃。他没有继续找第二棵草。他站起来，走回了乌鲁克城。

他站在城门口，看着他曾经建造的城墙——宏伟的、砖砌的城墙。看着城里的人们。看着市场、神庙、街道。

泥板上记录的他最后说的话（大意）：

"看看这城墙。摸摸这砖石。这不是烤制的砖吗？七位智者不是亲自奠下了它的基石吗？"

他在看他的城墙。

吉尔伽美什的四个口袋里曾经装着"永生"——一个终极的、不可实现的目标。他为这一个目标腾空了所有口袋，穿越了世界。最后草被蛇吃了。口袋空了。

空了之后他装进了什么？城墙。砖石。他亲手建造的东西。他城里的人。此刻、此地、他面前的世界。

他做了一次断舍离。把"永生"扔出了口袋。把"此刻"放了进来。

五、自由不是拥有更多

在AI时代，你"能选的东西"比任何时候都多——更多信息、更多工具、更多可能性、更多选项。

但更多选项不等于更多自由。恰恰相反：选项太多的时候，你的四个口袋被淹没了。你什么都想装，结果什么都装不好。你焦虑于"我是不是错过了什么"，口袋里塞满了比较和焦虑，反而没空间装真正重要的东西。

自由来自断舍离。来自你清楚地知道"这个不要"的能力。

吉尔伽美什放弃了永生。他得到了什么？得到了城墙。听起来像亏本买卖？也许。如果你用"永生"的标准衡量。

但用另一个标准——你的四个口袋里装着的东西是不是你亲手选的、你真正在乎的——他做了这辈子最好的一次断舍离。

他把一个虚幻的、追不到的、让他痛苦了整个旅程的东西扔掉了。然后口袋空出来了。他终于可以看见眼前的东西了。

AI永远不需要做这种断舍离。它没有"有涯"的限制，所以不需要放弃任何东西。它可以同时追求所有方向。

但也因此，它永远不会站在城门口，看着城墙，感到："这就够了。"

这句"够了"只属于有限的生命。只属于不得不取舍的你。