笔记:智能简史

从多细胞动物到当今人类

笔记:智能简史
Photo by Amanda Dalbjörn / Unsplash

原文:Notes: A Brief History of Intelligence

Sarabet|scyy.fi|2025.08.31


这是一本关于“智能如何被实现”的大视野之作,将人工智能的突破与既有神经科学研究加以综合。

我尤其喜欢在照看5个月大的女儿间隙读这本书,看着一个心智正在成长,再去思考这些问题。你可以看我筛选后的摘要,也可以直接去买书,沉浸在对“智能如何被实现”这一史上最有趣问题之一的探寻中。读起来就像和一位极其健谈有趣的朋友共度周末。

作者说自己只是个“随机的家伙”,对这个问题产生兴趣,拼凑出答案,而不是开辟新天地的人。(虽然在满足好奇心的过程中,他也发表过一些研究论文。)他把智能的发展脉络,从最早的多细胞动物到当今人类,分为五个突破点:

  1. 驾驭(Steering)
  2. 强化(Reinforcing)
  3. 模拟(Simulating)
  4. 心智化(Mentalizing ≅ 心智理论)
  5. 语言(Language)

这五个都很有意思,但因后两个已有较多研究覆盖,我的笔记主要聚焦前面三个。

驾驭,6亿年前:珊瑚 vs 线虫

24亿年前,有个细菌攻克了光合作用,引发“大氧化事件”。在此之前,生命大多靠厌氧呼吸存活。光合生物能制造并储存糖分,于是变得“美味”。以前的细菌营养价值太低,不值得猎食;光合生物的出现,让捕食有了意义。这推动了效率更高的有氧呼吸。

动物和真菌这两个多细胞“呼吸分支”(相对于光合分支)走了不同道路:真菌等着含糖的生命死去,再通过外部消化分泌酶来分解;动物则发展出一个奇怪的“口袋”。

口袋带来了新的含义。

通常,其他生物可不想进你的口袋。它们甚至会主动避开任何可能导致“进袋”的迹象。所以,一旦猎物靠近,你这个“口袋拥有者”需要反应迅速而精准,而不仅仅像植物或真菌那样被动反应。于是你需要能快速收缩的肌肉,以及能触发这些肌肉的神经元(既有抑制性的,也有兴奋性的),从而实现逻辑判断:“当你在这儿感觉到触碰,就放松这些肌肉,收紧那些肌肉,并张开嘴。”

如果你是辐射对称动物,比如水母或珊瑚虫,你只有口袋、肌肉和神经。而如果你拥有两侧对称的身体计划,你的口袋就是一根管子。

你会注意到,动物界里两侧对称的身体计划占据优势。因为它更适合“驾驭”。辐射对称的动物不擅长捕猎,它们需要能同时朝各个方向感知并移动;而即便是简单的“前端有传感器的双边管子”,也能导航、找食物、躲捕食者。汽车和扫地机器人也是这种设计,前端有传感器的双边对称框架。

只有两侧对称动物才有大脑,这强烈暗示大脑诞生是为“驾驭”服务的。

以线虫为例——我们猜测它和6亿年前埃迪卡拉纪最早的“有脑动物”类似。线虫通过嗅觉快速找到食物,只需两条规则:

  1. 如果食物气味增强,继续前进。
  2. 如果食物气味减弱,转向。

(线虫对光、冷、热、尖锐表面也遵循同样两条规则。)

扫地机器人也是这个逻辑。活物只靠这两条规则,就能走很远。

那为什么线虫需要大脑,而珊瑚不需要?除了协调大量肌肉之外,更重要的是,它需要一个“中央站”来整合各种“投票”。

线虫讨厌光,但喜欢食物。它要把这些相反因素加总,得出最终的“舵向”。

等等,它还能做得更妙!

如果线虫吃饱了,它会避开二氧化碳;饿的时候,则会朝二氧化碳靠近。因为二氧化碳既可能来自食物,也可能来自捕食者——饱了就没必要冒险,饿了就值得一试。动物细胞在饱或饿时释放不同化学物质,弥漫全身,提供一个“全局信号”。于是它能根据内在状态调整外部刺激的“价性”(valence)。

所以,要实现“驾驭”,我们需要:

  • 两侧对称的身体计划
  • 把刺激分类为正/负价性
  • 一个能加总各种价性投票的大脑,输出唯一的舵向
  • 依据内在状态来调节价性

情绪

结果发现,在“驾驭”的过程中,我们顺带获得了“情绪”的基础。

情绪在整个动物界的两个普遍特征是:价性(valence)和唤醒度(arousal)。对于一个需要驾驭的生物,这意味着:

  • 高唤醒 + 正价性:游得慢,频繁转弯——利用
  • 高唤醒 + 负价性:游得快,很少转弯——逃避
  • 低唤醒 + 正价性:静止不动——满足
  • 低唤醒 + 负价性:抑郁

这种二维情感空间的位置,被称为“情感状态”(affect)。对线虫而言,它回答两个问题:“我要留在这里还是离开?”“我要消耗能量移动还是停下?”

有趣的是,情感状态会在刺激消失后持续存在。对驾驭来说,这是必要的。因为食物或捕食者的气味并不会形成完美的梯度。情感状态的持续性可以避免一个失败模式:只要水流暂时遮挡了信号,你就停止移动。

连扫地机器人都懂这一点——遇到一片灰尘时,它会清扫周边,即便灰尘已经不再被检测到。灰尘往往意味着附近还有灰尘。

前三种情绪状态直观易懂:找到好东西、逃避捕食者、消化时休息。但为什么线虫需要“抑郁”?它已经有“不怎么动”的状态了。原来,从急性压力(高唤醒负价性)到慢性压力(低唤醒)是一种“省能黑客”。当刺激无法逃避时,线虫在大约30分钟后就不再试图逃跑。

多巴胺与血清素

情感状态由神经调质生成,其中最著名的是多巴胺(dopamine)与血清素(serotonin)。在线虫中,它们几乎完美对应情感空间:多巴胺在检测到食物时释放,血清素在食物进入体内时释放。它们分别是“好东西就在附近”的化学物质与“好东西真的发生了”的化学物质。

这一抽象对非线虫也依然成立。关于多巴胺我已熟知,但对血清素我曾感到无能为力。

血清素在奖励被消耗时释放,触发低唤醒,抑制进一步追逐奖励。如果人为提高大鼠的血清素水平,它们会停止进食,更愿意延迟满足。(延迟满足更多见于哺乳动物部分再谈。)血清素还能降低大鼠在进食时的喜悦和厌恶表情。

这也符合血清素的进化起源:它就是“满足/现在一切安好”的化学物质。

当线虫处于慢性压力时——即负性刺激持续太久,它从高唤醒切换到低唤醒——除了肾上腺素等压力激素,它还会重新获得血清素,来关闭价性、降低唤醒。结果就是“有压力但情绪被削弱”,这听起来很像麻木或抑郁。

这也解释了我一直的困惑:为什么血清素与抑郁症的关系如此复杂。虽然肯定还有更多机制,但仅此一点就能解释,为什么血清素有时能缓解抑郁,有时却无效。

相对的,多巴胺增加会让大鼠冲动地利用任何眼前的奖励,甚至狂吃它们并不想要的食物——同时还会做出“讨厌”的表情。若摧毁大鼠的多巴胺神经元,它们会在食物旁饿死,不去尝试进食,但当你把食物塞进它们嘴里时,它们仍会露出“幸福”的表情。

人类若获得一个按钮能直接激活自己的多巴胺神经元,就会疯狂按下去,事后形容那感觉就像“永远在高潮前积累,却永远无法到达高潮”。

联想(Association)

除了情感状态(affect),驾驭还带来另一件东西:联想

巴甫洛夫(Pavlov)发现狗在尝到食物之前就会分泌唾液时,其实研究的本意是消化。他本想排除这些“干扰”,以便测量狗在不同食物下分泌的唾液量。结果却发现,这几乎不可能——狗会对任何与食物相关的东西形成不由自主的联想。

线虫同样会发展条件反射。它们能学会把新的事物与食物、捕食者或毒素关联起来——比如,一旦把某种原本中性的气味和食物联系起来,它就会朝那个气味移动。而大多数非两侧对称动物不会这样。似乎“价性”一旦出现,“改变价性”的能力也随之而来。如果你会“驾驭”,你在进化上就有动力根据经验调整决策。

如果你不需要驾驭,学习环境中的关联就没什么意义。 这,就是学习的最初开端。

强化,5.3亿年前:线虫 vs 鱼类

在某个时刻,我们类似线虫的祖先进化出第一条脊椎动物——一种鱼类——并与无脊椎动物分道扬镳。

鱼类能够通过试错学习来掌握任意一串动作(例如走出迷宫找食物)。它们会采取随机动作,再逐步强化带来奖励的动作。那么,鱼脑做了线虫脑做不到的什么?

事实证明,鱼脑完成了人工智能在1994年下西洋双陆棋(backgammon)时的同样突破。这次突破是算法/架构上的,而不是算力/数据/参数上的。它叫作时间差分学习(temporal difference learning, TD learning),比以往更优雅地解决了信用分配问题(credit assignment problem)

信用分配问题是:当某件好事或坏事发生时,你如何知道该把它与环境中的哪些线索联系起来?

线虫的办法很粗糙:它只会在以下情况下学会“刺激X与刺激Y有关”:

  • X发生在Y之后的一秒之内
  • X很强烈
  • X不熟悉
  • 还没有其他预测线索与Y关联

而鱼脑和最早的优秀AI用的方法完全不同。

在训练AI玩西洋双陆棋时,奖励——输赢——发生在最后。你不能像线虫那样,只奖励最后一秒的动作;也不能因为算力原因,对每一步都给奖励。那该奖什么呢?

诀窍是设置“演员(actor)”和“评论家(critic)”两个子系统。评论家随时预测获胜的概率,演员决定采取何种动作。被奖励的是“当前预测获胜概率与过去预测概率的差值”。这就是TD学习的“时间差分”。当AI的演员子系统做出一个好动作,把棋盘状态推到更有希望的位置时,评论家识别到并立即奖励这一步。

听起来有点循环论证——因为在训练初期,演员只是乱走,评论家也不知道什么是好局面。但同步训练有效。这个方法应用到西洋双陆棋时,AI通过自我对弈,自主发现最佳走法,最终远超之前模仿人类专家的AI。

(它必须自我对弈;一开始就和强手下,它学不到东西。)

为什么认为鱼脑在做TD学习?

第一,因为我们找到了“演员”——基底神经节(basal ganglia, BG)。与大脑很多模糊不清的区域不同,BG结构在脊椎动物中高度一致。它接收来自大脑其他部分的输入(动物的动作与环境),经过处理后传递到输出核。输出核由抑制性神经元组成,连接到运动中枢。

BG的大多数时候都在抑制动作,只有当特定神经元关闭时,某个运动回路才会“解锁”。这就是在选择下一步的唯一动作。

第二,因为我们发现脊椎动物对多巴胺做了轻微“改造”,让它对应于“奖励的时间差分”。在猴子实验中,当它们得到提示、预期糖水时,多巴胺反应既不对应于愉悦本身,也不对应于糖水、或意外惊喜。它清晰对应的是:当它们预测的未来奖励比刚才更高时,多巴胺被释放。它对奖励时间(5秒后还是20秒后)、奖励概率、奖励强度都很敏感。

为了让强化学习运作,强化(reinforcement)奖励(reward)必须解耦。而多巴胺成为了强化的信号。

  • 对线虫来说,多巴胺只意味着“好东西在附近”。
  • 对鱼来说,多巴胺被进化成传递TD学习信号。

失望、释然与时间

线虫没有“惊讶”,因为它们不会预测未来的奖励。鱼会预测,所以能体验“失望”(预期的好事没发生)或“释然”(预期的坏事没发生)。

鱼类能通过“预期的好/坏事的缺席”被训练,而线虫只能靠联想,不能靠预测。

TD学习的另一个结果是:脊椎动物获得了时间感。预测需要时间标尺——看到一个线索后,好事或坏事多久发生?能测量这个“多久”很有用。

模式识别

鱼脑还能做线虫不能的事:模式识别

模式识别包括嗅觉识别,这其实相当复杂。一个气味并不是某个嗅觉神经元单独触发,而是某个特定子集的神经元一起触发。

判断盘子太烫,只需个别神经元放电;但识别人脸、声音、气味,需要模式识别。计算挑战有两点:

  • 区分(discrimination):如何区分捕食者、食物和配偶,哪怕它们触发重叠的嗅觉神经元?办法是进行大规模维度扩展,让庞大的神经网络层接收来自较小感觉层的输入。
  • 泛化(generalization):如何把略有差异的东西认作同一现象?靠赫布学习(Hebbian learning,“一起放电,就连上线”),让不完整的模式能在皮层中激活完整模式。这叫“自联想(auto-association)”。

赫布学习足以处理嗅觉泛化,但视觉/听觉的泛化是另一回事。输入的变化幅度要大得多。鱼能把不同角度的青蛙认作同一只青蛙(尽管书里没说鱼是否一眼就能做到)。

自联想无法解决这个问题。它永远不能把不同角度的新物体认出来。我们至今不知道脊椎动物大脑是怎么做到的。

卷积神经网络(CNN)在某种程度上能做到。作者认为关键在于:CNN内置了平移不变性假设——即图像中某个物体即便换了位置,仍是同一个物体。硬编码这种假设,能让算法表现更好。

这种先验假设被称为归纳偏置(inductive bias)——当多种解释可能时,它会让算法更倾向于学习某一种模式。

寒武纪大爆发(The Cambrian Explosion)

把镜头再拉远一点—— 在寒武纪,脊椎动物的感觉器官出现了爆发式的发展——不仅多样性大幅提升,能力也全面跃升。

模式识别的发展提高了感觉器官的价值,反之亦然,因此它们以极快的速度共同进化!而二者与强化学习(学习任意动作序列)之间又有大量协同效应。于是,寒武纪出现了一种“失控式选择”:两个(或更多)特征会突然让彼此变得更加有用。所有这些变化发生得非常快。

好奇心(Curiosity)

如何让一个正在进行强化学习的系统不仅会“利用”(exploit),还会“探索”(explore)?过去我们只是让在学习的AI按一定比例随机采取动作,但更好的做法是:把惊讶本身设为可被强化的东西。

在鱼类和其他脊椎动物中,“惊讶”本身就会触发多巴胺释放。于是:好奇心是那些能够进行强化学习的动物的属性。线虫没有好奇心;鱼有。

空间地图(Spatial maps)

关于鱼与线虫的最后一点:鱼类海马体(hippocampus)中的某些神经元(“位置细胞(place cells)”)只在鱼处于空间中的某个特定位置时才会激活。鱼可以从变化的起点导航到同一地点(例如去拿食物)。线虫不会这样做,蚂蚁也不会。这基本上是脊椎动物的能力。

这就是空间地图,也是第一个世界模型!!借此,动物可以区分“有什么东西正朝我游来”和“我正朝某个东西游去”。

模拟,2亿年前:犬齿兽(cynodonts) vs 鱼类

什么是犬齿兽(cynodonts)? 大约在3亿年前,羊膜动物(amniotes)——一种会产卵的“蜥蜴类”——登陆。它们不是第一批上岸的(昆虫早就在陆地上),但非常成功,分化为爬行动物和恒温的兽孔类(therapsids)。

恒温代价高,但也意味着兽孔类可以在夜间捕猎——那时爬行动物昏昏欲睡、容易成为猎物。它们一度成为最成功的谱系。

大约在2.5亿年前,一系列火山爆发让世界变得不适宜生存。对恒温动物打击最大,它们大多灭绝了。爬行动物开始统治。主要幸存的兽孔类谱系,是我们的祖先犬齿兽,一种打洞的生物。它变得很小——大约10厘米长。它是所有哺乳动物的祖先。

看看这小家伙。它即将发展出新皮层(neocortex)——这是大脑的一个新部件,而非对既有部件的升级。

新皮层柱(The neocortical column)

新皮层很奇特。视觉皮层处理视觉输入;听觉皮层处理声音;还有负责运动、音乐、语言的区域。人们曾经困惑:作为整体的新皮层到底在做什么?

我们可以简化这个问题,因为新皮层是由一个重复且复制的微电路构成的——新皮层柱(neocortical column)。它是一根六层的神经元“柱”,内部彼此高度连接,但与其他柱的连接并不多。这些柱在新皮层各处看起来都一模一样,却能做非常不同的事:有的柱只“监听”老鼠的一根胡须,有的柱只选择特定频率的声音。第五层里总有一种特定类型的神经元,总是投射到区域X和Y;第四层里总有直接从Z获得输入的神经元,等等。它被预先布线来执行某种特定的计算。

所以,与其问“新皮层在做什么”,我们不如问:这个电路在做什么?

答案更容易:它会模拟接入它的任何输入。

就像生成式人工智能(generative AIs)所做的那样。

生成式人工智能(Generative AIs)

识别与生成之间存在强关联。第一个成功对手写数字进行分类的AI——注意,它从未被告知“有10个数字”或“它们应该长什么样”——之所以成功,是因为它在“两端”之间切换:一会儿“接收一个真实的‘7’并重构它”,一会儿“生成一个它能识别为‘7’的图像”。它不停在识别与生成之间来回流动,让二者对齐。

尽管AI此后演进很大,但(很多?多数?)生成式模型依然靠自己生成数据,再把生成数据与真实数据对比来学习识别。

我们可以称这个过程为想象(imagination)

我们相当确定,新皮层电路实现的是一种生成式模型——当你真的看到一个气球,或仅仅想象看到一个气球时,激活的是同样的神经元。感知与想象在生成式AI和新皮层中都不可分割。只有哺乳动物和鸟类——它们似乎具备想象力——才有快速眼动睡眠(REM)(以及在剥夺睡眠时出现的幻觉),这是一种不受真实感觉输入约束的生成过程。

你大概了解“知觉推断(inference)”:当图像中只隐约暗示某个熟悉形状时,你仍能“看见”它,而且很难“看不见”了。如果同一张图还暗示另一种形状,你不可能同时看见两者,因为你所感知到的是大脑从感觉数据推断出的模拟,而它一次只能模拟一件事。

事实上,AI(或人)无法同时进行“模拟与识别”,因为它们使用的是同一套电路!在想象的人会屏蔽掉大量感官输入;而专注于外界的人则很难进行想象。

理解新皮层中的生成式模型的一个方式是:它在渲染你的环境模拟,以便先于事件发生做出预测。新皮层持续把真实感觉数据与其模拟所预测的数据进行比较。这就是你能立刻识别周围任何“意外”的原因:你注意到的是模拟与现实之间的差值(delta)

在AI语境中,生成(比如生成同一张脸在多个角度的图像)常被视为实现识别的手段。但在动物中,识别对于没有新皮层的鱼类都不算难,而模拟只有在这块新硬件出现后才可能。

既然识别不需要新皮层,就意味着新皮层的用途是实现模拟

替代性试错(Vicarious trial and error)

有了“模拟”,你能做什么?大事就是替代性试错

当老鼠在迷宫的决策点左右摇头时,你可以看到老鼠海马体中的位置细胞像老鼠身处不同地点一样闪烁。

……特定的海马体神经元编码特定的位置。对鱼来说,这些神经元只在鱼真的处于被编码的位置时才会活跃——但当Redish与Johnson记录老鼠的这些神经元时,他们发现了不同之处:当老鼠停在决策点、左右转动头部时,它的海马体不再编码老鼠的实际位置,而是快速来回播放由两个可能未来路径构成的位置编码序列。Redish几乎用肉眼看到了老鼠在“想象”未来的路径。 这项发现的突破性怎么强调都不为过——神经科学家直接窥见了一只老鼠的大脑,直接观察到老鼠在考虑多个可能的未来。托尔曼(Tolman)是对的:他观察到的“摇头”行为,确实是老鼠在计划未来行动。

与此同时,鱼必须进行真实的试错。给一条之前曾用一个洞在鱼缸两半之间穿行的鱼看:玻璃隔板另一边有食物。它会直冲玻璃,然后放弃。只有当它偶然经过那个洞,进入另一半时,才会得到食物。它可以通过试错学会再次这么做,但它不能进行替代性试错。

另一个例子:老鼠如果非常缺盐,就会冲向那盘过咸的食物(平时它讨厌并会回避)。鱼没有任何等价行为。鱼无法“模拟”这样一种情景:平常难吃的东西,在当下却会格外可口。如果没有被强化去做某个“反常”动作,它就不会去做。但老鼠可以想象这次过咸的食物会很美味。

情景记忆(Episodic memory)

情景记忆本质上就是一种模拟!我们之所以知道这一点,是因为回忆过去与想象未来使用的神经回路极其相似——而且记忆本身嘛,其实很差。我们会把细节“幻觉”出来。

为什么是哺乳动物?(Why mammals?)

为什么在哺乳动物出现之前没有出现“模拟”?一种推测:

  • 你需要在陆地上,因为在水下你看不远。能“看见更多环境”时,提前规划更有用。
  • 你需要是恒温的。低温下神经元放电速度要慢得多。唯一显示出能模拟行动的非哺乳动物是鸟类,而它们同样是恒温的。

无颗粒前额叶皮层(The agranular prefrontal cortex)

好,现在你已经能“模拟”了。但你可以模拟任何东西。那该模拟什么?怎么知道什么有用?

AI在有限问题上多少解决了这个难题——比如 AlphaZero 会挑出几个最优选项并演算,但现实世界复杂得多。我们并不确切知道人脑是怎么做的——但我们知道是哪部分大脑在做。

到目前为止,我们说的“模拟”都是在头部后方的感觉新皮层(sensory neocortex)。而在前方的额叶皮层(frontal cortex)里,有两个区域值得关注:

  • 颗粒状前额叶皮层(granular prefrontal cortex, gPFC):进化得更晚,先放一边。
  • 无颗粒前额叶皮层(agranular prefrontal cortex, aPFC):额叶最古老的部分,决定要想象什么。

aPFC 用的还是新皮层柱(neocortical column),和感觉区一样。那么它在模拟什么?它的主要输入来自海马体(hippocampus)、下丘脑(hypothalamus)和杏仁核(amygdala),这暗示:aPFC 处理“地点序列、价性激活、内在情感状态”,就像感觉新皮层处理“感觉信息序列”一样。也许,aPFC 正在尝试解释和预测动物自身的行为,就像感觉新皮层尝试解释和预测外部感官流一样?

aPFC 能在基底神经节(basal ganglia)触发行为之前,就预测动物将做什么。它在模拟动物自身——并由此建构出一个心理产物:意图(intent)

构建“意图”有何意义?这可能帮助动物选择要模拟什么!大脑只有在有“目标”的概念时,才能理解什么与目标相关。

aPFC 在出错或遇到意外时最兴奋。它能通过与基底神经节连接触发“全局暂停”,以探索动物下一步可能的动作预测。感觉新皮层和 aPFC 会同步(可能共同渲染某个特定模拟)。接着,模拟中最让基底神经节兴奋的那个“奖励”就会被选中——而基底神经节并不知道这是现实还是想象!

事实上,这些模拟中的奖励本身也会对行为进行强化。 (顺带的自助启示:你可以通过模拟并想象收益来训练自己形成新行为。)

“无颗粒”(Agranular)

新皮层柱的第四层含有一种叫颗粒细胞(granule cells)的神经元。所谓“无颗粒”,就是 aPFC 缺少这一层。

在感觉皮层里,第四层是原始感觉输入流入的地方。但负责建构“意图”的大脑部分并不想基于动物的行为来更新预测——它希望改变行为。如果你口渴却正往没有水的地方走,aPFC 不会想调整“意图建构”去假设你并不口渴。

心智化,五千万年前:黑猩猩 vs 大鼠(Mentalizing, 50 million years ago: chimpanzee vs rat)

黑猩猩能以相当复杂的方式藏食物,这显示它们拥有关于“他人知道什么”的模型。

为什么它们会发展出这种能力?

可能因为早期灵长类是食果动物(frugivores),这是个认知负荷很高的生态位——你得在果实成熟但尚未掉落(且还没被别人吃掉)的窗口期采摘。你要掌握每棵果树的时间表,最好还得提前计划哪些快要成熟。

水果提供了充足的热量,能支撑更大的大脑。也提供了大量“闲暇”,让它们有机会折腾和制造麻烦。灵长类每天最多花20%的时间在社交上,这是很大的一块。

灵长类的社会权力并不来自蛮力,而是来自精妙的“政治”:和曾经吵架的家伙和解,识别并结盟有价值的低阶猿,理解高阶个体的意图并预测他们未来行为,推测谁可能后来上位。要做到这些,你需要心智理论(theory of mind)。那么,大脑里发生了什么?

颗粒状前额叶皮层(The granular PFC)

来看 gPFC——进化得更晚的额叶部分,只有灵长类才有。在人类身上,gPFC 在需要自我参照的任务中独特活跃:比如考虑自己的感受,评估人格特质,想象自己处于某种场景。

大致来说:

  • aPFC 从动物的内在状态入手,预测其行为,并产出“意图”。
  • gPFC 的输入则来自 aPFC。

于是我们进入了元层级。 aPFC 在解释杏仁核和海马体(发明“意图”);gPFC 可能在解释 aPFC(发明……“心智”?)。

设想把我们的灵长类祖先放进迷宫。当它走到一个分叉点,选择向左。假如你能问不同脑区“为什么向左走”,你会得到层层不同的答案:

  • 反射水平:因为我有进化硬编码规则,往有气味的那边走。
  • 脊椎动物结构:因为向左能最大化预期未来奖励。
  • 哺乳动物结构:因为左边有食物。
  • 灵长类结构:因为我饿了,饿的时候吃东西很舒服,而据我所知,向左能吃到食物。

在猴子和人类身上,gPFC 在需要推测他人意图或知识的任务中都会亮起来;gPFC 较厚的人往往社交网络更大,心智理论任务表现更好。它既用于理解自己,也用于理解他人。

新学习(New learning)

心智理论(至少以灵长类的方式实现的那种)让你能做一件很酷的事:通过观察学习新技能

当一只灵长类观察另一只执行动作时,她自己的前运动皮层(premotor cortex)常常会被激活,就像她自己在做动作一样。这就是著名的镜像神经元(mirror neuron)现象。

以下例子更能说明心智理论与观察学习的联系: 暂时抑制人类的前运动皮层,会削弱他们在观看别人搬箱子时推断箱子重量的能力(手臂轻松举起意味着箱子轻;手臂一开始吃力、调整姿势后才举起意味着箱子重)。但这并不会影响他们通过观看小球弹跳来推断重量的能力。这说明:人们在看别人搬箱子时,会在脑中模拟自己搬箱子(“只有当箱子重时,我才会那样转动手臂”)。

你之所以拥有心智理论,是因为你的大脑能在极其具体、身体化的层面上假装“你就是对方”。因此,当你观看别人做一个你从未做过的任务时,你的大脑在某种程度上表现得像是你亲自做过。

黑猩猩会用工具,而且同一群体内部的方法往往高度一致,尽管河对岸的另一群体可能用完全不同的方法。不仅如此,心智理论还让黑猩猩能主动“教学”——要做到这一点,它必须能建模学生懂什么、不懂什么。

计划(Planning)

哺乳动物在拥有“模拟”之后就已经具备了计划能力,但灵长类把它提升到新的层次——因为心智理论让你能模拟未来的自己

老鼠口渴时,可以想象并规划路线去找水。但如果它当前不渴,它不会规划如何为“未来口渴的自己”准备水。

灵长类则能做到。

语言,二十万年前:人类 vs 黑猩猩(Language, 0.2 million years ago: human vs chimpanzee)

强化(reinforcing)的突破,让早期脊椎动物能从自己真实的动作中学习(试错)。 模拟(simulating)的突破,让早期哺乳动物能从自己想象的动作中学习(替代性试错)。 心智化(mentalizing)的突破,让早期灵长类能从他人的真实动作中学习(模仿学习)。 而语言(speaking)的突破,则是让早期人类能够从他人的想象动作中学习。

不同于前几个突破——它们都对应某种新的神经结构——人类并没有哪一块猿类所没有的脑区。是的,人类脑子更大,某些部位更发达,但线路还是那套。

最难解释的地方在于:在人类大脑并无结构性创新的前提下,语言是怎么出现的? (推测范围:十万至五十万年前。现代人类在大约十万年前分化,但语言能力与今天差不多,这也是洞穴艺术等符号出现的时期。五十万年前之前,喉部和声带还未适应口语。)

猿类可以被教会手语(因为它们在生理上无法像人类那样说话),甚至有多例它们能把手势重新组合,说出新东西。但它们的水平永远超不过人类幼儿。我们是怎么做到的?大脑里发生了什么?

当然,我们听说过布罗卡区(Broca’s area)和韦尼克区(Wernicke’s area)。它们位于灵长类心智化区域中间。但黑猩猩也有这些区域,而且线路相同。更甚者:即便儿童的整个左半球(这些区域通常所在处)被切除,他们依然能学会语言。

如果不是特定脑区,那是什么? 人类之所以能做到,大概不是靠纯粹的认知飞跃(尽管我们的大脑是黑猩猩的三倍也确实有帮助),而是依赖发育行为与本能的调整

有两点在人类婴儿身上成立,但在猩猩幼崽身上不成立:

  • 四个月大时,人类婴儿会进行原对话(proto-conversation):和父母轮流发声,来回互动。
  • 九个月大时,他们会开始进行联合注意(joint attention):指向某物,希望父母一起看,或者看妈妈指的东西并互动。(由此可以看出,如果语言起源于母婴活动,用来改进工具使用,那么完全没必要借助“群体选择”来解释其进化优势。)

猩猩会跟随目光,但不会像人类孩子那样渴望联合注意。而人类父母在达成联合注意的那一刻,会做什么?他们会给那个物体贴上词语标签

要让猩猩掌握语言,你可以给它更大的脑子,但这还不够——你必须改变它们的本能,让它们在童年间自然进行为语言习得而“设计”的游戏。

作者的结论: 人脑里没有什么“语言器官”,就像鸟脑里没有“飞行器官”。问“语言在哪块脑区”可能和问“棒球在哪块脑区”“弹吉他在哪块脑区”一样荒谬。这类复杂技能并非归属某个单一位置,而是源自多个区域的复杂交互。让这些技能成为可能的,不是某个专门执行的器官,而是一种“课程安排(curriculum)”,迫使复杂的神经网络协同工作来学会它们。

所以,这就是为什么人类与黑猩猩的大脑几乎一样,却只有人类有语言。人类大脑的独特性,不在新皮层,而是在更古老、更隐秘的结构里,比如杏仁核和脑干。是一些硬连线本能的调整,让我们会轮流说话,让孩子和父母凝视往复,让我们提出问题。

这也解释了为什么猩猩能学到语言的基础。猩猩的新皮层完全有能力做到。但它们难以精通,只因它们缺乏必要的学习本能:它们很难进行联合注意,很难轮流,没有分享想法或提问的本能。缺少这些本能,语言就像飞行之于不会本能跳跃的鸟——基本不可能。

有一条微弱但间接的证据支持“差异主要在语言习得本能,而非语言能力”:弗洛勒斯人(Homo floresiensis)在岛屿环境中脑容量和体型都缩小(脑容量接近黑猩猩),但依然制造石器,而这些石器可能需要语言来传承。

道德(Morality)

我跳过书中关于语言如何影响早期人类进化、知识积累等部分,只挑最后一个话题来结束:道德

人类在地球上是极端、难以置信的利他者。我们同样也是极端的恶毒和毁灭者。动物不会无缘无故帮助陌生受苦的生命,也不会搞种族灭绝,更不会因为冲突或拒绝而连续十几年骚扰某个人。

我们的利他和恶毒,都源自语言。这一点,本书与其他作品(我第一次是在《大脑里的大象 The Elephant in the Brain》里看到)都说得很有说服力。

语言带来的“八卦”能力,使人类能协调起来惩罚叛徒、奖励利他。利他被选择出来,因为“英勇”或“慷慨”常常能让你爬上社会阶梯,尤其是以一种“社交高明”的方式表现英勇。

每一次八卦能力和惩罚违约者的能力增加,都让“更利他”更优;每一次利他增加,又让“更愿意分享信息”更优,从而进一步选择出更高阶的语言技能。

这种新型社会环境还选择出了另一种本能:识别并惩罚道德违规者。而“什么算违规”则复杂、多样,甚至有时荒唐可笑。

作者顺带提到过博斯特罗姆(Nick Bostrom),或许他担心人类灭绝。我也担心,而且觉得很可能在下个世纪发生(但不是因为AI)。

但正如作者指出的,宇宙还很年轻。我们大概只走过了恒星形成时代的1%。即便我们不在了,也还有大量时间让某些生命变成多行星、甚至多星系的存在。问题是:他们会成为什么样的“人”?