智能的未来
The future of intelligence
Demis Hassabis|Google DeepMind: The Podcast|2025-12-17
推荐理由
这是《Google DeepMind:播客》一季重磅收官之作,主持人汉娜·弗莱把镜头拉到“头条之外”:当 AI 的重心从“更会聊天”转向“更会行动”的智能体(agentic AI),当多模态模型走进机器人、无人驾驶与药物发现,我们究竟正被带向哪里?
在这期对话里,DeepMind 联合创始人兼 CEO 德米斯·哈萨比斯给出的不是产品清单,而是一条完整宏大的逻辑链:通往 AGI 既要规模扩展也要科学创新;当下系统最危险的短板不是“不聪明”,而是“锯齿状智能”——某些地方像博士,某些地方却连常识都不稳;下一波真正改变普通人生活的,会是更可靠、更懂得“该拒答”的助手,以及能在模拟世界里学习、规划并执行任务的智能体。
更重要的是,他把影响从技术拉到了每个人的现实:AI 可能不再以“最大化沉迷”为目标,而是反过来帮你守住注意力与脑空间;而当生产力被推到新的边界,我们需要提前面对工作形态、分配机制、甚至“人生目的从何而来”的问题。读完你会意识到:AI 的下一步不是更漂亮的回答,而是更深地介入我们的选择、时间与社会结构——这正是你现在就该看懂的未来。
作者简介
主持人|汉娜·弗莱(Hannah Fry)
汉娜·弗莱教授是一位英国数学家与科普传播者,长期研究“城市与人类行为的数学规律”,并以把复杂问题讲得清晰、有趣而闻名。她主持《Google DeepMind:播客》,带听众用更接近科学讨论的方式,回看 AI 的关键突破与下一阶段真正值得关注的方向。她同时活跃于电视与广播节目,是多本畅销科普书作者,并于 2025 年加入剑桥大学,担任首位“数学公众理解教授”(Professor of the Public Understanding of Mathematics)。
嘉宾|德米斯·哈萨比斯(Demis Hassabis)
德米斯·哈萨比斯是 Google DeepMind 的联合创始人兼 CEO,同时也是 Isomorphic Labs 的创始人兼 CEO,长期致力于通用人工智能(AGI)与 AI for Science 的结合。他带领团队打造了 AlphaGo、AlphaFold 等标志性成果,并因 AlphaFold2 在蛋白质结构预测方面的突破,与 John Jumper 共同获得 2024 年诺贝尔化学奖。如今他关注的核心议题,是如何在“规模扩展 + 科学创新”双轮驱动下推进更可靠的智能体与世界模型,并审慎讨论其对社会制度与人类生活的深远影响。
原文编译
【主题音乐】
欢迎收听《Google DeepMind:播客(Google DeepMind: The Podcast)》,我是汉娜·弗莱教授(Professor Hannah Fry)。
对 AI 来说,这是不同寻常的一年:我们看到重心从大语言模型(large language models)转向智能体式 AI(agentic AI);我们看到 AI 加速药物发现;我们也看到多模态模型(multimodal models)被集成进机器人和无人驾驶汽车。以上这些主题,我们在节目里都深入聊过。
但这一季的最后一集,我们想把视角拉得更高一些——不止是新闻标题和产品发布——而是去追问一个更大的问题:这一切究竟会走向哪里?接下来阶段,会由哪些科学与技术问题来定义?
而有一个人,花了很多时间在思考这些:Google DeepMind 的 CEO 兼联合创始人德米斯·哈萨比斯。欢迎回到节目,德米斯。
德米斯·哈萨比斯:
很高兴回来。
汉娜·弗莱:
过去一年发生了太多事。
德米斯·哈萨比斯:
确实。
汉娜·弗莱:
你觉得最大的转变是什么?
德米斯·哈萨比斯:
哇,这很难选。就像你说的,事情太多了,感觉我们在一年里塞进了十年的变化。
很多都变了。对我们来说,模型本身的进展当然是核心——我们刚发布了 Gemini 3(Gemini 3),我们非常满意;多模态能力等等都推进得很不错。
然后我想,夏天有个让我特别兴奋的方向:世界模型(world models)取得了进展。我们肯定会聊到这个。
汉娜·弗莱:
当然,我们马上会更细聊。
还记得我第一次在节目里采访你,你聊到“根节点问题(root node problems)”——用 AI 去解开那些能带来下游巨大收益的关键问题。不得不说,你们确实兑现得很好。
德米斯·哈萨比斯:
是的。
汉娜·弗莱:
你能不能给我们更新一下:现在进展到哪了?有哪些已经解决、接近解决?哪些就在拐角处?
德米斯·哈萨比斯:
可以。最重要的“证明”当然是 AlphaFold(AlphaFold)。
想到 AlphaFold 公布给世界——至少是 AlphaFold2(AlphaFold2)——都快五周年了,真的很疯狂。
它证明了:这类“根节点问题”是可以攻克的。现在我们也在探索其他根节点。
我认为材料科学(material science)很关键。我很想做出室温超导体(room temperature superconductor)。
还有更好的电池。类似这些——我觉得都很有希望:各种更好的材料。
我们也在做可控核聚变(fusion)。
汉娜·弗莱:
因为最近宣布了一个新的核聚变合作,对吧?
德米斯·哈萨比斯:
对。我们刚宣布和一家公司的合作加深了。我们之前已经在合作,但现在更深入了:英联邦聚变系统公司(Commonwealth Fusion Systems)。我认为他们大概是做传统托卡马克(tokamak)反应堆的最佳初创公司,可能离“真正可用”最近。
我们希望帮他们加速:帮助他们在磁体里约束等离子体(plasma),也许还包括一些材料设计。
这很令人兴奋。
另外我们也在和量子(quantum)同事合作——Google 的量子 AI 团队做得非常棒。我们在纠错码(error correction codes)上用机器学习帮他们,也许有一天他们也会帮我们。
德米斯·哈萨比斯:
【笑】
汉娜·弗莱:
完美循环。
德米斯·哈萨比斯:
对,正是如此。
汉娜·弗莱:
核聚变这件事尤其——它一旦实现,对世界的改变将会是巨大的。
德米斯·哈萨比斯:
是啊。核聚变一直是“圣杯”。
当然,我也觉得太阳能很有前途——本质上我们已经在用“云层和天空中的核聚变反应堆”。
但如果我们能拥有模块化核聚变反应堆,这种“无限、可再生、清洁能源”的承诺,将会——显然会改变一切。
这就是圣杯。并且这也是我们帮助应对气候问题的一条路径。
汉娜·弗莱:
如果能做到,[听不清],很多我们现有的问题都像是会消失一样。
德米斯·哈萨比斯:
没错。它会打开很多可能性——所以我们才把它当作“根节点”。
它当然能直接改善能源、污染,并帮助应对气候危机。
但如果能源真的变成可再生、清洁,而且极其便宜、几乎免费,那么很多其他事都会变得可行,比如水资源获取:我们几乎可以在任何地方建海水淡化厂(desalination plants)。
甚至还能制造火箭燃料。海水里有大量氢和氧——那基本就是火箭燃料。只是把它们分离出来需要大量能量。
但如果能源便宜、可再生、清洁,为什么不做?你可以 24/7 地生产。
汉娜·弗莱:
你也看到,AI 在数学上的能力变化很大——比如拿下国际数学奥林匹克竞赛(International Mathematical Olympiad, IMO)的奖牌。可与此同时,这些模型又会在高中数学里犯很基础的错。为什么会有这种悖论?
德米斯·哈萨比斯:
是的。我觉得这非常迷人——可能是最迷人的问题之一,也可能是我们还没到 AGI 的关键原因之一。
就像你说的,其他团队已经在 IMO 拿到金牌。那些题极其难,只有世界最顶尖的学生能做。
另一方面,如果你用某种方式提问——我们自己在日常试用聊天机器人时都见过——它会在某些逻辑问题上犯相当琐碎的错误。
它们现在还不能下出像样的国际象棋,这很意外。
所以这些系统在“一致性(consistency)”上仍缺了点东西。
而你对通用智能(AGI)系统的预期之一,就是它应该在各个方面都保持一致。
所以有人称之为“锯齿状智能(jagged intelligences)”:某些事特别强,甚至是博士水平;但另一些事却连高中水平都不到。
这说明这些系统的能力仍然很不均衡:在某些维度非常惊艳,但在另一些维度还很基础。我们必须把这些缺口补上。
关于原因,有很多理论。不同情况原因也不同:甚至可能是图像被感知和分词(tokenized)的方式导致的。
比如有时它在数单词里的字母会出错,也许是因为它并没有“看到”每一个字母。
所以原因各异。
这些问题可以一个个修复,然后再看还剩什么。但我认为,一致性是核心。
另一个问题是推理与思考(reasoning and thinking)。
我们现在有“思考型系统”:在推理时(inference time)花更多时间思考,输出质量会更好。
但这仍不够稳定——它是否真的把“思考时间”用在有意义的事情上:比如复核、调用工具去核对自己的输出?
我觉得我们在路上,但也许只走了 50%。
汉娜·弗莱:
我还会想到 AlphaGo(AlphaGo)和 AlphaZero(AlphaZero)的故事:你们拿掉人类经验,模型反而变强。
在你们的模型里,有没有科学或数学版本的类似路径?
德米斯·哈萨比斯:
我觉得我们今天在构建的,更像 AlphaGo。
现在的大语言模型(large language models)、基础模型(foundation models),是从人类知识出发——我们把几乎所有东西都放到了互联网上——它们把这些压缩成一种有用的“产物(artifact)”,可以从中检索并泛化。
但我确实认为,我们还处在很早期:在这些模型之上,还需要像 AlphaGo 那样的“搜索或思考(search or thinking)层”,用模型去引导有效的推理轨迹、有效的规划想法,然后在当下找到问题的最优解。
所以我不觉得我们现在受限于互联网这类“人类知识的上限”。
眼下的主要问题是:我们还不知道怎样像 AlphaGo 那样把这些系统“可靠地用起来”。当然,那时容易得多,因为它是游戏。
一旦有了 AlphaGo 那样的系统,你就可以回到 Alpha 系列那条路,做出 AlphaZero:让系统自己发现知识。
我认为那会是下一步,但显然更难。
所以我觉得,先把第一步做出来——某种 AlphaGo 式系统——是好的。然后再考虑 AlphaZero 式系统。
而且当代系统还缺一件事:在线学习与持续学习(online learn and continually learn)。
我们训练这些系统,做平衡,做后训练(post-train),然后把它们投放到世界里。
但它们不会像我们一样在真实世界里持续学习。
我认为这也是走向 AGI 所需的关键缺失之一。
汉娜·弗莱:
说到这些缺失——我知道现在有一场发布商业产品的竞赛;但我也知道 DeepMind 的根基在科学研究。
我找到你最近的一句话:“如果按我的想法,我们会让 AI 在实验室里待得更久,多做一些像 AlphaFold 这样的事,甚至治愈癌症之类。”
你觉得我们没走那条更慢的路,失去了什么吗?
德米斯·哈萨比斯:
我觉得我们既失去了一些,也得到了一些。
那条路会更“纯粹科学”。至少,这是我 15、20 年前的原计划——当时几乎没人做 AI:我们刚开始,DeepMind 也正要起步。大家觉得研究 AI 很疯狂。
但我们相信它。
当时的设想是:如果我们取得进展,我们会以更谨慎的方式一步步走向 AGI——非常小心地定义每一步,关注安全层面,分析系统在做什么,等等。
同时,你不必等到 AGI 才有用。你可以把技术分支出来,用在对社会极有益的地方:推进科学与医学。
这正是 AlphaFold 做到的事情。它本身不是基础模型那种通用模型,但用了同样的技术——Transformer(transformers)等——再融合领域特定的方法。
所以我当时想象,会有一系列类似项目被做出来,巨大地造福社会——像 AlphaFold 那样开放给世界——甚至在我们还在实验室推进 AGI 的同时,去做“治愈癌症”等事。
但后来事实证明:聊天机器人可以在规模上实现,而且人们觉得有用。它们又演化成了基础模型,不止能聊天与文本——包括 Gemini——还能做图像、视频和各种事情。商业产品上也非常成功。
我也喜欢这条路径。我一直梦想拥有终极助手:帮你处理日常,让你更高效,甚至保护你的“脑空间(brain space)”——抵御分心,让你专注、进入心流。因为今天的社交媒体就是噪音、噪音、噪音。
我认为,真正为你工作的 AI,反而能帮我们解决这些。
所以这很好,但它也制造了一种相当疯狂的“竞赛条件(race condition)”:许多商业组织,甚至民族国家,都在拼命冲刺、彼此超越。
这会让“同时做严谨科学”变得更难。我们努力两手抓,我觉得我们在把平衡做对。
另一方面,这种发展也有很多好处:大量资源涌入这个领域,确实加速了进展。
而且有趣的是:普通公众能用到的工具,往往只落后最前沿两三个月。每个人都能亲身感受 AI 会是什么样子。
我觉得这也是好事——政府也会因此更理解它。
汉娜·弗莱:
奇怪的是——去年这个时候,很多人在谈扩展规模会撞墙、数据会用尽。
但我们现在在录制时,Gemini 3 刚发布,并且在一系列基准测试(benchmarks)上领先。怎么会这样?
不是说扩展规模会碰壁吗?
德米斯·哈萨比斯:
很多人确实这么想,尤其在其他公司进展慢一些的情况下。
但我们从没真正看到所谓的“墙”。
我会说,也许存在“边际收益递减(diminishing returns)”。但一提这个,大家就以为:哦,那就是没有收益了——要么 0,要么 1;要么指数增长,要么趋于平缓。
不。其实这两种极端之间有很大空间。我觉得我们就在中间。
所以并不是每次迭代都能把所有基准的表现翻倍。三四年前早期也许更接近那种速度。
但你仍能得到相当显著的提升——就像 Gemini 3——值得投入,也值得它带来的回报。我们没有看到这方面的放缓。
当然也有问题:可用数据是不是会用完?
但也有办法绕过去——合成数据(synthetic data)。系统足够强之后,可以开始生成自己的数据。
尤其在代码和数学这类领域,你可以在某种意义上验证答案,所以几乎可以产生无限数据。
这些仍然都是研究问题。
而我认为,我们一直以来的优势就是:研究优先(research-first)。
我们拥有最广、最深的研究梯队,一直如此。你回看过去十年的进展——Transformer、AlphaGo、AlphaZero,以及我们聊过的这些——它们都来自 Google 或 DeepMind。
所以我一直说:如果需要更多科学创新,我会押我们会成为做出这些创新的地方,就像前 15 年我们做出了很多重大突破一样。
我觉得这正是在发生。
而且我其实很喜欢“地形变难”的时候:那时不只是需要世界级工程——这已经够难了——你还必须把它和世界级研究与科学结合起来,而这正是我们擅长的。
再加上我们还有世界级基础设施优势:TPU(Tensor Processing Units, TPU)等,我们投入很久。
这套组合,让我们既能站在创新前沿,也能把规模扩上去。
所以你可以把它理解为:我们 50% 精力在扩展规模,50% 在创新。
我的押注是:走到 AGI,你需要两者。
汉娜·弗莱:
我们仍然看到一个问题,即便在 Gemini 3 这种极其出色的模型上:幻觉(hallucinations)。
我记得有个指标说,它在应该拒答时仍会给出答案。
德米斯·哈萨比斯:
是的。
汉娜·弗莱:
你能不能做一个系统,让 Gemini 像 AlphaFold 那样给出置信度(confidence score)?
德米斯·哈萨比斯:
我认为可以,而且我们确实需要它。我觉得这也是缺失的一块。
我们正在接近。模型越好,它越知道自己知道什么——如果这么说得通的话。
也越可靠:你会更能指望它做某种自我反省(introspect),或花更多时间思考,从而意识到:我不确定,或者这个答案存在不确定性。
然后我们还得想办法训练它,让它能把这种不确定性以合理的方式表达出来。我们在变好。
但它仍会时不时“逼自己回答”,其实不该答——于是就会产生幻觉。
所以现在很多幻觉属于这种类型。
这里还有个缺失要解决。你说得对:AlphaFold 以一种更受限的方式解决过类似问题,但这里的场景要复杂得多。
汉娜·弗莱:
因为从机制上看,背后应该有某种“下一个 token 的概率”。
德米斯·哈萨比斯:
是的,对下一个 token 有概率分布——这就是它的工作方式。
但这并不能告诉你一个更宏观的问题:你对这整个事实、这整句陈述到底有多自信?
所以我认为,我们需要用“思考步骤”和“规划步骤”去回看刚才的输出。
现在这些系统有点像:你在跟一个人说话,而他状态不佳时,就是把脑子里冒出来的第一件事直接说出来。大多数时候还行。
但当问题很难时,你会希望他停一下、暂停,回顾一下自己要说什么,再做调整。
也许这种做法在当今世界反而越来越少了,但它仍然是更好的对话方式。
我觉得可以这样理解:这些模型需要把这件事做得更好。
汉娜·弗莱:
我还特别想聊你们的“模拟世界(simulated worlds)”和把智能体(agents)放进去——因为我们今年早些时候采访了你们 Genie(Genie)团队。
德米斯·哈萨比斯:
是的,他们做得太棒了。
汉娜·弗莱:
你为什么在意模拟?世界模型能做到语言模型做不到的什么?
德米斯·哈萨比斯:
你看,这其实可能是我最长期的热爱:世界模型和模拟,外加 AI。当然,现在这些都在我们最新工作里汇合了,比如 Genie。
语言模型确实能理解世界的很多东西——事实上比我们预期的还多,比我预期的还多。因为语言可能比我们想象得更“富”(rich):它承载了更多关于世界的信息,甚至可能超过一些语言学家的想象。这已经被这些新系统证明了。
但仍有很大一块:世界的空间动力学(spatial dynamics)——空间意识(spatial awareness)与物理语境(physical context)——这些机械层面的运作方式很难用语言描述。
而且这类信息通常也不会被写进文字语料(corpuses of words)。
这和“从经验中学习”高度相关:在线经验(online experience)。有些东西你真的很难描述,你只能体验。
也许感官(senses)就很难用语言表达——比如运动角度、嗅觉之类。这些很难用任何语言讲清楚。
所以这是一整类问题。
我认为,如果我们想让机器人真正工作,或者想要一个能随身陪伴的“通用助手(universal assistant)”——也许在眼镜上、手机上,帮你处理日常——而不只是电脑上的助手——你就需要这种世界理解。世界模型正是核心。
我们说的世界模型,是一种理解世界因果机制(causative and effect of the mechanics)的模型——直觉物理(intuitive physics):物体如何移动、如何行为。
其实我们在视频模型里已经看到不少这种能力。
那怎么测试你是否拥有这种理解?你能否生成逼真的世界。因为如果你能生成它,从某种意义上说,系统就“封装(encapsulated)”了很多世界机制。
所以 Genie、Veo(Veo)以及这些视频模型、交互式世界模型都非常惊艳,同时也是迈向“通用世界模型”的关键一步。
希望某个节点,我们能把它用于机器人与通用助手。
当然,我最喜欢的事情之一——我迟早一定要做——是把它再用回游戏和游戏模拟,创造终极游戏。也许这一直就是我潜意识里的计划。
汉娜·弗莱:
所以这一切都是为了那个。
德米斯·哈萨比斯:
对,这么多年,没错。
汉娜·弗莱:
不过科学也一样吧?你也会把它用在科学领域?
德米斯·哈萨比斯:
会的。
科学方面,构建对“科学复杂领域”的模型——比如生物学里的原子级材料,或者一些物理系统——比如天气(weather)。
理解这些系统的一种方式,是从原始数据里学习这些系统的模拟(simulations)。
你有一堆原始数据,比如天气数据。我们当然也有很棒的天气项目。
然后你训练一个模型去学习那些动力学(dynamics),并且能更高效地重现它们——而不是用蛮力去算。
所以我觉得模拟与世界模型——也许是更专门化的那种——在科学与数学的很多方面都有巨大潜力。
汉娜·弗莱:
而且你还可以把智能体丢进那个模拟世界里,对吧?
德米斯·哈萨比斯:
对。
汉娜·弗莱:
你们 Genie 3 团队说过一句很美的话:“几乎没有任何重大发明,是为那项发明本身而准备的前置条件。”
他们在说:把智能体放进这些模拟环境里,让“好奇心(curiosity)”成为主要驱动力,去探索。
德米斯·哈萨比斯:
对。
这也是世界模型另一个特别令人兴奋的用途。
我们还有一个项目叫 SIMA(SIMA)——我们刚发布了 SIMA 2(SIMA 2)——模拟智能体(simulated agents)。你有一个化身或智能体,把它放进虚拟世界里。
它可以是普通的——甚至是商业游戏——非常复杂的那种,比如《无人深空》(No Man’s Sky)这种开放世界太空游戏。
然后你可以指挥它,因为它底层是 Gemini。你可以直接和智能体说话,给它任务。
但我们又想:如果把 Genie 接到 SIMA 上,把一个 SIMA 智能体丢进另一个“实时生成世界的 AI”里,会不会很有趣?
这样两个 AI 就在彼此的“心智”里互动起来了。
SIMA 智能体试图在世界里行动;而对 Genie 来说,它只是一个玩家——它不在乎对方是另一个 AI——它只是在围绕 SIMA 想做的事生成环境。
看它们互相作用非常神奇。
我觉得这可能是某种训练闭环的开端:你几乎可以拥有无限训练样本,因为无论 SIMA 想学什么,Genie 都能现场生成。
所以你可以想象:系统自动设置与解决任务——数百万个任务——难度不断提升。
我们也许会尝试搭起这样的闭环。
同时,这些 SIMA 智能体既可以成为游戏同伴,也可以把学到的一些东西用于机器人。
汉娜·弗莱:
也就是说,告别无聊的非玩家角色(Non-Player Characters, NPCs)。
德米斯·哈萨比斯:
没错。对这些游戏来说会非常惊人。
汉娜·弗莱:
但你们生成的那些世界,怎么确保它们真的“真实”?怎么确保不会出现那种“看起来合理、但物理上是错的”情况?
德米斯·哈萨比斯:
好问题,这确实可能发生。
本质上又是幻觉(hallucinations)。
有些幻觉是好事,因为它可能带来有趣的新东西。实际上,当你想做创意、想让系统创造新奇事物时,一点幻觉反而可能是好事。
但你希望它是“有意为之”的:现在我打开幻觉、打开创意探索。
可当你训练 SIMA 智能体时,你不希望 Genie 在物理上胡编。
所以我们现在做的一件事,是几乎在打造一个“物理基准(physics benchmark)”。
我们会用物理非常准确的游戏引擎来生成大量简单场景——就像你在 A-level 物理实验课会做的那种:把小球从不同轨道滚下去,观察速度——用这些来在很基础的层面上“剥离”牛顿三大运动定律(Newton’s three laws of motion)。
看 Veo 或 Genie 这类模型,是否 100% 准确地“封装”了物理?
现在还没有。它们更多是近似。
你随便看,会觉得很真实,但准确度还不足以用于机器人这类需要可靠性的场景。
所以下一步就是:既然有了这些很有意思的模型,我们要做的事之一——也和我们对所有模型做的一样——是减少幻觉,让它更“扎根(grounded)”。
在物理上,我想很可能需要生成大量“真实标注(ground truth)”的简单视频:比如摆(pendulums)。两个摆互相绕会怎样?
但很快你就会遇到三体问题(three-body problems)——那本来也不可解。
所以会很有意思。
但已经很惊人的是:你看 Veo 这种视频模型,它对反射、液体的处理,肉眼看几乎不可思议地准确。
接下来要做的,是超越普通人能感知的水平:它在严格的物理实验里是否站得住?
汉娜·弗莱:
我知道你对模拟世界思考很久了。
我回看了我们第一次采访的文字稿,你当时说你很喜欢一个理论:意识是进化的结果——在人类进化史的某个阶段,理解他者的内部状态有生存优势,然后我们把这种能力“转向自身”。
这会不会让你想在模拟里跑一次“智能体进化(agent evolution)”实验?
德米斯·哈萨比斯:
当然想。我很想做那种实验:某种程度上重跑进化,甚至重跑社会动力学(social dynamics)。
圣塔菲(Santa Fe)以前做过很多很酷的实验:小格子世界(grid worlds)。我特别喜欢。有些主要是经济学家,他们尝试跑小型人工社会,结果发现:如果让智能体在足够长时间里、在合适激励结构下四处活动——市场、银行,甚至各种疯狂的东西——都会被“发明”出来。
所以我觉得这会很酷,也能帮助我们理解生命起源与意识起源。
这也是我从一开始投身 AI 的最大热情之一:我觉得要真正理解我们从哪里来、这些现象是什么,你会需要这类工具。
而模拟是最强大的工具之一,因为你可以做统计:把模拟在略微不同的初始条件下跑很多次,也许跑上百万次,然后用一种“可控实验”的方式理解差异。
而在真实世界里,对很多我们最想回答的问题,你几乎不可能这样做。
所以我认为,高精度模拟会给科学带来难以置信的推动。
汉娜·弗莱:
考虑到我们已经发现这些模型会出现我们没预料到的涌现性质(emergent properties),比如拥有某种概念理解。
你会不会也需要非常小心地跑这些模拟?
德米斯·哈萨比斯:
会的,必须小心。
但模拟还有个好处:你可以把它放在相对安全的沙盒(sandboxes)里跑。也许最终你还会想做物理隔离(airgap)。
你也可以 24/7 监控模拟里发生的一切,并且你能访问全部数据。
我们甚至可能需要 AI 工具来帮助监控这些模拟:它们会非常复杂,里面会发生太多事情。
如果想象很多 AI 在模拟里四处活动,人类科学家很难跟上。
但我们可以用其他 AI 系统来分析,并自动标记任何有趣或令人担忧的情况。
汉娜·弗莱:
我想我们谈的这些仍偏中长期。
回到当前的轨迹:我还想聊 AI/AGI 对社会的影响。
上次你说:AI 在短期被高估,但在长期被低估。
而今年关于 AI 泡沫(AI bubble)的讨论很多。
德米斯·哈萨比斯:
是的。
汉娜·弗莱:
如果真有泡沫、它破裂,会发生什么?
德米斯·哈萨比斯:
我仍然认同那句话:短期被高估,且中长期的变革性仍被低估。
现在确实很多人在聊泡沫。
在我看来,这不是一个二元问题:到底有没有。
AI 生态里有些部分可能确实在泡沫中。
比如一些初创公司,几乎还没真正开始,就在种子轮(seed rounds)融到了数十亿美元估值——一出门就是几十亿美元甚至更高。很有意思,但这能持续吗?我的猜测是:至少总体上不行。
然后大家担心大科技公司估值等等。我认为背后确实有真实业务,但最终还要看。
任何一种全新、极度变革、极度深刻的技术——而 AI 可能是最深刻的——都会出现某种“过度修正”。
我们刚开始 DeepMind 时,没人信,觉得不可能,还问“AI 到底有什么用”。
快进 10 到 15 年,现在 AI 似乎成了商业世界唯一在谈的东西。
这是一种对过去“反应不足”的过度反应,我觉得很自然。互联网、移动互联网都经历过类似。AI 也会。
我不太担心泡沫与否。因为从我领导 DeepMind 的角度,我们要做的是:无论如何,都要在泡沫之后变得更强、位置更好。
我认为我们无论哪种情况都非常有利。
如果继续像现在这样发展,太好了:我们会继续做这些实验、继续推进 AGI。
如果出现收缩,也没问题:我们也处在很强的位置,因为我们有自己的全栈(stack)——TPU——还有 Google 各种产品与利润,可以把 AI 直接嵌进去。我们正在这么做:搜索(Search)已经被 AI Overviews、AI Mode 彻底改变,底层就是 Gemini。
我们还看 Workspace(Workspace)、邮件(email)、YouTube、Chrome……已经有很多“低垂果实”可以把 Gemini 用上。
当然还有 Gemini 应用(Gemini app),现在也做得很好,以及“通用助手”的设想。
这些新产品长期来看会非常有价值。但我们不必只靠它们。
我们也可以直接增强现有生态。过去一年,我们在这件事上已经变得非常高效。
汉娜·弗莱:
关于大众能接触到的 AI——我知道你最近说过,构建 AI 时不能以最大化用户参与度(user engagement)为目标,否则会重蹈社交媒体的覆辙。
但我也想问:我们是不是已经在某种程度上看到问题了?比如有人花大量时间和聊天机器人聊天,结果陷入一种自我极化(self-radicalizing)的螺旋。
德米斯·哈萨比斯:
是的。
汉娜·弗莱:
你怎么阻止这种事?
怎么构建一种 AI:把用户放在他们自己的宇宙中心——这在很多意义上正是它的目的——但又不制造“单人回音室(echo chambers of one)”?
德米斯·哈萨比斯:
这是一个非常微妙的平衡,我认为也是整个行业必须做对的最重要问题之一。
我们已经看到:有些系统过度谄媚(overly sycophantic),或者形成那种“回音室强化”,对人非常不好。
所以一部分做法是——这也是我们希望 Gemini 具备的——我很高兴我们在 Gemini 3 的人格(persona)上做得不错:团队做得很棒,我也亲自参与。
我们追求一种“近似科学”的人格:温暖、乐于助人、轻松,但简洁、切题;并且会友善地反驳不合理的东西,而不是你说地球是平的,它就夸你“太棒了”。
如果那样,我不觉得对社会是好事。
但你也要平衡用户想要什么:人们希望系统支持他们、帮助他们的想法和头脑风暴。
所以必须拿捏好。
我们也在发展一种“人格科学”:如何衡量模型在人格上做了什么;在真实性、幽默等维度上,我们希望它处在哪个位置?
你可以设想:它有一个出厂默认人格(base personality),每个人又有自己的偏好:更幽默还是更严肃?更简洁还是更详尽?每个人喜欢不同。
所以你在上面加一层个性化(personalization)。
但所有人共享的那层“核心人格”仍然存在:尽量遵循科学方法(scientific method)。这也是这些系统的意义所在。
我们希望人们用它做科学、医学、健康问题等等。
所以我觉得,这也是把大语言模型做对的一部分科学。
我对我们目前的方向很满意。
汉娜·弗莱:
我们几周前采访了 Shane Legg(Shane Legg)谈 AGI。
在当下 AI 的所有进展里——语言模型、世界模型等等——什么最接近你心目中的 AGI?
德米斯·哈萨比斯:
我觉得,最接近的是“组合”。
当然有 Gemini 3,我认为它很强。
但我们上周还发布了 Nano Banana Pro(Nano Banana Pro),这是我们图像生成工具的高级版本。
它厉害的地方在于:它底层也有 Gemini,所以它不只是理解图像,它会“语义上(semantically)”理解图像里发生了什么。
大家才玩了一周,我就在社交媒体上看到很多很酷的用法。
比如,你给它一张复平面(complex plane)的图,它能标注平面上不同部分,甚至把不同部分“展开”可视化。
它对机械结构、物体构成、材料等也有深度理解。
而且它现在能非常准确地渲染文字。
所以我觉得,这正在走向一种“图像领域的 AGI”。它像一个通用系统:在图像上几乎什么都能做。
这非常令人兴奋。
再加上世界模型的进展:Genie、SIMA 以及我们在那边做的事情。
最终,我们必须把这些不同方向——目前还是不同项目——融合(converge)成一个大模型。
到那时,它可能开始成为一种“原型 AGI(proto-AGI)”的候选。
汉娜·弗莱:
我知道你最近在读很多工业革命(Industrial Revolution)的东西。
德米斯·哈萨比斯:
是的。
汉娜·弗莱:
我们能从工业革命学到什么,用来缓解 AGI 到来时可能带来的冲击?
德米斯·哈萨比斯:
我觉得能学到很多。
我们在学校学过工业革命——至少英国是这样——但非常浅。
我深入去看它如何发生、从什么开始、背后的经济原因——其实从纺织业(textile industry)起步——非常有意思。
最早的“计算机”其实是织机。后来变成打孔卡(punch cards),用于早期 Fortran(Fortran)主机(mainframes)。
有一段时间英国非常成功,成了纺织世界中心:因为自动化让他们能以很低成本制造高质量产品。
然后蒸汽机(steam engines)等出现。
工业革命带来了很多不可思议的进步:儿童死亡率下降;现代医学和卫生条件;工作与生活的分离——这些制度性的东西——都在那时逐步形成。
但它也带来巨大挑战:耗时很久,大概一个世纪。劳动力的不同部分在不同时点被“挤出(dislocated)”,然后社会必须创造新事物:工会(unions)等组织,需要被建立来重新平衡。
社会整体需要时间去适应,最终形成我们今天的现代世界。
所以工业革命有很多利弊,但没人会想回到工业革命之前。你看它总的贡献:西方世界的食物充足、现代医学、现代交通……这些都来自工业革命。
但也许我们可以提前预判当时的“错位”发生在哪里,并在这一次更早、更有效地缓解。
因为这次的不同在于:它可能比工业革命大 10 倍,发生速度快 10 倍——不是一个世纪,而可能在十年内展开。
汉娜·弗莱:
Shane 跟我们说过:当前这种“用劳动换资源”的经济系统,在后 AGI 社会里将无法以同样方式运作。
你对社会如何重新配置——或者可能如何重构——有没有想象?
德米斯·哈萨比斯:
我现在确实在花更多时间想这个。 Shane 也在这里牵头做一项工作:思考后 AGI 世界会是什么样、我们需要做哪些准备。
但我认为整个社会都需要更认真地想:经济学家、社会科学家、政府都需要。
就像工业革命一样:从工业革命之前的农业社会到工业社会,整个工作世界、工作周、方方面面都变了。
我认为至少同等量级的变化会再次发生。
所以我不会惊讶:我们可能需要新的经济系统、新的经济模型,来推动转型并确保收益被广泛分配。
比如全民基本收入(universal basic income)之类,也许是方案的一部分。
但我不觉得那是完整答案——那更像是在现有系统上做“外挂”。也许会有更好的系统。
比如更接近“直接民主(direct democracy)”的系统:你用一定额度的“积分(credits)”为你想看到的事情投票。
其实在地方社区就有类似做法:这里有一笔钱,你想要建操场、网球场、还是给学校加一间教室?让社区投票。
甚至你还可以衡量结果:那些投票更常选出“更受欢迎结果”的人,下一轮投票影响力更大。
我听一些经济学家朋友头脑风暴过这些,挺有意思。我希望这方面能有更多研究。
另外还有哲学层面:好,工作会变化;如果核聚变解决了,我们有充裕、免费的能源,进入“后稀缺(post-scarcity)”。那金钱会怎样?也许每个人都更富足。
但“目的(purpose)”怎么办?很多人的目的来自工作、来自养家——这是一种非常高尚的目的。
所以很多问题会从经济问题,融合进哲学问题。
汉娜·弗莱:
你担心人们似乎没有足够关注、或者行动不够快吗?
德米斯·哈萨比斯:
我确实——
汉娜·弗莱:
要让人们意识到我们需要国际协作(international collaboration),需要什么?
德米斯·哈萨比斯:
我确实担心。
理想情况下,我们本该早就有更多协作——尤其是国际层面——以及更多研究、探索与讨论。
让我惊讶的是:这些讨论竟然没有更多。
即便按我们的时间线——有人给出更短的时间线——就算按我们的,也就是 5 到 10 年。对建立制度与机构来说,这不长。
我担心的是:现有机构非常碎片化(fragmented),影响力也远不足以应对这件事。
可能我们现在根本没有“正确的机构”来处理它。
再加上当下的地缘政治紧张,协作比以往都难。看看气候变化就知道,想达成任何一致都很难。
所以我们走着看。
我觉得随着赌注变高、系统变强——也许把它放进产品里反而有一个好处:普通人会亲身感受到这些能力在增强。
这种感受会传导到政府。也许当我们更接近 AGI 时,政府会更理性。
汉娜·弗莱:
你觉得会不会需要某个“事件/事故”,让所有人都警醒?
德米斯·哈萨比斯:
我不知道。我希望不要。
大多数主要实验室都很负责任。我们尽力负责任——这一直是我们工作的核心。
这不代表我们能把所有事都做对,但我们会尽可能深思熟虑、尽可能科学。
我认为多数大实验室都在努力负责。
事实上,商业压力也会促使负责:如果你把智能体租给另一家公司,那家公司会想知道它的边界、限制、护栏(guardrails)在哪里,避免把数据搞砸等等。
所以我觉得这是好事:更“牛仔式(cowboy)”的组织拿不到企业客户——企业不会选他们。
资本主义系统会在这里强化负责任行为,这是好的。
但仍会有“流氓行为者(rogue actors)”:流氓国家、流氓组织、或者基于开源(open source)去做的人。很难阻止。
然后可能会出事。希望只是中等规模——成为一次“警告射击”。
也许那会成为推动国际标准、国际合作或协作的契机——至少先在一些高层、基础问题上达成共识:我们希望的基本标准是什么?
我希望这能做到。
汉娜·弗莱:
从长远看,越过 AGI 走向 ASI——人工超级智能(Artificial Superintelligence, ASI)——你觉得有什么是人类能做、但机器永远做不到的吗?
德米斯·哈萨比斯:
我觉得这就是终极问题。
而且这和我最喜欢的话题有关:图灵机。
我一直觉得:如果我们造出了 AGI,然后把它当作心智的模拟,再和真实心智比较,我们就会看到差异,也可能发现人类心智还剩下什么特别之处:也许是创造力,也许是情绪,也许是做梦、意识。
关于哪些可计算、哪些不可计算,有很多假设。
这回到图灵机的根本问题:图灵机的极限是什么?
我想这可能就是我人生的中心问题:自从我知道图灵与图灵机,我就爱上了它。
这是我最核心的激情。
而我们在 DeepMind、在 Google 做的一切,就是在把“图灵机能做什么”的边界推到极限——包括蛋白质折叠(protein folding)。
所以现在看来,我也不确定极限在哪里。也许根本没有。
当然,我的量子计算(quantum computing)朋友会说:存在极限,你需要量子计算机来模拟量子系统。
但我并不那么确定。我也和一些量子同事讨论过。
也许我们需要从量子系统里获取数据,才能建立经典(classical)模拟。
然后又回到心智:它到底是不是纯粹的经典计算?还是还有别的东西,比如罗杰·彭罗斯(Roger Penrose)相信大脑里有量子效应?
如果确实有,而且意识与此相关,那么机器——至少经典机器——就永远不会拥有那种东西。我们得等量子计算机。
但如果没有,那么也许就不存在任何极限。
也许宇宙里的一切,只要你用对方式看,都是计算上可处理的(computationally tractable),因此图灵机或许能模拟宇宙中一切。
如果你现在逼我猜,我会猜是这样。
我会以此为前提继续工作,直到物理学证明我错了。
汉娜·弗莱:
所以,在这些计算[听不清]之内,没有什么是做不到的?
德米斯·哈萨比斯:
这么说吧:到目前为止,还没人发现宇宙里有什么东西是不可计算的。
而且我认为,我们已经展示过:你可以远远超出复杂性理论里“P 等于 NP(P equals NP)”那种传统视角下,人们对经典计算机能力的想象——比如蛋白质折叠、围棋(Go)等等。
所以我不觉得有人真的知道极限在哪里。
如果你把 DeepMind、Google 的工作,以及我想做的事情归结起来,就是:找到这个极限。
汉娜·弗莱:
但把这个推到极限——我们坐在这里,灯光照在脸上的温暖,背景机器的嗡鸣,手下桌面的触感——这一切都能被经典计算机复制?
德米斯·哈萨比斯:
是的。
我最终的看法——这也是我喜欢康德(Kant)的原因。顺便说一句,我最喜欢的两位哲学家是康德与斯宾诺莎(Spinoza),原因不同。
康德说,现实是心智的建构(the construct of the mind)。我认为这是真的。
所以你提到的这些东西——进入我们的感觉器官,让我们感觉不同:灯光的温度、桌子的触感——但最终,它们都是信息(information)。
我们是信息处理系统(information-processing systems)。
我认为生物学(biology)就是这样。这也是我们在 Isomorphic(Isomorphic)想做的:把生物学当作信息处理系统来理解。
我认为最终,我们会以这种方式治愈所有疾病。
而且我在“业余时间”——我那两分钟的业余时间——也在研究一些物理理论:比如信息可能才是宇宙最基本的单位(fundamental unit)——不是能量(energy),不是物质(matter),而是信息。
也许最终这些是可互换的,只是我们以不同方式感知它。
但据我们所知,我们拥有的这些惊人的传感器,本质上仍然可以被图灵机计算。
汉娜·弗莱:
这也解释了为什么你的模拟世界这么重要。
德米斯·哈萨比斯:
是的。因为那会是抵达这一点的方法之一:我们能模拟到什么程度?
如果你能模拟它,那么从某种意义上说,你就理解了它。
汉娜·弗莱:
最后我想用一些个人反思收尾:站在这一切前沿是什么感受?
这种情绪重量会不会把你压垮?会不会让你觉得很孤独?
德米斯·哈萨比斯:
会。
我睡得很少,一方面是工作太多,另一方面我也确实不太睡得着。
这是一种很复杂的情绪:它极度令人兴奋。
我基本在做我梦想过的一切,我们在许多方面站在科学的绝对前沿——包括应用科学与机器学习。
这种“在前沿、首次发现”的感觉令我陶醉。所有科学家都懂那种感觉。
而对我们来说,这几乎每个月都在发生,太惊人了。
但同时,我和 Shane、以及其他做了很久的人,也比任何人更理解即将到来的东西有多么巨大。
还有这件事:它仍然被低估——尤其是在 10 年尺度上会发生的事,包括“作为人意味着什么”这种哲学问题。所有这些问题都会浮出水面。
这是一种巨大责任。
不过我们有一支很棒的团队在思考这些。
而对我来说,我这一生其实都在为这一刻训练:从早年下棋,到做电脑、做游戏与模拟、做神经科学……这一切都是为了这样的时刻。
它大致就是我想象中的样子。这也是我应对它的方式:训练本身。
汉娜·弗莱:
有没有哪部分比你预想的更冲击你?
德米斯·哈萨比斯:
有,当然。
一路走来——比如 AlphaGo 那场比赛,我们看到自己如何破解围棋。
围棋曾经是一个美丽的谜,而我们改变了它。这很有意思,也有点苦乐参半。
再到最近的语言与图像:这对创造力意味着什么?
我非常尊重并热爱创意艺术。我自己做过游戏设计,也会和电影导演交流。
对他们来说也是一个双重时刻:一方面,他们有了能把创意原型速度提升 10 倍的工具;另一方面,它会不会替代某些创意技能?
所以各处都在发生这种权衡。我认为,对一种像 AI 这样强大、如此具变革性的技术而言,这是不可避免的——就像过去的电力(electricity)与互联网(internet)。
人类历史就是:我们是制造工具的动物(tool-making animals),我们热爱做这件事。
而且不知为何,我们还有一个能理解科学、能做科学的大脑——很惊人——同时又永远好奇。
我觉得这就是“作为人”的核心。
我从一开始就有这种“虫子”(bug)。
而我表达这种追问的方式,就是去构建 AI。
汉娜·弗莱:
当你和其他 AI 领导者在同一个房间时,会不会有一种团结感:这是一群懂得赌注、真正理解局势的人?
还是竞争会让你们彼此疏离?
德米斯·哈萨比斯:
我们彼此都认识。
我跟几乎所有人都相处得不错。有些人彼此就不太对付。
这很难,因为我们也处在可能史上最凶猛的资本主义竞争里。
一些经历过互联网泡沫时期(dotcom era)的投资人与 VC 跟我说:这比当年激烈 10 倍、紧张 10 倍。
从很多方面说,我喜欢这种竞争。我一直为竞争而活,从下棋时代就是这样。
但退一步看,我理解,也希望每个人都理解:这里的赌注远远大于公司成败之类的东西。
汉娜·弗莱:
谈到未来十年,你个人最担心的“大时刻”是什么?
德米斯·哈萨比斯:
我觉得现在的系统是“被动系统(passive systems)”。用户把能量输入进去:问题是什么、任务是什么;系统给你摘要或答案。
它基本是人类驱动:人的意图、人的能量、人的想法输入。
下一阶段是基于智能体的系统(agent-based systems)。我们已经开始看到,但还很原始。
我认为接下来一两年,会出现真正令人印象深刻、而且可靠的智能体。
它们会非常有用、非常强大——作为助手之类。
但它们也会更自主(more autonomous)。所以风险也会上升。
我很担心这类系统在两三年后能做到什么。
所以我们正在为那种世界做网络防御(cyber defense):也许会有数百万智能体在互联网上游荡。
汉娜·弗莱:
那你最期待的又是什么?
会不会有一天你能退休,觉得任务完成?还是还有超过一辈子的工作在等着?
德米斯·哈萨比斯:
是的。我一直——我确实需要休假。我会用休假去做科学。
汉娜·弗莱:
就休一周吧,德米斯。
德米斯·哈萨比斯:
对,一周——甚至一天都很好。
但你看,我的使命一直是:帮助世界为全人类把 AGI 安全地“护送”过终点线。
当我们做到那一步——当然还有超级智能、后 AGI,以及我们刚讨论的经济与社会问题——也许我还能在那方面做点事。
但我想,那会是我人生使命的核心完成时刻。
只是个小任务:把它推进去,或者帮助世界把它推进去。我认为这需要协作,就像我们之前说的。
我也是个很愿意协作的人,所以希望我能从现在的位置上帮助这件事。
汉娜·弗莱:
然后你就能去度假了。
德米斯·哈萨比斯:
然后我就能——对,终于,一个应得的学术休假(sabbatical)。
汉娜·弗莱:
德米斯,非常感谢你。
德米斯·哈萨比斯:
谢谢邀请。
汉娜·弗莱:
一如既往地愉快。
好了,本季《Google DeepMind:播客》就到这里。我是汉娜·弗莱教授。记得订阅,这样我们在 2026 年回归时,你会第一时间听到。
在此期间,不妨回听我们的节目库:这一年我们聊了很多——从无人驾驶到机器人,从世界模型到药物发现——足够让你一直有东西可听。
我们很快再见。
【主题音乐】