【翻译】关于我们的大脑，自由能告诉了我们什么？

自由能原理作为一种关于大脑功能的统一解释。其和此前的统一理论，诸如贝叶斯推断、预测性编码以及主动学习密切相关并在某些情况下包含了它们。本文章旨在理清这些联系，揭示其独特性以及共同的预测。

关键词：贝叶斯大脑；决策理论；变分推断；预测性编码

引言

在一个果壳里，自由能原理（free energy principle, FEP）就是说大脑寻求最小化的惊喜^[1]。 FEP 可以说是当今最具野心的关于的脑理论，包含了很多诸如预测性编码、效率编码、贝叶斯推断以及最优控制理论的其他重要理论。然而，正是这种普遍性造成了一个顾虑：FEP 到底预测了什么，以及它到底没有预测什么？（~~所以如来到底来没来啊？~~）因为应用 FEP 所依赖的假设是可塑的（比方说，不同的应用使用了不同的生成模型，不同的算法近似以及不同的神经实现），所以搞明白问题在哪里并不容易。此外，在这些假设中，其中一部分是和其他理论相通，一些则“特立独行”；一些属于核心理论，而另一些属于临时或为分析方便而设。

本文章系统的解构了 FEP 背后的一系列假设，目的是确定其独特的理论主张是什么。将会很清楚的是，FBP 并没有一套固定的独特主张。相反，它在不同的假设下提出了不同的主张。这必然不是坏事，提供了我们可以在任何具体的应用中验证这些假设从而使理论假设可被证伪。

在进行下去前，我们必须解决这种解构方法的两个顾忌。一些 FEP 理论的支持者可能据理力争确定独特的理论主张是没有意义的；关于一个大统一理论的唯一要做的就是使主张统一化而不是区分它。然而，在这里很基本的问题不是一个理论是否比别的理论更加优秀，而是如何理清不同的理论的好处与坏处。如果 FEP 无法解释数据，是归因到贝叶斯大脑的假设？还是贝叶斯推断的具体实现？或者是概率模型的具体假设？只有回答了这些问题，我们才可以理解一个大统一理论的成功与失败，对其假设设计出适当的测试，以及确定提升理论的具体方法。

另一个关于这种方法的顾虑则出于 FEP 根本不是一个理论的争论，就理论被视为一系列围绕着经验性的现象而可证伪的主张的意义而言。因此我们称之为原理而非理论，原理由在一个形式数学系统中的一系列自洽表述建立。理论建立形式空间与实证经验的联系，因此可以在在基于这些关联的理论给出错误的估计时证伪该理论。从这个角度看， FEP 是无可非议的：其数学完备性充分证明了作为原理的资格。我们在这里将会关注于其作为理论的资质，以及我们将单独花出一些精力在其在特定领域的实现上（过程模型）。

贝叶斯大脑假说

作为 FEP 的引子，简要的说明下贝叶斯大脑的假说很有帮助 [^[2]]^[3]^[4]，这个可以用神经科学家更加了解的说法来表达，以及其事实上等价于特定条件下的 FEP （将在下一节详细展开）。贝叶斯脑的第一个主张是大脑配有周遭环境的内部模型（或生成模型），其指定了从隐藏状态（记作 \(s\)）到生成感官观察（记作 \(o\)）的“配方”。这种内部模型可能并不在大脑内某个特定的区域；我们主张运作的大脑“像是”它有一个内部模型。为了让贝叶斯脑假说有预测的能力，有必要关于内部模型的结构做一些清楚的假设。

关于内部模型有两个需要被明确的组件。首先，隐变量从先验分布 \(p(s)\) 中被提取。比方说隐藏状态可能是一个物体表现的某线段的朝向，那么先验可能是偏向主方向而非斜向的分布¹^[5]。其次，感官观察从基于隐藏状态的观测分布 \(p(o|s)\) 中得到。比方说，将隐藏线方向投影到视网膜上再被编码为视网膜神经节细胞的放电。这个编码的过程可能充满噪音（因为神经元放电的随机性））或很模棱两可（因为三维的物体经过光学投射变成了二维的视网膜上的平面），这使得不同的隐藏状态可能都能在一定程度上“解释”观察到的结果。这种合理性的程度被定量为似然，在一个给定的关于隐藏状态的假设情况的概率分布之下的观测值的可能性。

关于贝叶斯大脑假说的第二点声明是先验与似然的结合推断了观测值给出的隐藏状态，就像是贝叶斯规则所约定的：

\[ p(s|o) = \frac{p(o|s)p(s)}{p(o)} \]

其中， \(p(s|o)\) 是后验分布， \(p(o) = \Sigma_{s} p(o|s)p(s)\) 是边缘似然（对于连续的状态来说，总和用积分代替）。我们可以认为贝叶斯规则作为计算基于给定观测值的隐藏状态的信念度的内部模型的“反转”。

通过引入智能代理能够通过策略 \(\pi\) 去做出行动来影响其观测值的设置，贝叶斯大脑假说能够很自然的被扩展。其中 \(\pi\) 是从观测到行动的分布的映射。一个智能代理选择最大化信息增益的最简单的变体为：

\[ \mathcal{I}(\pi) = \sum_{o} p(o|\pi) \mathcal{D}[p(s|o, \pi)||p(s|\pi)] \]

其中 \(o\) 在这里被记作对未来的观测，以及 \(\mathcal{D}\) 意为相对熵：

\[ \mathcal{D}[p(s|o, \pi)||p(s|\pi)] = \sum_{s} p(s|o, \pi) \log{\frac{p(s|o, \pi)}{p(s|\pi)}} \]

上面关于 \(\mathcal{I}\) 的式子就是“贝叶斯惊讶”，以及 \(s\) 以及 \(o\) 之间是以 \(\pi\) 为条件的交互信息。

贝叶斯大脑假设能够被自然地扩展

\[ \mathcal{I}(\pi) = \sum_o \]

无约束自由能原理是贝叶斯推断

FEP 的基本迹象时将贝叶斯推断转化为最优化问题（请参见以下【待施工】）

约束变分家族

预测性编码

主动推断

作为推断的计划

结论

本文章有以下的信息：

对于没有行动的被动观察，FEP 的预测是
预测性编码不是 FEP 的一般后果

致谢

我非常感谢 Ben Vincent 、 Momchil Tomov 、 Chris Summerfield 、 Giovanni Pezzulo 、 Peter Battaglia 、 Jan Drugowitsch 、 Rani Moran 、 Yuqing Hou 、 Jascha Achterberg 、 Rebort Rosenbaum 、 Sabya Shivkumar 以及 Nathaniel Daw 等在论文早期的草稿阶段的评论。

其他信息

关于作者

术语表

orginal content	翻译
predictive coding	预测性编码
efficient coding	效率编码
Bayesian inference	贝叶斯推断
active learning	主动学习
optimal control theory	最优控制理论
decision thoery	决策理论
variational inference	变分推断
interal model	内部模型
generative model	生成模型
hidden states	隐藏状态
sensory observations	感官观察
likelihood	似然
marginal likelihood	边缘似然
prior	先验
posterior	后验
belief	信念度
Information gain	信息增益
Kullback-Leibler(KL)/relative divergence	相对熵
Bayesian surprise	贝叶斯惊讶
mutual information	交互信息
optimization problem	最优化问题

个人向的生词表：

英文	中文（文中含义）	英文	中文（文中含义）
subsumes	包含	teasing apart	揭示
approximations	近似	moreover	此外
arguably	可论证地	concern	顾虑/关心/…
ambitious	有野心的	malleable	可塑的
idiosyncratic	怪异的	identify	确定
As will become clear		a set of	一套
particular	具体的	thus	从而
falsifiable	可证伪性	address	解决（不常见）
qualms	顾忌	proponents	支持者
reasonably argue	据理力争	account	解释
attributable to	归因到	devise	设计
empirical	经验性的	unobjectionable	无可非议的
soundness	完整性	credential	资格
prelude	引子	familiar to	了解
equipped	配有	specify	指定
denote	记作	recipe	配方
be drawn from	被提取	retina	视网膜
stochasticit	随机性	ambiguous	随机性
stipulated	约定	summation	总和
mutual	相互的	distinctive	独特性

[1]

FRISTON K. The free-energy principle: a unified brain theory?[J]. Nature reviews neuroscience, 2010,11(2):127–138.

[2]

LEE T S, MUMFORD D. Hierarchical Bayesian inference in the visual cortex[J]. Journal of the Optical Society of America A, 2003,20(7):1434–1448.

[3]

KNILL D C, POUGET A. The Bayesian brain: the role of uncertainty in neural coding and computation[J]. TRENDS in Neurosciences, 2004,27(12):712–719.

[4]

DOYA K. Bayesian brain: Probabilistic approaches to neural coding[M]. MIT press,2007.

[5]

GIRSHICK A R, LANDY M S, SIMONCELLI E P. Cardinal rules: visual orientation perception reflects knowledge of environmental statistics[J]. Nature neuroscience, 2011,14(7):926–932.

主方向（cardinal orientations）通常指的是水平或垂直方向，而斜向（oblique orientations）则是介于这两者之间的任何角度。研究表明，人类大脑在处理视觉信息时，确实更倾向于主方向（水平和垂直），可能是因为这些方向在自然环境中更常见，更容易识别和处理。↩︎

——亟待更新——