因果推断与机器学习 基于因果解释的机器学习
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
来源:集智俱乐部
审校:龚鹤扬、陆超超
编辑:邓一雪
论文题目:
Towards Causal Representation Learning
论文地址:
https://arxiv.org/abs/2102.11107
这篇名为Towards Causal Representation Learning的综述文章由因果领域领军人物马普智能系统所所长Bernhard Sch?lkopf及深度学习三巨头之一的Yoshua Bengio等人撰写。顾名思义,何为因果表征causal representation呢?其又拥有怎样优良的性质使我们想要学习因果表征呢?
为了回答这些问题,让我们从表征学习说起。表征学习Representation Learning是机器学习中的重要问题,良好的表征是机器学习算法成功的重要条件;正因如此,近十年来深度学习借助神经网络强大的表达能力、海量的数据以及强大的算力,自动地从数据中学习表征,取代了传统的人工制作的特征,取得了瞩目的成就。由深度学习三巨头之二的Yoshua Bengio和Yann LeCun牵头创办的深度学习顶会,即命名为国际学习表征会议International Conference on Learning Representations,足见表征学习的重要性。
尽管深度学习在近十年极大地推动了机器学习的发展,但是仍有许多问题亟待解决,例如将知识迁移到新问题上的能力。许多关键问题都可以归结为OOD(out-of-distribution)问题。因为统计学习模型需要独立同分布(i.i.d.)假设,若测试数据与训练数据来自不同的分布,统计学习模型往往会出错。然而在很多情况下,i.i.d.的假设是不成立的,而因果推断所研究的正是这样的情形:如何学习一个可以在不同分布下工作、蕴含因果机制的因果模型(Causal Model),并使用因果模型进行干预或反事实推断。
我们可以很自然地想到将因果推断的优点结合到机器学习中,然而现实没有这么容易。因果模型往往处理的是结构化的数据,并不能处理机器学习中常见的高维的低层次的原始数据,例如图像。为此,让我们回到最初的问题,因果表征即可理解为可以用于因果模型的表征,因果表征学习即为将图像这样的原始数据转化为可用于因果模型的结构化变量。因果表征学习就是连接因果科学与机器学习的桥梁,解决这一及相关问题,就可以很好的将因果推断与机器学习结合起来,构建下一代更强大的AI。
接下来,我们就跟随作者的思路,详细的探讨描述物理世界的不同模型的层次,统计模型与因果模型的区别包括模型的能力相关的假设及挑战,学习因果模型所必需的独立因果机制原则,学习因果模型的方法,如何学习因果表征,以及从因果的角度重新审视了诸多机器学习的挑战并指出了因果带来的启示。
谈及对自然现象建模,自然而然就可想到黄金标准――微分方程组。它根据时间的演变建模物理机制,可以让我们预测物理系统未来的行为,推断干预的效果以及预测变量间的统计相关性;还可以提供物理本质,让我们可以解读因果结构。
如果说微分方程是对物理系统全面详尽的表述,那么统计模型(Statistical Model)可被看作表面的粗糙的描述。它无法预测干预的效果,但是的优点在于通常可以从观察数据中学习,而前者通常需要专家来提出。因果建模则存在于这两个极端之间,它期望能够像物理模型一样预测干预的效果,但同时可以在一些假设下,通过数据驱动的方法找到这样的模型,来取代专家知识。
基于上文的表述,表一给出了模型的分类与层级,并且给出了分级的依据――越高层的模型拥有更多更强的能力,这些能力从低到高分别是:在i.i.d.条件下预测的能力,在分布偏移/干预下预测的能力,回答反事实问题的能力,是否蕴含物理本质。接下来首先讨论这些能力,并在下一个章节具体解析统计模型与因果模型的区别。具体地说,基于统计模型的机器学习模型只能建模相关关系,而相关关系往往会随着数据分布的变化而变化;而因果模型所建模的因果关系则是更本质的,反应数据生成机制的关系,这样的关系是更鲁棒的,具有OOD泛化的能力。
在独立同分布条件下预测的能力
统计模型只是对现实的粗浅描述,因为它们只关注关联关系。对于样本和标签,我们可以通过估计来回答这样的问题:“这张特定照片中中有狗的概率是多少?”,“给定一些症状,心力衰竭的概率是多少?”。这样的问题是可以通过观察足够多的)产生的i.i.d.数据来回答的。尽管机器学习算法可以把这些事做的很好,但是准确的预测对于我们的决策是不够,而因果科学提供了一个尚未完全探索的补充。举例来说,鹳出现的频率是和欧洲的人口出生率正相关的,我们的确可以训练一个统计学习模型来通过鹳的频率预测出生率,但显然这两者并没有什么直接的因果关系。统计模型只有在i.i.d.的情况下才是准确的,如果我们做任何的干预来改变数据分布,就会导致统计学习模型出错。
我们进一步讨论干预问题,它是更具挑战性的,因为干预会使我们跳出统计学习中i.i.d.的假设。继续用鹳的例子,“在一个国家中增加鹳的数量会增加该国的出生率吗?”就是一个干预问题。显然,人为的干预会使得数据分布发生变化,统计学习依赖的条件就会被打破,所以它会失效;另一方面,如果我们可以在干预的情况下学习一个预测模型,那么这有可能让我们得到一个对现实环境中的分布变化鲁棒的模型。实际上这里所谓的干预并不是什么新鲜事,很多事情本身就是随时间变化的,例如人的兴趣偏好,或者模型的训练集与测试集本身就有分布的不匹配。对神经网络的鲁棒性,已经有越来越多的关注,成为了一个与因果推断紧密连接的研究话题。作者认为对于在分布偏移下预测的研究不能只局限于在测试集上取得高准确率,如果我们希望在实际决策中使用学习算法,那么我们必须相信在实验条件改变的情况下,模型的预测也是有效的。笔者认为,作者在此处的意思是,实际应用中的分布偏移是任意多样的,仅仅在某些测试集上取得好效果不能代表我们可以在任何情况下都信任该模型,它可能只是恰好符合这些测试集的偏置。
为了使我们可以在尽可能多的情况下信任预测模型,就要采用具有回答干预问题能力的模型,至少统计学习模型是不行的。
反事实问题涉及到推理事情为什么会发生,想象不同行为的后果,并由此可以决定采取何种行为来达到期望的结果。回答反事实问题更加困难的,但也是对于AI非常关键的挑战。如果一个干预问题是“如果我们说服一个病人规律的锻炼,那么它心力衰竭的概率会如何变化?”,那么对应的反事实问题就是“如果这个已经心力衰竭的病人一年前就开始锻炼,那他还会心力衰竭吗?”。显然回答这样的反事实问题对于强化学习中的智能体是很重要的,它们可以通过反思自己的决策,制定假说,再通过实践验证,就像我们的科学研究一样。
数据的形式往往决定了我们可以推断什么样的关系。作者将数据分为两个维度:观察的与因果的,人工总结的(结构化的)与原始的(非结构化的)。
观察的与干预的数据
一个极端情况是,我们常假设的从同一个分布中i.i.d.采样的观察数据,但这样的条件很少能被严格的满足;另一个极端是在已知的不同的干预下的产生的数据。在这两者之间,是偏移或者干预未知的数据。
结构化的与非结构化的数据
在传统的AI中,数据常被假设为高层有语义的结构化变量,它们有些可能对应着潜在图中的因果变量。而非结构化原始数据是指那些无法直接提供因果信息的数据,例如图像。
尽管统计模型比因果模型要弱,但是它们可以同时有效地在结构化或者非结构化学习。另一方面,尽管只从观察数据中学习因果关系的方法是存在的,但常常还是需要从多个环境中收集数据,或者需要能够做干预。至此,我们已经可以一窥问题的核心:因果模型具有回答干预问题和反事实问题的能力,然而只能用于结构化的数据,ML模型虽然可以从raw data中有效的学习,但却逃不出i.i.d.设定的桎梏,那么如何将两者结合,使机器学习突破当前的瓶颈呢?答案即如本文题目所言Towards Causal Representation Learning!因果表征学习,即从非结构化的数据中提取出可以用于因果推断的结构化变量。一言以蔽之,如果解决了因果表征学习的问题,就克服了因果推断领域和机器学习领域间的最关键障碍,就可构建下一代更强大的AI。
愿景虽好,脚踏实地才可为其提供保证,在接下来的章节中,作者一步一个脚印地介绍了因果模型和相关假设及挑战、估计因果关系的必要机制、传统的和与神经网络结合的因果发现方法、学习因果变量(表征)的关键问题,最后用因果的语言讨论了对机器学习领域诸多问题的启示。
我们还是从传统机器学习模型谈起,机器学习的成功有4个重要的因素:(1)大量基于模拟器或人工标注的数据,(2)强大的机器学习系统,如神经网络,(3)高性能计算系统,这对因果推断也至关重要,(4)问题是i.i.d.的。
对于i.i.d.的数据,统计学习理论对模型提供了强大的保证,因此取得超越人类的表现也不足为奇。但是却在对人类很简单的不满足i.i.d.的情景下表现很差,即在不同问题间迁移的能力。
为了进一步理解,i.i.d.带来的问题,让我们考虑下面的例子。Alice在想在网上买一个笔记本电脑包,网上商店的推荐系统于是向Alice推荐了笔记本电脑。这个推荐看起来很不合理,因为很可能Alice是已经买了电脑才去买包。假设该网站推荐系统使用统计模型仅仅基于统计相关性来推荐,那么我们已知事件“Alice买了包”对于事件“Alice是否会买电脑”的不确定性减少,和已知事件“Alice买了电脑”对于事件“Alice是否会买包”的不确定性减少是相等的,都为两个随机事件的互信息。这就导致我们丢失了重要的方向信息,即买电脑往往导致买包。
说了这么多,如何实现从统计相关到因果的跨越呢?Reichenbach清晰的阐述了二者的联系:
Common Cause Principle:如果两个可观察量和是统计相关的,那么一定存在一个变量因果的影响和,并且可以解释它们之间全部的相关性,即给定,和是条件独立的。
这里需要注意的是,上述原理包含Z与X或Y重合的特殊情况。沿用前文鹳的例子,鹳的频率为X,出生率为Y,二者统计相关。如果鹳能带来孩子则是,孩子会吸引鹳则是,有其他因素导致两者则为。没有额外的假设,我们不能从观察数据中根据统计相关性区分这三种情况,所以因果模型比统计模型包含更多信息。
尽管只有两个变量情况下的因果发现很困难,但是在有更多变量的情况下则会简单很多,因为多变量情况下,因果图会蕴含更多条件独立性质。这会将Reichenbach Principle推广到接下来介绍的因果图模型或结构因果模型。
结构因果模型(Structural causal models, SCM),是考虑一系列变量作为有向无环图(DAG)的顶点,每个变量值都由如下结构方程赋予
?(1)
其中为确定型方程,依赖于的父母(),为无法解释的随机变量。因此在数学上,也是随机变量。图中的有向边代表直接的因果效应。噪声的存在使得上式可以表示成通用的条件概率的形式,并且是相互独立的,否则根据Common Cause Principle还存在其他变量造成了他们的相关性,这代表我们的模型不是因果充分的(因果充分性假设)。
如果我们确定了的分布,那么就可以根据上述DAG结合因果马尔可夫性计算联合分布。
因果图模型
上述的DAG(被称为因果图,Causal Graph),以及噪声的独立性蕴含了联合分布的规范分解,称之为因果(解耦)分解,(causal(disentangled) factorization)
(2)
当然其他的纠缠分解(entangeld factorization)也可能是成立的,例如
(3)
相比来说,因果分解可以把联合分布表示为因果机制的乘积。
隐变量和混淆因子
上述的图模型其实需要一个因果充分性假设,即不存在未观察到的共同原因变量。若该假设不满足,则会让因果推断变得很困难。因为它可能会让两个因果无关的可观测变量产生统计相关性,或者它们之间的因果关系被混淆因子的所污染(是因,而是的共因,则被称为混淆因子(confounder))。这些是因果推断领域的重要问题,在此不多赘述。
干预
所谓干预,即为修改SCM(1)中结构方程的一部分,例如改变,设置(即)为定值,或者改变的函数形式。
统计模型也可以被定义成一个图(例如贝叶斯网络),图中变量的概率分布与因果图模型一样可以根据因果马尔可夫性进行分解,但这样的模型中的边并不一定是因果的。只依赖于统计独立性,无法分辨马尔可夫等价类?,和,因为他们依赖同样的条件独立。故因果马尔可夫条件是不足以用来进行因果发现的。
另外如图1所示,因果图模型允许计算干预的分布,当一个变量被干预时,就把它设为固定值,并且切断与其父母节点的边,在新的图中计算出的即为该干预的分布。
结构因果模型则包含因果变量和带有独立噪声的结构方程,也可以计算干预分布,因为他可以表达成因果图模型的概率分解的形式;也可以进行反事实推理。在进行反事实推理的时候,我们需要噪声变量的值固定。
小结一下,统计学习的概念基础是联合分布,期望通过特定模型在i.i.d.情况下学习。因果学习(发现)需要考虑更多的假设,希望把联合分布进行因果分解,当得到因果模型后,就可以进行干预或反事实推理。
那么如何保证因果模型对联合分布分解是有意义的呢?在噪声独立的情况下,根据因果图对联合分布进行因果分解(4)总是可行的,为此我们需要考虑与(4)中因子的独立机制。
让我们考虑海拔与年平均气温的例子。和显然相关,因为我们认为海拔升高会导致温度降低。假设我们有两个数据集分别来自瑞士和奥地利,两个联合分布是不同的,因为边际分布不同。但是条件概率很可能大致不变,因为它蕴含了海拔对气温影响的物理机制。因果分解包含了可以在不同国家泛化的,而纠缠分解则不具有这样的鲁棒性。当我们考虑到这也同时成立。对因果模型来说(1)(2),对任意变量或模块、的干预不会影响其他模块,即为独立因果机制原则(Independent Causal Mechanisms Principle, ICM Principle):
一个系统的变量的因果生成过程使由一系列自主模块构成,它们不会影响彼此,也无法提供彼此的信息
(a)改变(干预)一个机制不会改变其他机制
(b)知道其他机制不会提供的任何信息
作者进一步提出了与ICM的(a)中相符的**稀疏机制偏移(Sparse Mechanism Shift, SMS)**假说:
微小的分布改变一般是稀疏地或局部地体现在因果分解(2)中,即它们通常不会同时影响所有的机制
相反,如果我们考虑非因果的分解,例如(3),那么大多数机制,即使不是全部会被同时影响。SMS假说近期已经被用来学习因果模型、模块化结构和解耦表征。
需要注意的是在ICM中讨论的和的独立性与随机变量和独立性并无关系。事实上,在因果图中所有因果机制都独立的情况下,很多变量都是相关的。例如,那么和一定是相关的,但和是独立的。同样,噪声的独立性也与的独立性是无关的。直观地讲,噪声项提供并参数化了机制中的不确定性,并且保证了不同机制有相互独立的不确定性。在这种意义上,ICM原则包含了SCM这种特殊情况中,不可解释的噪声项的不确定性(如果噪声项不独立,机制就不独立了)。
上两部分介绍了因果模型,和一些必要的因果假设与因果机制,在这一部分我们讨论如何在上述的框架下学到因果模型,即因果发现。
在满足因果忠诚性假设的情况下,即不存在条件独立之外的独立性(这是为了保证独立性检验可以确定因果图中所有的边),我们可以通过在观察数据中进行条件独立测试来发现因果图。但是这种方法存在一些问题:一是数据量总是有限的,而条件独立测试是很难的,尤其是在连续和高维的情况下,没有额外的假设,条件独立测试很难进行;二是条件独立测试可能会产生无法分辨边方向的马尔可夫等价类。
近年来通过假设结构方程的类型,我们发现这两个问题都可以被解决。下面的例子,可以很好地说明为什么假设SCM中的方程形式是必要的。考虑一个简单的SCM,只有两个变量,(1)可以写为
(4)
且。现在假设是一个随机选择变量来从决定?,且是不光滑的依赖于,那么从有限的数据中是很难得到SCM的足够信息。因为是不可观测的,且是任意不同的。所以我们需要限制关于的复杂度,一个自然的限制为加性噪声模型
(5)
如果(4)中对是光滑的,且是相对集中的,那么(5)可以看做(4)的局部泰勒展开。
另外,对函数形式的限制不仅使得的学习变得容易,还被发现可以打破双变量情况下的因果对称性,即可以确定马尔可夫等价类中边的方向。例如,如果加性噪声模型(5)中的为非线性的,那么是不可以从相反的方向(即)来拟合出一个加性噪声模型的。具有这样性质的函数假设有许多,例如线型非高斯无环模型,后非线性模型等。
限制函数类型只是一种辨识因果结构的方法,其他可能性依然存在。根据SMS假说,不同环境的分布偏移可以极大的帮助我们辨识因果结构。这些环境可以来自于干预、不平稳的时间序列或者不同的视角。不变因果预测(In【【微信】】ion, ICP)框架就是考虑这样的情形。这些不同的环境可以理解为不同的任务,这可以联系到元学习(meta learning)。
Bengio的工作就借助因果模型应该比一般的预测模型更快的适应干预这样的思想,把元学习中的泛化与因果模型的不变形绑定在一起。这项工作被推广到多变量与未知的干预的情形,并且通过把离散的图搜索转化为连续优化问题,提出了一个用神经网络进行因果发现的框架。也有人探索了如何用强化学习来学习因果模型。
上述的所有因果发现的方法,不论传统的还是结合机器学习的,都是在有语义的抽象表征已经给定的情形,不需要从高维的低层次的数据中学习。所以传统的因果发现算法无法应用在机器学习领域的数据上。若想利用因果推断来解决当前机器学习领域的难题,从非结构化数据中学习因果变量是一个绕不开的关键问题。
为此,我们尝试将因果变量与观察量通过因果表示学习联系起来
(6)
其中是一个非线性函数。如图二所示,高维的观察量(图像)是由未知的因果系统的状态产生,然后我们希望用一个神经网络提取这些高层变量,以求在下游任务中取得更好的效果。在什么条件下我们可以找到这些可以用于因果模型的粗略变量呢?解答这个问题是很有挑战的。定义因果关联的对象或变量,可以被归结为估计这个世界的更细致的模型,例如微观结构方程模型、常微分方程、temporally aggregated time series等。定义可用于因果模型的单元,对人和机器都是有挑战的,这与现代机器学习领域试图学习鲁棒、可解释、公平的数据表征的目标是一致的。
我们应该尝试将SCM嵌入到等大的机器学习模型中,它的输入输出可能是高维非结构化的,但内部有一部分是由SCM决定的。这样的模型可能会
电脑双肩包品牌前十大排名 双肩电脑包品牌十大排名
如今很多人对于电脑包的需求相当高,而双肩电脑包就解决了很多人手提电脑的烦恼,那么在市场上哪些牌子的双肩电脑包好呢?什么品牌的双肩电脑包背起来最省力呢?今天我们就整理了双肩电脑包十大品牌排行榜推荐您参考!
双肩电脑包十大品牌排行榜1、INCASE
2、泰格斯
3、七匹狼
4、威豹
5、木村耀司
6、爱华仕
7、圣兰戈
8、新秀丽
9、金圣斯
10、森泰斯
十、森泰斯发源地:美国
品牌介绍:森泰斯品牌成立于2011年,在双肩电脑包十大品牌排行榜是一家相当知名的品牌,成立以来公司在产品的设计上不断的与时俱进,致力于打造出实用且美观的产品,如今公司的产品涵盖面相当广,并且在品质上能很好的满足不同消费者的需求。
明星产品:森泰斯商务双肩电脑包
网友点评:看起来小巧但很能装东西,14寸的电脑都能塞进去,而且背起来一点都不感觉沉,肩带背着很舒服,买的很值。
九、金圣斯发源地:香港
品牌介绍:金圣斯皮具制品有限公司成立于2006年,在行业中是一家专注于数码箱包设计、研发、生产、销售为一体的企业,成立至今公司的产品种类已经相当的丰富,在产品的设计上坚持时尚、简约、革新的理念,致力于打造出最与众不同的产品。
明星产品:金圣斯防盗电脑包双肩
网友点评:外表很朴素,内在的很好,质量很好,买了联想拯救者15.6寸游戏本。放在里面很好,可以很好的保护。
八、新秀丽发源地:美国
品牌介绍:新秀丽这个成立于1910年的品牌在市场上一直都是很多人的首选品牌,成立以来公司在产品的生产上不断的精益求精,不断的丰富产品种类,如今公司的产品涵盖了配饰产品、商务公文包、笔记本电脑包、小型皮具等多个领域的产品。
明星产品:新秀丽商务双肩电脑包
网友点评:大品牌非常的轻巧简约,隔层设计合理,以前买的电脑包没有像这样的,体验特别棒。
七、圣兰戈品牌介绍:圣兰戈这个品牌在市场上是一家专注于经营电脑包、拉杆包、拉杆箱、腰包、书包、双肩书包、学生背包、户外腰包等产品的企业,发展至今公司的产业结构不断的完善,旗下的双肩电脑包以细致的做工和优异的质量在市场上备受认可。
明星产品:圣兰戈双肩电脑包
网友点评:总得来说还是不错的,空间还好,做工细节之处还是非常精细的,可舒服。
六、爱华仕发源地:广东省
品牌介绍:爱华仕品牌成立于1991年,在2018双肩电脑包十大品牌排行榜是一家致力于多元化经营的企业,成立以来公司不断的引进先进的技术,并且对产品细节的处理也是相当的精细,旗下的双肩电脑包也以优异的质量在市场上获得了不错的销量。
明星产品:爱华仕15.6寸双肩电脑包
网友点评:整体来讲非常不错,颜色黑色要好看一些,值得拥有,经济实惠。
五、木村耀司发源地:上海市
品牌介绍:木村耀司品牌成立于2007年,是一家综合性的箱包集团,成立以来公司也通过了各项质量认证,在产品的设计上不断的不捕捉最流行的元素,旗下的产品种类丰富,并且在做工和整体的生产工艺上是相当完美的一个品牌。
明星产品:木村耀司复古双肩电脑包
网友点评:第三次买了,包包容量好大,质量也不错,下次还会再来买。
四、威豹发源地:广东省
品牌介绍:威豹品牌成立于1988年,在市场上是一家专业从事箱包设计、产品制造、市场营销为一体的企业,创立以来公司在产品的设计上不断的创新,并且对产品细节的处理相当到位,旗下的双肩电脑包以优异的质量得到了业界的一致认可。
明星产品:威豹双肩电脑包
网友点评:一直用威豹书包,质量没的说,以前那个还好好的,用了好几年了,这次买个可以放电脑用。
三、七匹狼发源地:福建省
品牌介绍:七匹狼这个品牌成立于1990年,在行业中一直都是高品质的代表性品牌,发展公司产品涉及的领域也越来越广泛,在产品的设计上坚持最个性化的原则,旗下的双肩电脑包在整体的质量和做工上是深受大众喜爱的品牌之一。
明星产品:七匹狼商务双肩电脑包
网友点评:质量不错,外观高大上,背上去还是很舒服,非常之不错!
二、泰格斯发源地:英国
品牌介绍:泰格斯品牌成立于1983年,是一家专注于移动产品及其配件生产和销售的企业,成立至今公司已经有了完善的生产检验体系,并且在产品的设计上坚持采用最时尚的元素,旗下的双肩电脑包在整体的质量上是相当不错的品牌。
明星产品:泰格斯时尚15.6寸双肩电脑包
网友点评:很漂亮的包包,很轻,质量各方面都不错,有品牌手感。
一、INCASE发源地:美国
品牌介绍:INCASE这个品牌成立于1997年,在2018双肩电脑包十大品牌排行榜是一家经营范围相当广泛的企业,自创立以来公司不断的丰富产品种类,致力于打造出性价比最高的产品,旗下的双肩电脑包设计简约,在功能和工艺上是备受大众认可的品牌。
明星产品:INCASE笔记本双肩电脑包
网友点评:背包比较好背,装满了也不压肩膀,还可以省掉内胆包,不错不错。
文章出自:雷客 文章链接:【【网址】】/rank/【【微信】】.html