摘要:因果发现技术在医学,生物学,经济学,社会科学等领域有着广泛应用,能够揭示变量之间的因果关系,进而提升预测结果的可解释性. 因果发现是指从数据中识别变量之间因果关系的过程,包括发现变量之间是否存在因果关系,同时还涉及到理解这种关系的方向和强度. 随着大数据技术的发展,数据驱动的方法逐渐成为因果发现的重要手段,它通过从大量数据中自动提取潜在的因果信息,有助于应对传统方法的局限性. 数据驱动的因果发现能够有效利用高维数据,突破因果分析中对数据质量和独立性假设的依赖. 目前,因果发现面临如何有效利用高维数据,精确控制混杂变量以及处理变量间的复杂交互等挑战. 传统因果发现方法基于条件独立性测试,严重依赖数据质量,并且面对高维数据表现不佳. 机器学习技术大大推动了因果发现技术的发展,比如高效的数据处理与分析,不确定性估计与可信度分析等. 综述了目前具有代表性的因果发现的进展:首先介绍了传统因果发现中常用的方法,探究其核心过程存在的问题;其次总结当前在统计学习领域中流行的因果发现方法,并详细介绍他们的核心思想,在其性能和适用数据类型场景将它们在同一基准数据集上进行比较,主要目的是为数据科学与统计学习领域的科研工作者提供更有价值的参考;最后,对因果发现未来的研究方向进行了总结.
文章目录
1 传统因果发现方法
1.1 Peter-Clark算法
1.2 Inductive-Causation算法
1.3 Greedy Equivalence Search算法
1.4 FastCasualInference算法
1.5 PropensityScoreMatching
1.6 小结与分析
2 基于成对检验方法的因果发现方法
2.1 Additive Noise Model
2.2 Jarfo
2.3 Neural Causation Coefficient
2.4 Regression Error based Causal Inference
2.5 小结与分析
3 基于全图恢复的因果发现方法
3.1 IAMB算法
3.2 MMPC算法
3.3 CAM
3.4 CGNN
3.5 GIES算法
3.6 SAM
3.7 LiNGAM
3.8 NOTEARS