Post

Causal Discovery - [0] Overview

Summary: Causal Discovery가 무엇이고 왜 어려운지 소개합니다.

Causal Discovery

Causal discovery (인과 발견)는 데이터로부터 올바른 인과 구조 그래프를 찾는 문제로, 다양한 분야에서 굉장히 중요한 연구 분야입니다. CD불의 존재가 온도계의 온도 변화를 유발하는지 인과 관계 찾기 예시 source: flaticon

반대로, 인과 그래프로부터 데이터를 얻는 것은 Data Generative Process라고 합니다. Causal Discovery은 structure learning, 혹은 structure identification 등으로 불리기도 합니다. 참고로 Causal Infernce (인과추론)은 그래프가 주어진 상황에서(가정하여) 처치의 효과를 추정하는 것입니다.

일반적으로, 관측 데이터만으로는 인과구조를 찾을 수 없습니다. 찾고자 하는 그래프 후보 중 Markov Equivalent Class 를 가진 그래프이면 찾을 수 없습니다.

예를 들어, 옛날 사람들 중 일부는 황새가 아기를 가져온다고 생각했었습니다. 이를 수치적으로 확인하기 위해 실제 아기 출생률과 황새 개체수를 관측해볼 수 있습니다.

bird https://www.calpeculiarities.com/wp-content/uploads/sites/20/2013/02/stork2.jpg

아래 그림은 황새 개체수와 아기 출생률의 산점도와 그에 대한 상관관계를 나타냅니다. 상관관계는 양으로 높은 편입니다. 상관관계를 기반으로 작동하는 일반적인 예측 모델들은 황새 개체수가 높을수록 아기 출생률이 높다, 즉 황새가 아기를 가져온다고 쉽게 판단내릴 수 있습니다.

OCD Robert Matthews. Storks deliver babies (p=0.008). Teaching Statistics, 2000.

이러한 잘못된 상관관계로부터 잘못된 의사결정을 하거나, 관측 데이터만으로 인과관계를 찾을 수 없는 경우 우리는 새로운 실험이 필요합니다. 예를 들어, 황새의 개체수를 강제적으로 줄이면(비도덕적이지만..) 아기 출생률이 낮아질지 등을 확인해볼 수 있습니다. 즉, 아기 출생률을 높였더니 황새 개체수가 늘어났다면 인과성을 의심해볼 수 있습니다. 물론 우리는 상식을 이용해 이 둘은 인과관계가 없고, 아기 출생률을 높이든 황새 개체수를 높이든 서로 크게 관련 없다는 것을 알 수 있습니다.

이처럼 새로운 실험을 통해 새로운 데이터를 얻어야 인과관계를 밝힐 수 있고 잘못된 상관관계로부터의 추론을 피할 수 있습니다. 이러한 새로운 실험을 intervention이라 부릅니다.

Causal Discovery가 어려운 이유

원인을 찾는 것은 애초에 어렵기는 합니다만, 우리가 다루려는 Causal Discovery는 다음과 같은 이유에서 더 어렵습니다.

  1. 우리가 고려하고 있는 변수 (혹은 데이터로 측정한 변수)가 세상의 모든 변수들을 고려했을 가능성이 애초에 낮습니다.
  2. 기본적으로 intervention으로만 알 수 있지만, 이러한 intervention이 비용적, 윤리적 이슈 등으로 불가한 경우가 많습니다.
  3. 이러한 intervention을 수행하더라도, 모든 변수에 대해서 일일이 해봐야합니다.
  4. 뿐만아니라, 가정들이 엄격해서 real-world에서 만족하기가 굉장히 어렵습니다.

그러면 인과관계를 찾기(identify) 위해선 어떤 개념이 필요하고, 어떤 방법들이 있을지 다음 포스트에서 살펴보겠습니다.

Reference

Pearl, J., Glymour, M., & Jewell, N. P. (2016). Causal inference in statistics: A primer. John Wiley & Sons.

Peters, J., Janzing, D., & Schölkopf, B. (2017). Elements of causal inference: foundations and learning algorithms (p. 288). The MIT Press.

This post is licensed under CC BY 4.0 by the author.