Post

Causal Discovery - [0] Overview

Summary: Causal Discovery

Causal Discovery

Causal discovery (인과 발견)는 데이터로부터 올바른 인과 구조 그래프를 찾는 문제로, 다양한 분야에서 굉장히 중요한 연구 분야입니다. CD불의 존재가 온도계의 온도 변화를 유발하는지 인과 관계 찾기 예시 source: flaticon

일반적으로, 관측 데이터만으로는 인과구조를 찾을 수 없습니다. 찾고자 하는 그래프 후보 중 Markov Equivalent Class 를 가진 그래프이면 찾을 수 없습니다.

예를 들어, 옛날 사람들 중 일부는 황새가 아기를 가져온다고 생각했었습니다. 이를 수치적으로 확인하기 위해 실제 아기 출생률과 황새 개체수를 관측해볼 수 있습니다.

bird https://www.calpeculiarities.com/wp-content/uploads/sites/20/2013/02/stork2.jpg

아래 그림은 황새 개체수와 아기 출생률의 산점도와 그에 대한 상관관계를 나타냅니다. 상관관계는 양으로 높은 편입니다. 상관관계를 기반으로 작동하는 일반적인 예측 모델들은 황새 개체수가 높을수록 아기 출생률이 높다, 즉 황새가 아기를 가져온다고 쉽게 판단내릴 수 있습니다.

OCD Robert Matthews. Storks deliver babies (p=0.008). Teaching Statistics, 2000.

이러한 잘못된 상관관계로부터 잘못된 의사결정을 하거나, 관측 데이터만으로 인과관계를 찾을 수 없는 경우 우리는 새로운 실험이 필요합니다. 예를 들어, 황새의 개체수를 강제적으로 줄이면(비도덕적이지만..) 아기 출생률이 낮아질지 등을 확인해볼 수 있습니다. 즉, 아기 출생률을 높였더니 황새 개체수가 늘어났다면 인과성을 의심해볼 수 있습니다. 물론 우리는 상식을 이용해 이 둘은 인과관계가 없고, 아기 출생률을 높이든 황새 개체수를 높이든 서로 크게 관련 없다는 것을 알 수 있습니다.

이처럼 새로운 실험을 통해 새로운 데이터를 얻어야 인과관계를 밝힐 수 있고 잘못된 상관관계로부터의 추론을 피할 수 있습니다. 이러한 새로운 실험을 intervention이라 부릅니다.

This post is licensed under CC BY 4.0 by the author.