データ分析関連のまとめ

データ分析・機械学習周りのもくもく会LTやイベント参加をまとめていきます

バックドアについて(備忘)

因果推論におけるバックドアを理解し忘れないために、事例を含めてまとめていきます。
解釈間違い等ある時がありますので、その場合指摘いただけると助かります。
今回は特に自分なりの解釈が多いです。

目次

前置き

  • 因果推論において、変数間の関係性を因果グラフで表し、ある変数が別の変数に与える影響を計算する。
  • グラフ:ノード(頂点)と辺の集合体。
    • 1つのノードから別のノードに向いた矢線を含む辺:有向辺という。
    • 有向辺の始点:親、有向辺の終点:子となる。
  • ブロック:以下の場合の時、以下いずれかの条件を満たす道はブロックされている。
    • 連鎖または分岐を含み、中央のノードについて条件付けしている。
    • 合流を含み、合流点は条件付けされておらず、合流点の子孫も条件付けされていない。

バックドア

  • ある変数Xが変数Yに対して与える影響を調べるために、Xの親について調整する事で因果効果を計算する事が出来る。
  • 但し、親は定義できるが実際に測定ができない場合等において、上記の調整で因果効果の計算が出来ない。
  • そこでバックドア基準を使い、親でない別の変数を調整することで因果効果の計算が出来る。

バックドアの定義

因果グラフGにおいて、XからYへの有向道があるとする。
その時以下を満たす集合Zは(X,Y)についてバックドア基準を満たすという。

  • Xから集合Zの要素に有向道がない。
  • XとYを結ぶ全ての道で、Xへ向かう道を全てZがブロックできる。

変数Zが(X,Y)についてのバックドア基準を満たす時のX→Yの因果効果は調整化公式より以下となる。

 P(Y=y|do(X=x)) = \sum_{z}P(Y=y|X=x,Z=z)P(Z=z)

バックドア基準によってやりたい事は以下でまとめられる。

  • 有向道にあるノードに条件付けを行うと、XからYへの有向道をブロックしてしまう事となる。
    • 有向道は上記集合Zには含まれない
  • X,Y間のXからYへの影響以外によるXとYの従属関係を除外したい。
    • XからYへの有向道でない、XとYが従属となる道(疑似パス:XからYへの因果効果を表さない)をブロックする事が必要となる。

例1

XからYへの因果効果を調べる以下の例を考える。

f:id:yhiss:20200125190707p:plain
例1

赤線がXからYへの有向道、黒線がその他の道。
- 疑似パスは青い点線のX→Z→W→Yとなる。 - ここでWを考えると、Xの有向道でなく各々に条件付けする事により疑似パスをブロックできるため、バックドア基準を満たす。
この場合の因果効果は調整化公式より以下となる。

 P(Y=y|do(X=x)) = \sum_{z}P(Y=y|X=x,W=w)P(W=w)

また、ZはXの親であるため、調整する事でWと同様にXからYへの因果効果を測定する事が出来る。

 P(Y=y|do(X=x)) = \sum_{z}P(Y=y|X=x,Z=z)P(Z=z)

例2

次に、W-Y間の矢線の向きが逆になったグラフを考える。

f:id:yhiss:20200125190548p:plain
例2

  • 例1と同様に疑似パスはX→Z→W→Yであるが、今回ノードWは合流点のため、Wについて条件付けをしていない状態で疑似パスがブロックされている。
    • そのため、この場合はWはバックドア基準を満たさない。
    • 仮に、Wについて条件付けを行うとXとYに従属関係が生まれ、疑似パスがブロックされた状態でなくなってしまう。
    • この問題で、Wについて条件付けした状態でのXからYへの効果を知りたい場合、同時にZについても条件付けする必要がある。

備考

  • 調整と条件付けの明確な定義の違いがわからない(ほぼ同義?)

参考文献

入門統計的因果推論

https://www.asakura.co.jp/books/isbn/978-4-254-12241-1/

因果ダイアグラムにおけるバックドア/フロントドア基準について

http://www.math.chuo-u.ac.jp/~sugiyama/14/14-01.pdf