データ分析関連のまとめ

データ分析・機械学習周りのもくもく会LTやイベント参加をまとめていきます

統計的因果推論(バックドア・フロンドドア基準、逆確率重みづけ)

統計的因果推論で主にバックドア基準、フロントドア基準、逆確率重みづけについてまとめました。
解釈間違い等ある時がありますので、その場合指摘いただけると助かります。

目次

前置き

  • ある事象に対する因果効果を調べたい時、ランダム化比較試験を行うのが基本で確実な方法となる。
    • 例:薬の投薬が病気の回復に効果があるかを調べたい場合
      • 2つの投薬以外の影響を与える要素が固定されているor 完全にランダムなサンプルを用意
        • 男女比、年齢層、病気の状況等
      • 片方に投薬し、もう片方はせずに結果を比較すればよい
  • しかし、ランダム化比較試験が行えるものはそう多くなく、違う方法で因果効果を調べる必要がある。
    →その一つの手法:因果推論

  • 因果推論において、変数間の関係性を因果グラフで表し、ある変数が別の変数に与える影響を計算する。
    (因果グラフが書けないと、因果効果の計算は出来ない)

f:id:yhiss:20200307153046p:plain
因果グラフ例

  • グラフ:ノード(頂点)と辺の集合体。
    • 1つのノードから別のノードに向いた矢線を含む辺:有向辺という。
    • 有向辺の始点:親、有向辺の終点:子となる。
  • ブロック:以下の場合の時、以下いずれかの条件を満たす道はブロックされている。
    • 連鎖または分岐を含み、中央のノードについて条件付けしている。
    • 合流を含み、合流点は条件付けされておらず、合流点の子孫も条件付けされていない。

平均因果効果

  • X→Yという変数間の因果効果を調べたい時、求めたいものは下記の平均因果効果(ACE)となる。
  • 例:投薬有無(X=1 or 0)における疾患からの回復(Y=1)
    • あるサンプル集団がいる場合、そのサンプル全てに投薬した場合(X=1)と投薬しない場合(X=0)を両方実現して比較する事が出来れば、その差が因果効果となる。
 P(Y=1|do(X=1)) - P(Y=1|do(X=0))  \ \ (do:介入)
 定量化すると:E(Y|do(X=d)) - E(Y|do(X=c))  \ \ (do:介入)

条件付けと介入

  • 条件付け P(Y=y|X=x) と介入 P(Y=y|do(X=x)) の違い
    • 条件付け:母集団のうちX=xとなるものについて注目する
    • 介入:母集団すべてのXの値(他の変数に関係なく強制的に)をxに固定する

条件付け確率への変形

  • 介入時の確率は通常の条件付確率に変形する事で因果効果の見積もりを行う。
  • X→Yのみの因果グラフの場合(非巡回で交絡変数が無い場合)、非常にシンプルになる。
    • doを除いた条件付確率にするだけ
 P(Y=y|do(X=x)) = P(Y=y|X=x) 

f:id:yhiss:20200307153147p:plain
X→Yのみの時

但しXの親になるような変数があったり、XとYの間に変数がある場合上記のように変形出来ないため、バックドア基準やフロントドア基準を満たすか確認しながら状況に見合った式変形により因果効果を計算する。

バックドア基準

Xの親になるような変数があったりする場合の手法。

  • 因果グラフGにおいて、XからYへの有向道があるとする。
    • その時以下を満たす集合Zは(X,Y)についてバックドア基準を満たすという。

      • Xから集合Zの要素に有向道がない。
      • XとYを結ぶ全ての道で、Xへ向かう道を全てZがブロックできる。

f:id:yhiss:20200307153227p:plain
バックドア基準を満たす場合

  • 変数Zが(X,Y)についてのバックドア基準を満たす時のX→Yの条件付確率は調整化公式より以下となる。
    • バックドア基準を満たす集合の全通り分集合の確率と条件付確率を求め足し合わせる(調整化公式)。
 P(Y=y|do(X=x)) = \sum_{z}P(Y=y|X=x,Z=z)P(Z=z)
  • 線形構造方程式モデルでは,バックドア基準を満たすZが観測されているとき、Yを目的変数、XとZを説明変数にした回帰モデルでのXの回帰係数はXからYへの総合効果に一致する。

バックドア基準のメリット

  • バックドア基準を満たす全ての集合において、条件付確率の値は同じになる
    • そのため別の集合において等しいか確認する事で、因果グラフが正しい条件で作る事が出来ているのか検証可能出来る。

(詳細:以下リンク) yhiss.hatenablog.com

フロントドア基準

  • XとYの間に別の変数Z等がある場合の手法

  • 因果グラフGにおいて、XからYへの有向道があるとする。

    • その時以下を満たす集合Zは(X,Y)についてフロントドア基準を満たすという。
      • ZがX→Yへの有向道を全てブロックする。
      • XからZへのバックドアパスが存在しない。
      • ZからYへの全バックドアパスがXでブロックされている

f:id:yhiss:20200307153348p:plain
フロントドア基準を満たす場合

  • 集合Zがフロントドア基準を満たす時、XからYへの条件付確率は以下となる。
 P(Y=y|do(X=x)) = \sum_{z}P(Z=z|X=x)\sum_{x'}P(Y=y|X=x',Z=z)P(x')

導出

  • X→Zの効果
 P(Z=z|do(X=x)) - P(Z=z|X=x) 
  • Z→Yの効果
 P(Y=y|do(Z=z)) = \sum_{x}P(Y=y|Z=z,X=x)P(X=x)

Z→Yの効果を全てのZの値(zも含む)について足しあげないと、一部のZの値の影響を考慮することになるので総和を取って上記の式が導かれる

フロントドア基準との矛盾

  • 参考文献1では、上記がフロントドア基準を満たす例としてあげられているが、XからZへのバックドアパスは存在している。
    • 参考文献2によると、XからZへのパスを考えるときにはZの子孫は無視するルールを暗黙に入れていると解釈されている。

逆確率重みづけ

調整化公式について以下の変形を行う

 P(Y=y|do(X=x)) = \sum_{z}P(Y=y|X=x,Z=z)P(Z=z)
 右辺の分母・分子にP(X=x|Z=z)を加える
 P(Y=y|do(X=x)) = \sum_{z}\cfrac{P(Y=y|X=x,Z=z)P(X=x|Z=z)P(Z=z)}{P(X=x|Z=z)}
 多変数のベイズの定理より
 P(Y=y|do(X=x)) = \sum_{z}\cfrac{P(Y=y,X=x,Z=z)}{P(X=x|Z=z)}

全変数の同時確率を分母(傾向スコア P(X=x|Z=z))で割る事で条件付確率の推定が可能となる。
この傾向スコアについてロジスティック回帰等で推定する。
逆確率重みづけ法で扱うZの数は標本サイズと等しくなるため、Zが取りうる全ての値について計算する必要が無いため、Zの取りうる値>>標本サイズの場合計算量の削減につながる。
注意点としては式の導出からわかる事だが、Zがバックドア基準を満たしていないと原理上正確な因果効果の推定が行えなくなる。

傾向スコア

上記の逆確率重みづけで傾向スコアを用いているが、他にも以下の利用方法があるようである。
今回詳細は割愛(まだやってないのでまた今度まとめたい)

  • マッチング
  • 層別解析
  • 共分散分析

参考文献

  • 1.Judea Pearl, Madelyn Glymour and Nicholas P. Jewell 入門統計的因果推論

https://www.asakura.co.jp/books/isbn/978-4-254-12241-1/

  • 2.山本英二 因果ダイアグラムにおけるバックドア/フロントドア基準について

http://www.math.chuo-u.ac.jp/~sugiyama/14/14-01.pdf

  • 3.宮川 雅巳, 黒木 学 因果ダイアグラムにおける介入効果推定のための共変量選択

https://www.jstage.jst.go.jp/article/jappstat1971/28/3/28_3_151/_article/-char/ja/

  • 4.下川 敏雄 統計的因果推論と傾向スコア

https://waidai-csc.jp/updata/2018/08/seminar-igaku-20170222.pdf

  • 5.清水昌平 構造方程式モデルによる因果推論:因果構造探索に関する最近の発展

http://www.ar.sanken.osaka-u.ac.jp/~sshimizu/papers/BSJ2012_Tutorial_final_web.pdf