データ分析関連のまとめ

データ分析・機械学習周りのもくもく会LTやイベント参加をまとめていきます

反事実モデルの計算(SCMで定義された線形モデルについて)

SCMで定義された線形モデルにおける反事実モデルについて、主に実際の計算や定理の理解をまとめました。
解釈間違い等ある時がありますので、その場合指摘いただけると助かります。 (前回は以下リンクにおいてバックドア基準やフロントドア基準についてまとめています)

yhiss.hatenablog.com

目次

反事実モデルを扱うモチベーション

  • ある行動をした結果、現実に起こる事がなくなった別の行動に伴う結果を推定したい
    • e.g.
      • 2倍の時間勉強していたら、テストの点数はどうなっていただろうか?
      • 下道ではなく高速で行ってたら早く着いただろうか?
    • 反事実モデルを用いる

反事実モデル

線形方程式で因果が決定でき、パラメータが分かっている場合

以下のような補習を受けた時間が、自主学習にどのように影響したかを表すモデルを考える(参考文献1の問題)

f:id:yhiss:20200314144043p:plain
反事実モデル例

  • これらの変数の関係が線形である事を仮定し、SCMで以下の式のように表せるとする。 (ここでのSCMはSynthetic Control Methodを示していると思われる)
    • ここの仮定は結構強い
 X=U_X\ \ \ (1)
 H = aX + U_H\ \ \ (2)
 Y = bX + cH + U_Y\ \ \ (3)
 {\sigma}_{U_iU_j} = 0, {\forall}i,j \in \{ X,H,Y \}
 X,H,Y:結果
 U_X,U_Y, U_Z:個々人で固有の定数
 a,b,c:母集団から推定される係数

反事実計算の流れ

  • 計算の流れは以下のようになる
    • 仮説形成:実際の観測値を用いてUの値を決定。
    • 行動:モデル(今回は(1)~(3))において、反事実を求めたい変数変数について方程式を適当な値に変更する。
    • 予測:行動で作ったモデルを使って、反事実の結果Yを計算。

実際の計算

  • 上記で定義されている問題の計算を実際に行った。

仮説
ある学生において、観測された値がX=0.5、H=1.0、Y=1.5だったとすると(人より少し補習を受けた結果、点数が高い)

 (1)より0.5=U_X
 (2)より1 = 0.5*0.5 + U_H →U_H = 0.75
 (3)より1.5 = 0.7*0.5+0.4*1 + U_Y→U_Y=0.75

(1),(2),(3)の方程式は以下のようになる。

 X=0.5\ \ \ (1')
 H = a*X + 0.75\ \ \ (2')
 Y = bX + cH + 0.75\ \ \ (3')

行動
この学生がもしもう少し補習を受けていた(X=1)とした場合(反事実)、(1')(2')(3')の式は以下のようなモデルになる。

 X=1\ \ \ (1''):反事実によるモデルの修正によって、強制的にXの値が決定される
 H = a*X + 0.75\ \ \ (2')
 Y = bX + cH + 0.75\ \ \ (3')

予測 行動によって出来たモデルにおける点数 Y_1を計算する。

 X=1
 H_1 = 0.5*1 + 0.75 = 1.25
 Y_1 = 0.7*1 + 0.4*1.25 + 0.75 = 1.95
  • この計算から、この学生がもし補習時間をX=1受けていた場合、実際の結果よりも1.95-1.5=0.45の分だけ試験の点数が高くなると推定される。
  • 上記のような流れで計算を行った結果、最初よくわからなかった [Y_{X=1}|X=0 ] といった表現が理解できた。

線形方程式で、いくつか未知のパラメータがある場合

以下の定理がある。
X→Yの総合効果の傾き:τとする

 \tau=E[ Y|do(x+1)  ] - E[ Y|do(x)  ]

この時、どのZ=e(任意の実観測値)についても以下が成り立つ

 E[Y_{X=x} | Z=e  ] = E[Y | Z=e  ] + \tau(x-E[X|Z=e]) 
 \tau(x-E[X|Z=e]):Z=eという実データの時のXの期待値

自分なりに理解したイメージを図示すると以下のようになる。

f:id:yhiss:20200314155100p:plain
イメージの図示

まとめと考察

  • 反事実モデルとして定義された例題を理解するために途中計算を全て行ってみた結果、反事実モデルというものが何をしているのかを理解できた。
  • モデルを作るためにも、SCMやDIDについてより深く理解する必要があるように思えた。

参考文献

  • 1.Judea Pearl, Madelyn Glymour and Nicholas P. Jewell 入門統計的因果推論

https://www.asakura.co.jp/books/isbn/978-4-254-12241-1/

  • 2.鈴木越治、小松裕和、頼藤貴志、山本英二、土居弘幸、津田敏秀 医学における因果推論第一部

https://www.jstage.jst.go.jp/article/jjh/64/4/64_4_786/_pdf