データ分析関連のまとめ

データ分析・機械学習周りのもくもく会LTやイベント参加をまとめていきます

Omitted Variables Bias(OVB:脱落変数バイアス)

Omitted Variables Biasについてまとめました。
解釈間違い等ある時がありますので、その場合指摘いただけると助かります。

概要

  • 因果効果を示す方程式を考えた際に、必要な共変量が無い(脱落している)場合に推定される効果にバイアスが生じてしまう:Omitted variables bias(OVB:脱落変数バイアス)と呼ぶ。
  • OVBを測るために以下の2つの回帰式を考え比較する事を行う。
    • long regression
      • 必要な共変量が含まれている回帰式
    • short regression
      • 共変量が一部脱落している回帰式
      • 係数が「バイアス」を含んでいる
  • バイアスをshort regressionの分散と共分散で表現できる。

OVBの計算

実際の式の例として授業の効果についての回帰を考える。
今回long regressionとして、以下を設定する。

 Y_i = \alpha + {\rho}S_i + {A_i}\gamma + {\epsilon}_i
 {\alpha},{\rho},{\gamma}:係数
 A_i:才能に関係する変数(コントロールできない)、S_i:授業に関係する変数(コントロールでき、効果を測りたい)
 {\epsilon}_i:このモデルにおける誤差項
  • short regressionとして、A_i:才能についての係数が脱落している場合を考える。
    • この場合、 \rhoに該当する係数に脱落している共変量分の影響も含まれる事となり、推定される効果にバイアスが生じる。

ここで、short regressionとlong regressionの関係性からOVBは以下のようになる。

 \cfrac{Cov(Y_i,S_i)}{V(S_i)} = \rho + {\gamma}'{\delta}_{As}
 {\delta}_{As}:A_iをS_iで回帰したときの係数ベクトル
 その大きさ自体は{\gamma}'で表現されていると考えられる
  • OVBをshort regression内の要素による分散と共分散で表現する事が出来る。
  • 今回の例では脱落している変数が1個である事を仮定して表現しているが、ここで表されるのは1つだけでなく潜在する共変量におけるOVBとなる。
    • ただし、他の共変量と相関が無かったりすると発生しない
  • 脱落している共変量を定量的に入手できない場合でも、short regressionからOVBをみることで介入による効果が過大(or過小)に表れているかを推定する事が出来る。

参考文献

  • Joshua D. Angrist,Jorn-Steffen Pischke / Mostly Harmless Econometrics: An Empiricistís Companion

https://press.princeton.edu/books/paperback/9780691120355/mostly-harmless-econometrics

  • 安井翔太 / 効果検証入門 : 正しい比較のための因果推論/計量経済学の基礎

https://gihyo.jp/book/2020/978-4-297-11117-5

  • 別所俊一郎 / 回帰分析の評価(1)

http://web.econ.keio.ac.jp/staff/bessho/lecture/06/econome/060609bias1.pdf