データ分析関連のまとめ

データ分析・機械学習周りのもくもく会LTやイベント参加をまとめていきます

DyCRS: Dynamic Interpretable Postoperative Complication Risk Scoring

DyCRS: Dynamic Interpretable Postoperative Complication Risk Scoring(AAAI2020 Accepted paper)を読んでまとめました。
解釈間違い等ある時がありますので、その場合指摘いただけると助かります。

目次

背景と概要

  • 医療において、患者の手術後合併症のリスクを早期に特定する事は重要
  • 現在は、American College of Surgeonsが作ったシステムが幅広い領域で使われている。
    • 静的特徴量を使用(性別、年齢等)
  • 本論文では逐次的バイタルサインと静的特徴を用いた患者のリアルタイムのリスクを測るa dynamic postoperative complication risk scoring framework (DyCRS)を開発。
  • DyCRSの概要
    • リスクの高い・低いといった状態を隠れ状態として定義
    • learningとinferenceにより構成される
    • learning
      • 隠れ状態から観測される状態への移行や観測される特徴量との関係を学習
    • inference
      • 2つのフェイズから構成
      • パラメータが与えられた状態で隠れ状態分布をdecode
      • 隠れ状態分布から合併症リスクスコアにconvert

f:id:yhiss:20200606143121p:plain
リアルタイムで手術後のリスクを判定するシステム概略

問題設定

データセット

  • The NorthShore University HealthSystemのデータを使用

特徴量

以下の3種類を使用。

患者の時系列的な動き

  • 症状が悪化した患者と、悪化せず退院した患者を無作為に抽出し以下の図に示す。
    • vital signの時系列的な変動があった後に、event(症状の悪化や退院)が発生する

f:id:yhiss:20200606163927p:plain
患者の時系列的な変化

患者の状態についての定義

  • 本論文では、以下のように状態を定義している
    • 観察される状態:event
      • 退院:No risk
      • 症状の悪化:Highest risk
    • 潜伏している状態:risk stage
      • Low, Medium, High risk
      • vital signに現れる

f:id:yhiss:20200606152253p:plain
患者の状態概略

DyCRS

概要

  • risk stageを隠れ状態とした隠れマルコフモデルを基礎とする。
  • vital signの時系列情報を使った隠れマルコフモデルに静的な特徴量を組み合わせる。

  • 以下の2つのフェイズで構成されている

    • 隠れ状態から観測される状態への移行関係および隠れ状態と観測される変数(e.g. vital sign)についての学習フェイズ
    • 隠れ状態からリスクスコアを推論するフェイズ

状態空間

  • 状態空間は以下のように表される
    • C:観察されるHighest risk状態
    • D:観察されるNo risk状態
      f:id:yhiss:20200606154541p:plain
      状態空間

モデル(詳細は割愛)

遷移確率行列

隠れマルコフモデルでは、m個の隠れ状態と観察される状態がある。
その遷移確率行列は以下となる。

 T_{ij} =Pr(s' = i|s=j), {\forall} i,j \in S \ (T \in \mathbb{R_+^{m{\times}m}})
 S=\{ D, L, M, H, C \}(それぞれの状態)

Emission Probability Model

隠れ状態sから観測されるvital sign:oは以下で規定

 p(o|s) = N(Ws + Mr, {\sigma}^2I_d)
 W \in \mathbb{R^{d{\times}m}}: weight matrix
 M \in \mathbb{R^{d{\times}p}}: static features-observation matrix
 r:静的特徴量から成るベクトル

DyCRS Learning

DyCRS Learningではモデルパラメータ \theta = { (T,W,M) } を学習する以下の最適化問題を解く

 \underset{\theta}{max} \sum_{i=1}^{n} log p(o_i | \theta) \ \ (subject \ to \ T \geq 0, 1_m^T T = 1_m^T) 
  

DyCRS Learningにおける期待値最大化のアルゴリズムは以下となる

f:id:yhiss:20200606165454p:plain
DyCRS Learningにおける期待値最大化アルゴリズム

 forward \ algorithm: {\alpha}_j(o) = p(s_j| o_{1:j}) \in  \mathbb{R_+^m}
 backward \ algorithm: {\beta}_j(o) = p(o_{j+1:t}|s_j ) \in  \mathbb{R_+^m} 
 {\gamma}_j(o) = {\alpha}_j(o) \circ {\beta}_j(o) 
 (8): \hat{\pi} = \frac{1}{n} \sum_{i=1}^{n} {\gamma}_1(o_i)
 (9): \hat{T} \propto \sum_{i=1}^{n} \sum_{j=1}^{t_i-1} p(s_j,s_{j+1} | o_i)

DyCRS inference: Converting Hidden States to Complication Risk Score

以下の2ステップが定義されている。

  • decoding step

    • 新しいvital sign、静的特徴量、学習した隠れマルコフモデルのパラメータが与えられた段階で、隠れ状態分布 p(s_t = k|o_{1:t},r)をdecodeする
  • converting step

    • 隠れ状態分布から以下合併症リスクスコアに変換する。
 CRS_t(o,r) = \sum_{k=1}^{m} p(s_t=k|o1:t,r) \times p(s_\infty=C | s_t=k)  

f:id:yhiss:20200606165528p:plain
DyCRSのリアルタイム推論フローチャート