Learning from Weak-Label Data: A Deep Forest Expedition

Learning from Weak-Label Data: A Deep Forest Expedition(AAAI2020 Accepted paper)を読んでまとめました。
解釈間違い等ある時がありますので、その場合指摘いただけると助かります。

背景と概要

マルチラベル分類を行う場合に、学習データで全てのラベルにちゃんとラベルづけがされていない等不完全なデータとなっている場合があり、その解決方法の一つとしてWeak-label learningがある
本論文ではWeak-label learningの手法として、LC Forest:Deep Forestをベースとしたアルゴリズムを提案している。
- Deep Forest:決定木系のアルゴリズムの一つであるrandom forestを多層化
主要な要素は以下となる。
- Label Complement Structure:アノテーションされている弱ラベル行列を補足するラベルの埋め込み
以下のようなデータで検証されていた。
- Gene Function Analysis Task
- Text Categorization Task
- Scene Classification Task
- Medical Natural Language Processing Task

弱教師ありマルチラベル学習の一つ。
- マルチラベルのうち一部がアノテーションされていないようなデータを扱う。
- ラベル数が多かったり、2つのラベルが似ていたりする場合に比較的多く活用シーンがある。
- 下図は10個のラベルのうち5個がラベル付けされているような例
  weak-label learningの例

以下の空間を考える。



今、以下の弱ラベルのtraining setが与えられているとする。

Weak-label learningでは以下の関数fを求める事を目的とする。

LCForestでは、Label Complement Structureがアノテーションされている弱ラベル行列を補足するラベルとして、cascade forestに埋め込まれる。
t層目のcascadeにおいて、training data setである D^t = { X^t, Y^t} をcross validationで処理する。
- それぞれのfoldにおいて、下図のようにt層目のrandom forestがtraining-foldのデータを学習し、test-foldのデータを予測する。
  - test-foldのi番目にあたるサンプルのk番目のラベルについて、j番目のrandom forestによる予測がpositiveの場合、 $Y_{ik}^{pred _ j} = 1$
i番目のサンプルのk番目のラベルのt+1層目のラベルは以下の式で表される。
- j番目の予測ラベルとオリジナルのラベルのいずれかが1ならば1の要素を持つ行列をrandom forestのモデルの数分作り、その総乗を取っている。

※アルゴリズムからでは、新たに結合した特徴量の削除を次の層で行っていないため、学習を進める毎にデータが大きくなっているのではないかと思われる。