データ分析関連のまとめ

データ分析・機械学習周りのもくもく会LTやイベント参加をまとめていきます

One Picture Is Worth a Thousand Words? The Pricing Power of Images in e-Commerce

One Picture Is Worth a Thousand Words? The Pricing Power of Images in e-Commerce(The Web conderence2020 Accepted paper)を読んでまとめました。
解釈間違い等ある時がありますので、その場合指摘いただけると助かります。

目次

背景と概要

  • e-commerceにおいて、商品紹介文と特に画像はユーザーの意思決定に重要な情報を与えている事が知られている。
  • しかし画像と価格の関係性はまだよく知られていない。
    • 画像の外観と価格の間の因果関係を示した。
  • 本論文では以下のWeb-miningフレームワークが提案されている
    • Deep learningと統計的推論を含む3ステージ
    • ステージ1:Price Adjustment
      • 回帰
    • ステージ2:Image Sentiment
      • CNNの転移学習
    • ステージ3:Hedonic Regression
      • 回帰
  • picture superiority effect:価格の変化において有益な画像は2856.03文字追加するのに相当すると結論づけられている。

問題設定

以下を考える

 y_i \in \mathbb{R}:価格変数(i=1,...,n)
 x_i \in \mathbb{R}^{H{\times}W}:画像
 c_i \in \mathbb{R}^J:他の共変量(control\ variables)

今回の問: x_iがどの程度 y_iを説明するのか(他の共変量はコントロールされている)
以下の式で表されている。

 y_i = \alpha +\beta f_{\theta}(x_i) + \sum_{j=1}^{J} {\gamma}_j c_{ij}
 \alpha,\beta,{\gamma}_1,...:未知の係数
 f_{\theta}:image\ sentimentでパラメータとして表される。この関数は高次元かつ本質的に非線形でなければならない

提案アプローチ

以下の3ステージのアプローチが提案されている

  • ステージ1: Price Adjustment
価格変数y_iをcontrol\ variables(c_{i1},...,c_{ij})で回帰
 y_i = \delta+\sum_{j=1}^{J} {\theta}_j c_{ij}
 残差\ \tilde{y_i} = y_i - \hat{y_i}を次のステージで関数f_{\theta}の学習に使用する
  • ステージ2:Image Sentiment
画像x_iとステージ1で得た学習ラベル\tilde{y_i}とのマップである関数f_{\theta}を学習させ、パラメータ\hat{\theta}を得る
学習アルゴリズム:CNNベースVGG-16の転移学習
  • ステージ3:Hedonic Regression
ステージ2で得られた\hat{\theta}を用いて以下の回帰式を計算する
 y_i = \alpha +\beta {\sigma}_i+ \sum_{j=1}^{J} {\gamma}_j c_{ij}

検証データ

Real Estate Listings

  • アメリカの住宅26,461件のデータをデータセットとしている。
    • training set:80%
    • test set:20%
    • 目的変数となるmonthly rent:600~7,250$

説明変数

  • 以下が主な変数およびその統計量となる。
    • サイズ
    • ベッドの数
    • バスルームの数
    • 画像の数
    • 文章の長さ

f:id:yhiss:20200502223115p:plain
主な変数の統計量

結果抜粋

Image Sentimentと価格の関係性

  • 以下がImage Sentimentを含めた変数の回帰係数を示している。
    • Image Sentimentの寄与が大きく、目的変数であるmonthly rentに対してプラスに効いている。
    • 画像の数はあまり効かないと思われる。

f:id:yhiss:20200502224837p:plain
回帰係数の結果1

Image Sentimentと文章の比較

  • 以下がImage Sentimentや文章に関する変数を含めた回帰係数を示している。
    • ここの結果をもって本論文では、Image Sentimentが2856.03個分のwordと等しい影響をmonthly rentに与えると記述している。

f:id:yhiss:20200502225917p:plain
回帰係数の結果2

予測モデル毎の精度比較

  • 主に以下の分け方で予測モデルを作り、精度の比較を行っている
    • M0:上記control variablesのみ
    • M1,M1a,M1b:control variablesおよび画像に関する特徴量
    • M2,M2a,M2b:control variables、画像および文章に関する特徴量

f:id:yhiss:20200502230623p:plain
モデル毎の精度比較