研究ラボ紹介

新規課題  個人研究

無視できない欠測値データ解析におけるセミパラメトリック漸近有効推定量の提案

研究代表者:森川 耕輔 システム創成専攻・社会システム数理領域

二重機械学習(double machine learning)を用いた最適な推定量の構築

データを収集する際、時間的・経済的な制約のため母集団全体から特定のデータのみを抽出する、回答拒否や死亡によりデータの採取が不可能になる、といった問題により偏ったデータ(biased sampling data)が生じてしまいます。このようなデータは必ずしも母集団全体を代表せず、推定量に選択バイアスと呼ばれる重大なバイアスを生じる可能性があります。特に得られていないデータが、そのデータを抽出(観測)する確率に影響を与える場合、無視できない欠測と呼ばれます。例えば、年収等の個人情報に密接に関係するデータは、年収が低いほど回答拒否をされる傾向が強く、無視できない欠測になります。近年、このような無視できない欠測値データの解析法に対する数理的基盤は構築されつつあります。しかし,得られた推定量の理論的性質を担保するためには、欠測メカニズム等の直接的な興味の対象以外に対する主観的な仮定が必要となります。現状ではこのような主観性の強さから,応用への適用は消極的であるのが実情です。

統計学では、興味のある母数θを推定する際、最尤法に基づいて推定すれば効率的な推定量を得られることが知られています。つまり、対数尤度関数の1回微分であるスコア関数Sθがθに関する情報を最大限持っています。しかし一般的に、スコア関数は直接的には興味の対象ではない母数ηにも依存しています。本研究では二重機械学習の理論を用いて、未知のηを深層学習等で推定可能とする、θに対するセミパラメトリックな推定手法を開発します。特に、標本調査と生物統計学という2つの応用分野に対して、従来よりも緩い仮定の下で、無視できない欠測値データに対する高精度な解析手法を構築します。

 

Fig1-1.pngのサムネイル画像

参考URL

https://sites.google.com/site/kosukemorikawa/