いぬいぬいぬい

逆から読んでみてください

論文のIntroを淡々と和訳する - 4. Unsupervised learning of video representations using LSTMs

今回は次の論文のイントロを和訳しました。

 

Unsupervised learning of video representations using LSTMs

(LSTMを用いた動画表現の教師なし学習, ICML 2015)

著者: Nitish Srivastava, Elman Mansimov, Ruslan Salakhutdinov

(トロント大学)

 

AI関連の多くの問題を解くのには一時的な系列を理解することが重要である。
近年、LSTMを用いた再帰ニューラルネットはさまざまな教師ありの系列訓練タスクにおいて成功を納めている、例えば音声認識機械翻訳、キャプション生成など。
行動の認識や自然言語での説明の生成にも応用されている。
一般的な学習フレームワークはSutskever 2014において、系列を固定長の表現にエンコードするのにRNNを用い、その表現から系列をデコードするのに別のRNNを用いる形で示されている。
本研究では、画像の系列の表現を学習するためにこのフレームワークを応用・拡張する。
ラベルなしの動画のみを取得できるという教師なしの設定を選択する。

1.1 なぜ教師なし学習か?
教師あり学習は非常にうまく良い視覚表現を学習し、訓練に使われたタスクで良い結果を残すばかりでなくほかのタスクやデータセットにもうまく転移することができる。
そのため、そのアプローチを動画の表現を学習に拡張することは自然である。
これは3D畳み込みネットワークやdifferent temporal fusion strategy、畳み込みネットワークに視覚情報を伝える異なる方法の探求などの研究を生み出した。
しかしながら、動画は一枚の画像に比べてより多くの次元を持つものである。
そのため、ずっと多くのラベル付きデータを集めたり特徴量エンジニアリングをして次元を低く抑えるなどしない限り、貢献度分配(credit assignment)や長範囲構造の学習がさらに難しい。
コストをかけてデータを集めることやより賢い特徴抽出のための退屈な仕事をすることは一つの問題を解くのに長い道のりを要することになるが、これは機械学習の解法としてはとても満足できるものではない。
このため動画の特徴構造を見つけるための教師なし学習の需要が出てくる。
さらに、動画はそれ自身(空間的、一時的な通常性などの)多くの構造を持つため、教師なし学習モデルを構築するのに適している。

1.2 アプローチ
本論文では、動画の表現学習にLSTMエンコーダーデコーダフレームワークを使う。
エンコーダLSTMはフレームの列を走って表現を得る。
それからこの表現はもう一つのLSTMによってデコードされてターゲットの系列を出力する。
ターゲット系列の異なる選択を考えることにする。
一つの選択は入力と同じものを予測することだ。
そのモチベーションは自己符号器のそれと近い。
つまり入力を再生するのに必要なものすべてを獲得しながらもモデルに課された帰納バイアスを潜り抜けることが望ましい。
もう一つの選択は未来のフレームを予測することだ。
ここでモチベーションは動きと外見を今まで見たものから外挿するのに必要なものすべてを抽出する表現を学習することだ。
これらの二つの自然な選択は組み合わせることもできる。
この場合、二つのデコーダLSTMがある。
一つは表現を入力にデコードするもの、もう一つは未来を予測するものだ。

モデルへの入力は原理的には個々の動画フレームの任意の表現でよい。
しかしながら、評価の目的のために二種類の入力に注意を限定することにする。
一つ目は画像パッチだ。
このためにMNIST数字を動かしたデータセットと自然な画像パッチをもちいる。
二つ目はImageNetで前訓練された畳み込みネットワークを適用して抽出される高度な「知覚」である。
この知覚は最後(and/or最後から二番目)の隠れReLU層の状態である。

学習された表現を評価するため、モデルから得られる再構成と予測を定性的に解析する。
より定量的な評価のため、これらのLSTMを行動認識の教師ありタスクの初期値として用いる。
もし教師なし学習モデルが有用な表現を得るならば、識別機はよりうまくはたらくはずである、特に少量のラベル付きデータしかない場合には。
それが実際成り立つことがわかった。

 

1.3関連研究 は省略します。

 

おしまい。