論文のIntroを淡々と和訳する - 1. TopicRNN: A Recurrent Neural Network with Long-Range Semantic Dependency
第一回目は以下の論文を和訳していきます。
TopicRNN: A Recurrent Neural Network with Long-Range Semantic Dependency
著者: A.B.Dieng (Columbia Univ.), C.Wang (MS research), J.Gao (MS research), J.Paisley (Columbia Univ.)
ICLR 2017
文書を読む際、短いにしろ長いにしろ、人間はそれまで読んだものの要点を覚えることが何かしらの方法でできるような機構を持っている。
(引用文章略)
上の文章の中で抜けている単語は「大統領」か「最高司令官」かその類義語であることは誰でも容易に予測できる。
観測された単語の列から後の単語を正しく予測するこの問題を解くために単純なn-gramから最新のRNNに基づく言語モデルまで、多くの言語モデルがある。
良い言語モデルは、少なくとも2つの自然言語の重要な性質を捉える必要がある。
一つ目は、正しい構文である。
この性質を満たすような予測をするためには、しばしば前の数単語を考慮するだけで十分だ。
したがって、正しい構文はより局所的な性質である。
単語の順がこの場合重要になる。
二つ目の性質は、予測の意味的な一貫性である。
これを達成するために、しばしば多くの前の単語を考慮し文章や文書の大域的な意味を理解する必要がある。
この場合には単語の順は通常それほど重要ではなくなる。
伝統的なn-gramや確率的なニューラル言語モデルは、固定された長さの前の単語しか考慮しないため、大域的な意味情報を捉えることが困難である。
これを克服するため、RNNを基にした言語モデルは単語の列の経緯を「覚える」ように隠れ層を用いた。
しかし、どのアプローチも明示的に上に述べた二つの言語の性質、正しい構文と意味の一貫性をモデル化していない。
Chelba-Jelinek(2000)やGao et al.(2004)の以前の研究は、言語における長期依存性を捉えるために構文的あるいは意味的なパーサーを利用した。
本論文では、隠れトピックによって直接意味的な長期依存性を捉えるように作ったRNN-basedなモデルTopicRNNを提案する。
このトピックはRNNに文脈を与える。
文脈をもつRNNは大きな注目を集めてきた。
しかし、我々のモデルに最も近いモデルはMikalov-Zweig(2012)の提案した文脈をもつRNNモデルと、そのLSTMへの最近の拡張である。
これらのモデルは学習済みのトピックモデル特徴量を隠れ層(またはRNNの出力)への追加の入力として用いた。
それに比べ、TopicRNNは学習済みモデル特徴量を必要とせず、end-to-endのやり方で学習できる。
topic modelが通常扱うのに困難が生じるstop wordsを自動的に扱うための方法を導入する。
同等のモデルサイズの設定のもとで、TopicRNNはPenn TreeBankデータセットでMikolov-Zweigの文脈をもつRNNよりも良いperplexityスコアを達成した。
さらに、TopicRNNは教師なし下流での応用のための特徴抽出機としても用いることができる。
例えば、感情分類のためにTopicRNNを使ってIMDB映画レビューデータセットの文書特徴量を引き出した。
誤差6.28%を記録した。
特徴抽出の段階でラベルや敵対学習を用いないにも関わらず、これは最先端の5.91%に近い。
おしまい