論文のIntroを淡々と和訳する - 5. Transfer Learning for Sequences via Learning to Collocate
今回は以下の論文のイントロを和訳します。
Transfer Learning for Sequences via Learning to Collocate (ICLR 2019)
(併置学習による系列の転移学習)
著者:Wanyun Cui, Guangyu Zheng, Zhiqiang Shen, Sihang Jiang, Wei Wang
(上海財経大学、復旦大学)
多くの過去の自然言語処理研究はオープンドメインのタスクに注目している。
しかし自然言語の多様性とあいまいさのために、一つのドメインでのモデルはほかのドメインに適用された際に通常より大きな誤差を被る。
ニューラルネットワークではそれがさらに悪い、なぜなら埋め込みベースのニューラルネットワークモデルは通常過適合に苦しむからだ。
既存のNLPモデルは通常オープンドメインで訓練される一方、個別のドメインに適用されると大きな性能低下に苦しむ。
そこで我々は個別のドメインに対して個別のモデルを訓練する。
個別のドメインを訓練する際の重要なことがらは、ラベル付きデータの不足だ。
転移学習はその不足を解決する有効な方法である。
既存の研究は
(1)異なるドメインでのNLPモデルたちは多くの共通する特徴を持っている
(2)オープンドメインでのコーパスは特定のドメインのそれよりも通常ずっと豊かである
ことを示している。
我々の転移学習モデルは前学習フレームワークにもとづく。
まずソースドメインでモデルを前学習する。
それからターゲットドメインでモデルをfine-tuneする。
最近、いくつかの前学習モデル(BERT,ELMo,GPT-2)は文章に関する一般的な知識を学習することに成功している。
違いはこれらのモデルが大規模でドメインに独立なコーパスを前学習に用いていることである。
本論文では、小規模だがドメイン依存なコーパスをソースドメインとして前学習に用いる。
前学習のコーパスについては、ドメインの関連性が規模の制限の不利性を克服することを議論する。
最近の転移学習のアプローチは、層全体にわたった情報を転移するだけだった。
これはソースドメインでのセルからの情報喪失を引き起こす。
「レイヤーごとの転移学習」はそのアプローチが文章全体を一つのベクトルで表現することを意味する。
なので転移機構はベクトルにのみ適用される。
我々はソースドメインから各セルの情報を正確にとらえて転移することの有効性を二つの事例で強調する。
一つ目は、seq2seqまたは系列ラベリングタスクにおいて、すべてのセルは直接結果に影響する。
なので層ごとの情報転移はこのようなタスクに向かない。
二つ目は、文のクラス分類でさえ、ソースドメインのセルはターゲットのドメインを理解するためのより細かい情報を提供してくれる。
例えば図1.では、以下のようなことを示している(意訳、詳細は論文を参照)
ソースとターゲットで対応する状態の隠れ層だけではなく、その文脈(長期依存性)を汲み取ることがターゲットでの不十分な情報をよりよく補ってくれる。
本論文では、ART(そろった再帰転移)という新しい転移学習の枠組みを提案し、ドメインにわたった単語の併置を学習することでセルレベルの情報を転移する。
ARTは各RNNセルを直接拡張することで「セルレベルの情報転移」ができる。
ARTは同じ場所に対応する隠れ状態表現とアテンションスコアで重みづけられたすべての単語に対する隠れ状態の関数を組みこむ。
- セルレベルの再帰転移
ARTはソースドメインから状態を余分な入力としてとってくることで各再帰セルを拡張する。
今までの層ごとの転移学習アプローチは中間の状態を捨てていた一方で、
ARTはセルレベルの情報転移を用いることで、各セルが転移された情報から影響を受けることになる。
例えば図1.では、ターゲットドメインの"hate"はソースドメインの"sometimes"と"hate"に影響を受ける。
したがってARTはより細かい情報を転移できる。
- 併置の学習と転移
ターゲットドメインの各単語に対して、ARTはソースドメインから二種類の情報を組み込む。
a. 同じ単語に対応する隠れ状態
b. 文章のすべての単語の隠れ状態
bの情報によってARTはドメインにわたった長期依存性をとらえることができる。
ARTはbの情報をソースドメインからすべての単語のアテンションスコアをもとにして組み込むことを学習する。
転移を学習する前に、ソースドメインでニューラルネットワークの前学習をする。
それによってARTはソースドメインから前学習した情報を活用することができる。
訳していた時のめも:
個別の(specific)ドメインとは、例えば新聞の文章とか小説とかそういうもの?
オープンドメインのコーパスの方がrichとはどういう意味で?
系列をすべてエンコードした後の特徴量ベクトルだけでなく途中の遷移状態をattentionによってすべて転移させたことが新しいということのようだ。
おしまい