iPad
iPad、かいました。
配送未定となっていたけど二週間くらいで届きました。
少しずつ遊んでます。
最近は実家に帰った時に猫を描きたくなったのでiPadで絵を描いてみようかなと思って、アプリをダウンロードしてひたすら猫を描いてます。
今のところまだ全くフルに機能を使いこなせてませんが、
オーバースペックとも言える機器を一つ持っておくのも色々挑戦する機会になっていいなぁと
改めて思いました。
12.9 inchは家族に見せても驚くくらい大きいし、そこそこ重く感じるのでもっぱら家で使う用って感じです。
スマホとPCの間として使えるので、やっぱりビデオ通話したりするのに便利と感じます。
家の中でもちょっと家事をしながら映画見たいときとかお風呂で見たいときとかはfire端末の方を使ってます。
いい感じに使い分けられていてなかなか快適。
そういえば前にfire hd 8のビミョーなところをあげてましたが、
「別に不便ではないけど謎すぎる仕様」を一つ思い出したので追記。
純正のカバーを使っていて、デザインもお洒落で斜め折れによって縦でも横でも自立させられるというので結構お気に入りなのですが、
プライムビデオを見るとき、左が下になるように画面が回転して横向きになります。
なのに!
純正のカバーをつけて横向きで端末を立てる時は、右側を下にするような設計になっています。
なので必ず一度上下の回転を挟むことになるという。。。
なぜ内部システムの仕様と物理側の仕様の整合性を取らないのか、、、
とモヤモヤしています。
それだけ何となく報告でした。
では。
iPad vs fire hd
おはようございます。
前の投稿から間が空いてしまいましたね
論文のイントロ和訳をやっていましたが、あれは終わりにします。
なぜなら、
ご存じの方も多いでしょうが、
この試みを始めてすぐに、DeepLという翻訳サイトができてしまったのです!
https://www.deepl.com/translator
論文のイントロをそのままコピペすれば自然な日本語に直せてしまうという、
このあまりの精度と使い勝手の良さに、
自分で頑張ってイントロを和訳するというモチベーションを失ってしまいました…笑
便利な、というかすごいところまで来たなぁ翻訳技術も。
さて、そんなわけで今回は、
ふと思い立って先日iPad Pro 12.9インチを注文しましたので、
比較レビューのために一年使ってみたAmazonのfire hd 8 のあれこれをメモしておこうと思います。
ちなみに、今回注文したiPad Pro(128GBの最安モデル)とApple pencil 第二世代で
合わせて税込13まんえんとチョットになります。
8インチfire hdがカバー・64GBmicroSD・保護フィルム・2年保証込みで1.4万だったのをふまえると
10倍の価値を見出さねばなりません…!
給付がなかったら絶対自分の金で買ってねぇ
そのfire hdですが
まぁ値段相応といいますかいろいろと不満を感じる点はあるわけでして
そこらへんの不便がiPadで全く感じなければ買った甲斐があるのかなと思いました。
では思いついた順に。
1. サクサク感がない
まぁこれは当然なので諦めのつくところ。
機器自体のスペックによるところもありますし、
独自OSという影響もあると思います。
デフォルトのブラウザ(Silk)がなんとも微妙。
もう慣れましたが、何か軽く調べようと思った際に起動・検索でスマホよりも時間がかかって「うーむ」となります。
2. pdfが読みにくい
↓のアプリの少なさにも起因するのですが、
まず使えるpdfビューアが少ないです。
おそらく一番マシと言われているOfficeSuiteを使っていますが、
これがまたあまり快適とはいえず。
・読み込みが遅い
アプリのせいか機器のせいかわかりませんが、いちいち開くのに時間がかかる。
開くときだけならいいが、ページをジャンプするとまた表示に時間がかかる。
少しとんでまた同じページに戻ってくるのでも表示に時間がかかる。
論文や本を読んでいるときに前の参照や引用文献のためにとぶことが多いとややストレスに感じてしまいます…
・誤作動が多い
これもアプリか個体差かわかりませんが、
読み進めようと画面をスライドしたらスクロールバーのタッチと誤認識されて思い切りページが飛びます。
画面の右半分で操作しようとすると右端のスクロールバーに引っかかるので左手で操作するようになりましたが、今でもついやってしまいます…
(タッチの認識の問題な気がするので機器の問題っぽい?)
・広告が邪魔
これはしょうがないですね。
これ自体はアプリの話ですが、もとはと言えばストアで落とせる無料アプリが少ないのが原因。
まぁ無料で使えてるんだから文句言うなと言われればそう。
しかし既に人間は骨の髄まで便利に染まり切っているのである。
3. アプリが少ない=PCなどとのデータ同期が不便
個人的にはこれが結構盲点で不便でした。
fire端末用に開発されるアプリが少ないため
使えるアプリがかなり制限されることは知っていたのですが、
それでも一応だいたいの機能は代用のアプリでそろうしいいっしょ
みたいに考えていました。
それで間違ってはいなかったのですが、
スマホやPCで使っているアプリと同一のものが使えない=そのデータを同期できないという事実を軽視していました。
例えばslackや某マッチングアプリはブラウザからアクセスしないといけないし、
google系のアプリは一切(パチモンしか)ないので当然ドライブも使えず。
(Googleプレイストアをインストールすればいいという話もありますが、正規にサポートされていないし、さらに重くなるという話を聞いたので試してない)
写真や書類などのデータ管理がこちらで行えない、
むしろ管理コストが増えるというのはやはりストレスになりました。
4. Bluetoothの相性が悪いことが多い
Bluetooth機器との兼ね合いもあるのでレビューなどで見かけたことはなかったのですが、
スマホやPCとの接続はスムーズなのにfire hdとは相性が悪いということが多かったです。
例えばワイヤレスイヤホン。
接続はできますが、繋ぐたびに音量がかなり大きい初期値に戻るので音の出てない状態でつないで音量を下げてから聞く、みたいにしています。
面倒。
(スマホでは終了時の音量を記憶している)
あとスピーカー。
Bose solo5を使っていますが、これとの無線接続がぶちぶち切れる…
勝手に接続し直してはくれるけど、何回も中断されては安心して音楽や動画の再生ができません。
5. Amazonのサービス自体への不満
アマゾンプライム入っているし、映画や音楽もアマゾンので十分だしと思って使い始めたのですが、
・アマゾンのサービスに特化しているはずのOSなのに特に速いわけでもない。
・オンラインのときに無駄な通信や表示によってより快適性を損なう(primeビデオアプリ起動時の宣伝、オフライン音楽を聴きたいだけなのにミュージックアプリ起動に時間がかかる)
とか細かいとこが逆に気になるようになってしまいました。
正直ただでさえCPUがいっぱいいっぱいなんだから、通信とかの面でもっとミニマルに使えるような設定をさせてほしい。
(知らないだけでいろいろハックがあるのだろうか?)
今思いつくのでこんな感じです。
いろいろ書きましたが、
値段にしてはかなり満足できるものだとは思っています!
今回書いたことは、
「10倍のお金払ったらどのくらい快適になるかなー」
と思って比較用に列挙しただけのモノであって、
決してfire hdをけなすものではありません。
悪しからず。
それでは、iPadの到着をしばし待ちます。
(入荷次第発送とは書いてあるが、いつになることやら…)
論文のIntroを淡々と和訳する - 6. Time Series Forecasting Using LSTM Networks: A Symbolic Approach
今回は以下の論文を和訳していきます
arXivを眺めていたら見つけた論文ですが、RNNの系列予測に興味が湧きました。
代表的な論文とかあれば読みたいです。
Time Series Forecasting Using LSTM Networks: A Symbolic Approach (arXiv: 2003.05672)
著者:S. Elsworth, S. Guettel (Manchster大学)
時系列は経済、需要供給予測、健康モニタリングのような多くの分野、応用で現れる一般的なデータ型である。
時系列値のベクトルT=[t_1, t_2, ..., t_N] が与えられた時、時系列解析の中で流行のタスクはそれまでのデータに基づいて未来の値 t_{N+1}, t_{N+2}, ...を予知(または外挿)することである。
時系列予知の方法は大まかに二つの主要なカテゴリに分類される:伝統的な統計的手法と機械学習モデルベースの方法である。
後者に属する再帰型ニューラルネットワーク(RNN)は時系列の異常検知、分類、予知に頻繁に用いられる一方で、M3コンペにおけるシステマチックな比較によって伝統的な統計手法に劣ることが示された。
より最近では、指数平滑法(古典的な統計手法の一つ)と再帰型ニューラルネットワーク(機械学習モデル)を組み合わせたES-RNNモデルと呼ばれるアルゴリズムがM4コンペで優勝した。
今の所、系列データの人手の前処理と集中的なパラメータ調整なしに人間に近い性能を達成するような信頼できる利用可能な「ブラックボックス」な時系列予測手法はないということができるだろう。
たくさんの使える予知の精度指標がある中で「信頼できる」がこの文脈の中で何を意味するかですら明確ではない。
本論文で見るように、生の系列データに基づく機械学習予知手法は根本的な限界と欠点がある。例えば、計算コストの高い訓練フェーズや、多くの超パラメータ、さらにはランダムな重みの初期化への感度の高さがある。
我々は次元削減をする時系列の記号表現が訓練フェーズを大幅に高速化し、モデルの超パラメータと初期重みへの感度を削減できることを示す。
おしまい。
論文のIntroを淡々と和訳する - 5. Transfer Learning for Sequences via Learning to Collocate
今回は以下の論文のイントロを和訳します。
Transfer Learning for Sequences via Learning to Collocate (ICLR 2019)
(併置学習による系列の転移学習)
著者:Wanyun Cui, Guangyu Zheng, Zhiqiang Shen, Sihang Jiang, Wei Wang
(上海財経大学、復旦大学)
多くの過去の自然言語処理研究はオープンドメインのタスクに注目している。
しかし自然言語の多様性とあいまいさのために、一つのドメインでのモデルはほかのドメインに適用された際に通常より大きな誤差を被る。
ニューラルネットワークではそれがさらに悪い、なぜなら埋め込みベースのニューラルネットワークモデルは通常過適合に苦しむからだ。
既存のNLPモデルは通常オープンドメインで訓練される一方、個別のドメインに適用されると大きな性能低下に苦しむ。
そこで我々は個別のドメインに対して個別のモデルを訓練する。
個別のドメインを訓練する際の重要なことがらは、ラベル付きデータの不足だ。
転移学習はその不足を解決する有効な方法である。
既存の研究は
(1)異なるドメインでのNLPモデルたちは多くの共通する特徴を持っている
(2)オープンドメインでのコーパスは特定のドメインのそれよりも通常ずっと豊かである
ことを示している。
我々の転移学習モデルは前学習フレームワークにもとづく。
まずソースドメインでモデルを前学習する。
それからターゲットドメインでモデルをfine-tuneする。
最近、いくつかの前学習モデル(BERT,ELMo,GPT-2)は文章に関する一般的な知識を学習することに成功している。
違いはこれらのモデルが大規模でドメインに独立なコーパスを前学習に用いていることである。
本論文では、小規模だがドメイン依存なコーパスをソースドメインとして前学習に用いる。
前学習のコーパスについては、ドメインの関連性が規模の制限の不利性を克服することを議論する。
最近の転移学習のアプローチは、層全体にわたった情報を転移するだけだった。
これはソースドメインでのセルからの情報喪失を引き起こす。
「レイヤーごとの転移学習」はそのアプローチが文章全体を一つのベクトルで表現することを意味する。
なので転移機構はベクトルにのみ適用される。
我々はソースドメインから各セルの情報を正確にとらえて転移することの有効性を二つの事例で強調する。
一つ目は、seq2seqまたは系列ラベリングタスクにおいて、すべてのセルは直接結果に影響する。
なので層ごとの情報転移はこのようなタスクに向かない。
二つ目は、文のクラス分類でさえ、ソースドメインのセルはターゲットのドメインを理解するためのより細かい情報を提供してくれる。
例えば図1.では、以下のようなことを示している(意訳、詳細は論文を参照)
ソースとターゲットで対応する状態の隠れ層だけではなく、その文脈(長期依存性)を汲み取ることがターゲットでの不十分な情報をよりよく補ってくれる。
本論文では、ART(そろった再帰転移)という新しい転移学習の枠組みを提案し、ドメインにわたった単語の併置を学習することでセルレベルの情報を転移する。
ARTは各RNNセルを直接拡張することで「セルレベルの情報転移」ができる。
ARTは同じ場所に対応する隠れ状態表現とアテンションスコアで重みづけられたすべての単語に対する隠れ状態の関数を組みこむ。
- セルレベルの再帰転移
ARTはソースドメインから状態を余分な入力としてとってくることで各再帰セルを拡張する。
今までの層ごとの転移学習アプローチは中間の状態を捨てていた一方で、
ARTはセルレベルの情報転移を用いることで、各セルが転移された情報から影響を受けることになる。
例えば図1.では、ターゲットドメインの"hate"はソースドメインの"sometimes"と"hate"に影響を受ける。
したがってARTはより細かい情報を転移できる。
- 併置の学習と転移
ターゲットドメインの各単語に対して、ARTはソースドメインから二種類の情報を組み込む。
a. 同じ単語に対応する隠れ状態
b. 文章のすべての単語の隠れ状態
bの情報によってARTはドメインにわたった長期依存性をとらえることができる。
ARTはbの情報をソースドメインからすべての単語のアテンションスコアをもとにして組み込むことを学習する。
転移を学習する前に、ソースドメインでニューラルネットワークの前学習をする。
それによってARTはソースドメインから前学習した情報を活用することができる。
訳していた時のめも:
個別の(specific)ドメインとは、例えば新聞の文章とか小説とかそういうもの?
オープンドメインのコーパスの方がrichとはどういう意味で?
系列をすべてエンコードした後の特徴量ベクトルだけでなく途中の遷移状態をattentionによってすべて転移させたことが新しいということのようだ。
おしまい
論文のIntroを淡々と和訳する - 4. Unsupervised learning of video representations using LSTMs
今回は次の論文のイントロを和訳しました。
Unsupervised learning of video representations using LSTMs
(LSTMを用いた動画表現の教師なし学習, ICML 2015)
著者: Nitish Srivastava, Elman Mansimov, Ruslan Salakhutdinov
(トロント大学)
AI関連の多くの問題を解くのには一時的な系列を理解することが重要である。
近年、LSTMを用いた再帰型ニューラルネットはさまざまな教師ありの系列訓練タスクにおいて成功を納めている、例えば音声認識、機械翻訳、キャプション生成など。
行動の認識や自然言語での説明の生成にも応用されている。
一般的な学習フレームワークはSutskever 2014において、系列を固定長の表現にエンコードするのにRNNを用い、その表現から系列をデコードするのに別のRNNを用いる形で示されている。
本研究では、画像の系列の表現を学習するためにこのフレームワークを応用・拡張する。
ラベルなしの動画のみを取得できるという教師なしの設定を選択する。
1.1 なぜ教師なし学習か?
教師あり学習は非常にうまく良い視覚表現を学習し、訓練に使われたタスクで良い結果を残すばかりでなくほかのタスクやデータセットにもうまく転移することができる。
そのため、そのアプローチを動画の表現を学習に拡張することは自然である。
これは3D畳み込みネットワークやdifferent temporal fusion strategy、畳み込みネットワークに視覚情報を伝える異なる方法の探求などの研究を生み出した。
しかしながら、動画は一枚の画像に比べてより多くの次元を持つものである。
そのため、ずっと多くのラベル付きデータを集めたり特徴量エンジニアリングをして次元を低く抑えるなどしない限り、貢献度分配(credit assignment)や長範囲構造の学習がさらに難しい。
コストをかけてデータを集めることやより賢い特徴抽出のための退屈な仕事をすることは一つの問題を解くのに長い道のりを要することになるが、これは機械学習の解法としてはとても満足できるものではない。
このため動画の特徴構造を見つけるための教師なし学習の需要が出てくる。
さらに、動画はそれ自身(空間的、一時的な通常性などの)多くの構造を持つため、教師なし学習モデルを構築するのに適している。
1.2 アプローチ
本論文では、動画の表現学習にLSTMエンコーダー・デコーダのフレームワークを使う。
エンコーダLSTMはフレームの列を走って表現を得る。
それからこの表現はもう一つのLSTMによってデコードされてターゲットの系列を出力する。
ターゲット系列の異なる選択を考えることにする。
一つの選択は入力と同じものを予測することだ。
そのモチベーションは自己符号器のそれと近い。
つまり入力を再生するのに必要なものすべてを獲得しながらもモデルに課された帰納バイアスを潜り抜けることが望ましい。
もう一つの選択は未来のフレームを予測することだ。
ここでモチベーションは動きと外見を今まで見たものから外挿するのに必要なものすべてを抽出する表現を学習することだ。
これらの二つの自然な選択は組み合わせることもできる。
この場合、二つのデコーダLSTMがある。
一つは表現を入力にデコードするもの、もう一つは未来を予測するものだ。
モデルへの入力は原理的には個々の動画フレームの任意の表現でよい。
しかしながら、評価の目的のために二種類の入力に注意を限定することにする。
一つ目は画像パッチだ。
このためにMNIST数字を動かしたデータセットと自然な画像パッチをもちいる。
二つ目はImageNetで前訓練された畳み込みネットワークを適用して抽出される高度な「知覚」である。
この知覚は最後(and/or最後から二番目)の隠れReLU層の状態である。
学習された表現を評価するため、モデルから得られる再構成と予測を定性的に解析する。
より定量的な評価のため、これらのLSTMを行動認識の教師ありタスクの初期値として用いる。
もし教師なし学習モデルが有用な表現を得るならば、識別機はよりうまくはたらくはずである、特に少量のラベル付きデータしかない場合には。
それが実際成り立つことがわかった。
1.3関連研究 は省略します。
おしまい。
論文のIntroを淡々と和訳する - 3. Capacity and Trainability in Recurrent Neural Networks
今回は以下の論文のイントロを和訳します。
Capacity and Trainability in Recurrent Neural Networks
(再帰型ニューラルネットワークの容量と学習可能性)
著者: J.Collins, J.Sohl-Dickstein, D.Sussillo (Google Brain)
RNNの研究と応用は最近数年間で爆発的な成長をしており、
RNNは深層学習におけるいくつかのとても成功しているモデルクラスや応用分野の重要な部品となっている(例えば、音声認識、DRAWモデル、教育への応用、科学的な発見)。
これらの最近の成功にも関わらず、複雑なモデルのRNN部分をデザインし訓練することは非常に厄介なことであることが広く知られている。
RNNの専門知識の獲得が大半の事業の成功にいまだに必要不可欠となっている。
RNNモデルのデプロイに含まれる一つの主要な戦略はLSTMネットワーク、最近ではGRUを使うことである。
その結果モデルはより容易に訓練できるようになり、より低い誤差を達成することが確認されている。
RNNは普遍近似関数であることは広く理解されている一方で、ゲートモデルがその訓練の簡単さに対してどれだけ実際に計算的にパワフルであるかは未解決問題である。
ここでは我々はゲートモデルが通常のRNNモデルに対して確認されている優位性がほとんどすべて学習可能性によって引き起こされるものであるという証拠を提供する。
はじめに、様々なRNN構造が苦しむとされる容量ボトルネックを二種類示す:
タスクを解くためのパラメータの効率性と歴史を覚える能力である。
次に、非常に徹底的にハイパーパラメータを最適化する訓練を含め、これらのボトルネックの影響を紐解く実験設定を示す。
最後に、我々の容量実験(パラメータ毎、ユニット毎)と、学習可能性の実験(ゲートモデルがおそらく良い結果をしめすと合理的に期待される非常に難しいタスクで訓練すること)の結果をしめす。
1.1 容量ボトルネック
例えば、パラメータの中にタスクに関するどれだけの情報を保持しておくことができるか?
ユニットの中に入力の歴史についてどれだけの歴史を保持しておくことができるか?
このはじめの二つのボトルネックは共に異なるタイプの記憶での(一つはタスク、一つは入力に対する)記憶容量とみなすことができる。
それとは別に、RNNの実行できる計算の基本形から他の種の容量が発する。
例えば、二つの数をかけたいとしよう。
ユニットの数と時間ステップから言えば、このタスクは特定の計算の原始的なものと力学を用いればとても直接的なものかもしれないが、他のものを使えばリソースを過度に使ってしまうかもしれない。
計算の基本形の差異による計算容量の違いは、パフォーマンスにおいて大きな役割を果たすと思われるかもしれない。
しかしながら、ゲート構造が(通常のRNNと異なり)隠れ層の間の乗法の基本形を纏っているにも関わらず、我々の実験の中で計算的なボトルネックを示すものは全く見つからなかった。
そこで我々は、RNNが訓練中にタスクを学習するためのパラメータ毎の容量とRNNへの入力を覚えているだけのユニット毎の記憶容量のみに注目することにする。
1.2 実験設定
RNNは行列のスケールやバイアス、非線形関数の形など多くのハイパーパラメータをもつ。
最適化法や学習率の選択など、学習に含まれるさらに多くのハイパーパラメータも存在する。
モデルを学習するために我々はSpearmintと似たガウス過程モデルを用いたハイパーパラメータ調整を採用した。
基本的なアイデアは、調整器からハイパーパラメータを要求し、その値を用いて最適化を完了すると、バリデーション損失を返すというものだ。
調整器はそれまでに得られた損失と一緒にこの損失を使って、多くの実験の中でバリデーション損失を最小にするような新しいハイパーパラメータの値を選ぶ。
実験では、(各構造とタスクに対して数百から数千回の実験をして)タスクに高度に最適化した後に(ハイパーパラメータ最適化器の返したバリデーション損失とは別に)評価損失を出している。
実験ではよく知られたRNNの構造を用いた。
例えば通常のRNN、新しいIRNN、さらにGRUやLSTMなどのゲートつきRNNである。
我々はUpdate Gate RNN(UGRNN)とIntersection RNN(+RNN)と呼ぶ二つの新しいRNN構造を発明し、これを加えたものを実験に使うモデルとする。
UGRNNは「ゲートを最も小さくした」RNN構造で、再帰隠れ状態と隠れ状態の更新の間に二つだけのゲートをもつ。
+RNNは再帰と深さ次元の両方に直接的な方法でゲートする二つのゲートをもつ。
それぞれのRNN構造の強みと弱みをさらに調べるために、いくつかの深さを用いた(実験では1,2,4,8)。
ほとんどの実験で、異なる構造や深さに渡ってパラメータの個数を固定した。
正確に言えば、一つの実験に対し、入力次元と出力次元に沿ってパラメータの最大値を設定した。
そうして各層の隠れユニットの数は、すべての層に渡って足し上げたパラメータの数がその許容される最大値を超えないように設定された。
6つの各タスクと6つのRNNの亜種、4種類の深さと6あまりのモデルサイズの各々について、関連する損失関数を最適化するためにハイパーパラメータ調整器を走らせた。
大抵これにより数百から数千のハイパーパラメータ評価が行われ、それぞれは最大数百万の訓練ステップになる訓練となった。
合わせると、これはCPU-millennia に相当する計算である。
まだ続くのですが、長いのでとりあえずここまでで…
結構評価されているらしい論文なので、ちゃんと目を通したいです。
論文のIntroを淡々と和訳する - 2.Learning Longer-term Dependencies in RNNs with Auxiliary Losses
こんばんは。
今回は次の論文のイントロを和訳しました。
Learning Longer-term Dependencies in RNNs with Auxiliary Losses
(追加の損失でRNNの長期依存性を学習)
著者: Trieu H. Trinh, Andrew M. Dai, Minh-Thang Luong, Quoc V. Le (Google Brain)
ICLR 2018
AIの応用で系列内のイベントの長期依存性の理解が必要となる。
例えば言語処理では、本の中で離れたイベントの関係に関する質問に答えるためにはその関係を理解せねばならない。
通常これは勾配法とBackPropagation Through Time(BPTT)で達成される。
しかし、BPTTで得られる勾配はしばしば消滅・発散するため長期依存性の学習は難しい
さらに、BPTTを使うためには、途中の隠れ状態を保持せねばならない。
よって必要なメモリーが系列の長さにスケールしてしまうため大きな問題に合わせるのが難しい。
この問題に対処する有効なアプローチがいくつか提案されてきた。
ひとつめはLSTMで、これは勾配の流れを改善する。
さらに、LSTMの学習を安定させるのに勾配クリッピングも使える。
メモリーの軽減のために、周期的にのみ隠れ状態を保持したり、truncated BPTT や synthetic gradientを使うことができる
畳み込みネットワークも長期依存の問題を改善することができる。
なぜなら大きなカーネルとResNetのような深いネットワークは画像の離れた部分を通して長期依存を学習することができるから。
しかしこれは根本的に異なる種の構造で、他の欠点を持つ。
たとえば元データや途中の活性値は学習の間保持される。(普通のCNNなら推論に入力サイズのオーダーO(n)のストレージが必要になる)
トランスフォーマーも(訓練や推論にO(n)のストレージへのランダムアクセスが必要なので、magnify(?)されているものの)同様の問題を持つ。
なので、RNNには、長さlのBPTTの下でO(l)のストレージしか必要としないというメリットがある。
PTBデータセットで言語モデルを学習するときには、100万のトークン列に対して状態を決してリセットしないので(?)、しばしばこのメリットが現れる。
したがって、理論的にはRNNは非常に長い距離にわたった関係を学習できる。
さらにRNNは「振り返らない」のでその推論にはO(1)のストレージしか必要ない。
本論文では、BPTTのみに頼ったRNNの弱さにさらに取り組むために別の方向のテクニックを提案する。
我々の技術は(アンカーの前or後に再構成/予測のための)教師なしの追加のロスを主の教師ありロスに加える。
これにより、少ないBPTT数で学習ができる。
得られた結果は、追加のロスによってLSTMの最適化と汎化が大幅に向上できることをしめす。
さらにこれによって、良い結果を得るために長いBPTTを学習に使う必要がなくなった。
なので、提案法は勾配の問題と同様にBPTTの長さが本質的なボトルネックになるとても長い系列に使える。
実験では16000要素まで扱った。
全ての勾配を用いたLSTMでの学習はとても難しいが、ロスを追加したLSTMはずっと速く少ない使用メモリーで学習できた。
おしまい。