投稿

TPU論文の翻訳(1)

イメージ
データセンター内での Tensor Processing Unitのパフォーマンス解析 Norman P. Jouppi, Cliff Young, Nishant Patil, David Patterson, Gaurav Agrawal, Raminder Bajwa, Sarah Bates, Suresh Bhatia, Nan Boden, Al Borchers, Rick Boyle, Pierre-luc Cantin, Clifford Chao, Chris Clark, Jeremy Coriell, Mike Daley, Matt Dau, Jeffrey Dean, Ben Gelb, Tara Vazir Ghaemmaghami, Rajendra Gottipati, William Gulland, Robert Hagmann, C. Richard Ho, Doug Hogberg, John Hu, Robert Hundt, Dan Hurt, Julian Ibarz, Aaron Jaffey, Alek Jaworski, Alexander Kaplan, Harshit Khaitan, Andy Koch, Naveen Kumar, Steve Lacy, James Laudon, James Law, Diemthu Le, Chris Leary, Zhuyuan Liu, Kyle Lucke, Alan Lundin, Gordon MacKean, Adriana Maggiore, Maire Mahony, Kieran Miller, Rahul Nagarajan, Ravi Narayanaswami, Ray Ni, Kathy Nix, Thomas Norrie, Mark Omernick, Narayana Penukonda, Andy Phelps, Jonathan Ross, Matt Ross, Amir Salek, Emad Samadiani, Chris Severn, Gregory Sizikov, Matthew Snelham, Jed Souter, Dan Steinberg, Andy Swing, Mercedes Tan, G

Bob Dylan "Triplecate"

ボブ・ディランの"Triplecate"を聴く。Samplerというダイジェスト版だけど、10曲入っている。SpotifyでもGoogle Musicでも聴ける。多分、Apple Musicでも。(Apple Music、やめようとして色々いじったが、うまくいかず、結局、やめ方中途半端なまま、課金だけされて、Androidでは聴けなくなってしまった。ヒドイ。) 「センチメンタル・ジャーニー」や「スター・ダスト」なんか懐かしい気になる。いいかも。と、思うところもあるのだが。でも、なんか引っかかる。 ボブ・ディランが、気分は、シナトラになっている。歌はヘタだけど。僕の好きなエイミーもガガも、スタンダード・ナンバーをトニー・ベネットとデュエットをしているのだが、ボブ:ディランは、一人で出来上がっている。カラオケで、おじさんが持ち歌の「マイ・ウエイ」を、上手に得意げに歌っているのを聞いたのに似た気分になる。 最近のディランのインタビューを読んで、さすがだな、鋭いな、なかなか面白いなとも思ったのだが、スタンダードへの回帰というが、多分、彼は、新しい詩を作ることがもうできないのだろう。(ノーベル文学賞をもらったのにね) ジョン・レノン、ボブ・ディラン、ポール・マッカトニーは、それぞれ一つ違いの、ほぼ同じ世代だ。そう思うと、この中では、一番若いとはいえ、ポールの元気さは、すごいと思う。 でも、待てよ。 人は誰でも歳をとる。どんな歳のとりかたをしようが、ボケようが、それを他人がとやかくいう必要はないと思う。余計なお世話だ。半分、ボケが入っている自分が言うのも、なんかおかしいが。 そうだ。10年もしないうちに、彼らと同世代になって、新しいことについていけなくなったら、リーマンとかアインシュタインの話をしよう。その前に、もっとボケるって? 余計なお世話だ。 ボブ・ディランさん、ごめんなさい。お元気で。

April Fool

数学には、まだ解けない問題が沢山残っている。 そうした問題の中に、もし、その問題が解ければ、すべての数学の難問を証明することができるという特別な問題がある。 解くのはとても難しく、誰も成功していないのだが、定式化は簡単である。「0 = 1 を証明せよ!」これである。 世界のクレージーな数学者の何パーセントかは、この究極の問題に取り組んでいる。 僕は数学者なのだが、最近、プログラム言語の勉強を始めた(数学だけじゃ、生活できないからね)。 そしたら、驚いた。 この世界では、x = x + 1 という式は常識らしい。これって、0 = 1 だよね。プログラムの世界は、僕が思っていた以上に、ぶっ飛んでいるようだ。 誰かが言っていた。「世界中の数学者の収入を全て合わせたものより、Googleトップの一人の収入の方が大きい」と。 世の中は不公平なものかもしれないのだが、それだけではないと思う。Googleは、きっと、数学の最終問題 “ 0 = 1“の証明を、密かに完成させているのだと思う。

4月、東京・大阪で6時間集中講義

4月22日東京、4月29日大阪で、角川アスキーさんの主催で、「IT技術者の新しい常識「ディープラーニング」入門」6時間集中講義を行います。皆さんの参加をお待ちしています。 --------------------------------------------------- 4月22日の東京は、昨年来のシリーズの第二弾で、今回のテーマは、「自然言語とニューラルネットワーク」です。 次のような構成になります。   第一部 概説 自然言語と人工知能   第二部 RNNとLSTMの基礎   第三部 Googleニューラル機械翻訳 4月22日東京の開催趣旨はこちら https://goo.gl/LJ7qvA 申し込みページはこちらです。https://goo.gl/uHFcxj --------------------------------------------------- --------------------------------------------------- 4月29日の大阪のテーマは、「ニューラルネットワークの基礎」です。(4月22日の東京とは、コンテンツが異なりますのでご注意ください。)  次のような構成となります。   第一部 ニューラルネットワークの基礎   第二部 ニューラルネットワークはどう「学習」するのか   第三部 ニューラルネットワークによる画像認識技術 開催趣旨はこちら https://goo.gl/ufQ2vH 申し込みページはこちらです。https://goo.gl/xhXoqC --------------------------------------------------- --------------------------------------------------- 4/22 東京 開催概要 --------------------------------------------------- ■セミナータイトル: IT技術者の新しい常識「ディープラーニング」入門6時間集中講義 Part 2 自然言語処理とニューラルネットワーク ■講義の構成:   第一部 概説 自然言語と人工知能   第二部 RNNとLSTMの基礎   第三部 Googl

Google翻訳での日本語の点数の低さについて

イメージ
Google翻訳は、なかなかスゴイのだが、他の欧米系の言語での翻訳と比べると、日本語の翻訳精度は、かなり低い。 この表は、Google翻訳の「Zero-Shot論文」の、ある意味「目玉」の結果の一つである。 機械翻訳のシステムを、ドイツ語 -> 英語、フランス語 -> 英語 というように、一対一の言語の組み合わせで別々のシステムで訓練させるより、{ ドイツ語、フランス語} -> 英語 のように、一つのシステムで同時に複数の言語(この場合は二つの言語)の一つの言語(この場合は、英語)への翻訳を訓練した方が翻訳精度が上がるという、驚くべきものである。 人間で言えば、日本語の英語への翻訳をもっとうまくやりたいなら、韓国語から英語への翻訳も、同時に学習する方がいいということ。 このメリットを説明する可能性のある仮説の1つは、モデルがより多くの英語データをターゲット側に持ち、ソース言語が同じ言語ファミリに属していること。それで、モデルは有用な一般化を学んでいると思われる。 こうした 発見は、とても興味深いものだが、ここでは、別のことに注目しよう。 ここでの翻訳精度の改善は、BLEUのスコアで、+0.05〜+0.79の改善である。(表の赤い枠の部分。) ただ、日本語 -> 英語の翻訳精度は高いスコアで 23.87で、フランス -> 英語の 36.77と比べるとずいぶん低い。この表の中では、最低だ。実験で最高得点をたたき出している ポルトガル語 -> 英語の 45.19と比べると、半分程度だ。 実は、このポルトガル語の高得点も、僕には不思議に見える。WMTのコーパスでは、英語・フランス語のパラレル・データが3,600万ペアで、英語・ドイツ語のペア500万と比べても圧倒的に多い。ポルトガル語の高得点は、Google内部のコーパスを使ったものだが、アメリカなら、英語・スペイン語のデータは多いと予想できるのだが、英語・ポルトガル語のデータが、それ以上に多いとは思えない。でも、スペイン語 -> 英語より、ポルトガル語 -> 英語の方が、ずっと成績がいいのだ。 きっとGoogle翻訳は、英訳に関して言えば、日本語とは相性が悪く、ポルトガル語とはとても相性がいいのだ。なぜか? 僕にはわからない。

Lady GaGa -- Joanne

もうだいぶ前のことだが、Paul McCartneyが出した"My Valentine" という曲が好きだった。ジャズのスタンダード・ナンバーっぽい曲だ。まあ、彼は万能なので、どんな曲でも作れるんだなという感じで聞いていたのだが。 https://goo.gl/KLvgP そのうち、Lady GaGaがTony Bennettとデュエットのアルバムを出した。もちろん、古い曲のカバーだ。スランプ気味だったGaGaのリハビリみたいなものかなと、生暖かく見守ることに。GaGa、歌が上手いことに気づく。例えば、これ。 https://goo.gl/74Ug8m ただ、Bob Dylanが、Frank Sinatraのカバー・アルバムを出した時には、少し驚いた。Dylan 自身がギャングに扮するビデオまで作って。 https://goo.gl/lFav5U この流れは何なんだ。何かが起きていることは確かなのだが、その時は、その意味は、よくわからなかった。今になってみれば、それは、今、アメリカで起きていることの予兆の一つだったということに気づく。「古き良きアメリカ」は、失われつつあるという意識とともに、それを懐かしむ意識は、だいぶ前から伏流していたのだと思う。 仕事が一段落して、ようやくGaGaの新しいアルバム Joanneを聴く。今までのGaGaのアルバムとは、ずいぶん違ったものになっている。 ネットで見かけたタイトルに、こんなのがあった。 「レディー・ガガが普通になっちゃった?新作『ジョアン(Joanne)』に暗雲漂う… 」 確かに、そうかもしれない。 奇抜なメークもなし。曲もシンプルで、歌詞は、演歌のようにわかりやすい。どこの訛りかわからないのだが、発音もなまっているように、僕には聞こえる。何星人だかわからなかったGaGaが、悪魔崇拝の雰囲気も漂わせていたGaGaが、アメリカの淳朴で信心深い田舎娘になっている。 (Diamond Heart) I'm not flawless, but I gotta diamond heart. (sinner's prayer) Hear my sinner's prayer I am what I am A

古代と現代のパラレル・コーパス

イメージ
機械翻訳では、同じ意味の二つの言語の文を集めたパラレル・コーパスが不可欠だ。 この世界で標準的に利用されているWMTというデータセットがあるのだが、WMT‘14の英語(En) <-> ドイツ語(De)データセットには、500万の文のペアが含まれている。すごいと驚いてはいけない。 WMT‘14の英語(En)<-> フランス語(Fr)データセットには、3,600万もの文のペアが含まれている。 これは、英語・フランス語のパラレル・コーパスパラレル・コーパスの例。Gale & Church "A Program for Aligning Sentences in Bilingual Corpora" http://www.aclweb.org/anthology/J93-1004.pdf から。 ところが、上には上がある。 Googleのニューラル機械翻訳の論文を読んでいたら、すごいことがサラリと書かれていた。 「わしら、Google社内で機械翻訳のためコーパス持っているんだけど、それって、WMTより、二桁から三桁大きいんだよね。エヘン。」 噂には、聞いてはいたが、「WMTより、二桁から三桁大きい」は、すごい。どうりで、100個のGPU使って、訓練に3週間もかかるわけだ。WMTだけだったら、そんなに時間かからないはず。 アマノジャクなので、別のことを考える。 「でも、そんなにデータ持ってて、あなたは賢いの?」 「パラレル・コーパスって、昔からあったよね。ロゼッタ・ストーンってそうだろ。」   シャンポリオンが、これを使って、古代エジプトの象形文字を解読した。 ローリンソンとヒンクスが、楔形文字を解読するのに使ったベヒストゥン碑文も、立派なパラレル・コーパスだ。 若い時に、確か、みすずの本で古代エーゲ海文明の「線文字B」の解読の本を読んだことも思い出した。ヴェントリスは、天才だ。パラレル・コーパスなんかなくても、未知の文字を解読できる。 21世紀になって、クレタのGareth Owensは、たった一つの粘土板Phaistos diskにきざまれた、45種類の「文字」で書かれた241文字の「文」の解読に成功したという。 女神への祈りだという