古代と現代のパラレル・コーパス

3月 24, 2017

機械翻訳では、同じ意味の二つの言語の文を集めたパラレル・コーパスが不可欠だ。

この世界で標準的に利用されているWMTというデータセットがあるのだが、WMT‘14の英語(En) <-> ドイツ語（De）データセットには、500万の文のペアが含まれている。すごいと驚いてはいけない。

WMT‘14の英語（En）<-> フランス語（Fr）データセットには、3,600万もの文のペアが含まれている。

これは、英語・フランス語のパラレル・コーパスパラレル・コーパスの例。Gale & Church "A Program for Aligning Sentences in Bilingual Corpora"
http://www.aclweb.org/anthology/J93-1004.pdfから。

ところが、上には上がある。

Googleのニューラル機械翻訳の論文を読んでいたら、すごいことがサラリと書かれていた。

「わしら、Google社内で機械翻訳のためコーパス持っているんだけど、それって、WMTより、二桁から三桁大きいんだよね。エヘン。」

噂には、聞いてはいたが、「WMTより、二桁から三桁大きい」は、すごい。どうりで、100個のGPU使って、訓練に3週間もかかるわけだ。WMTだけだったら、そんなに時間かからないはず。

アマノジャクなので、別のことを考える。

「でも、そんなにデータ持ってて、あなたは賢いの？」

「パラレル・コーパスって、昔からあったよね。ロゼッタ・ストーンってそうだろ。」
　

シャンポリオンが、これを使って、古代エジプトの象形文字を解読した。

ローリンソンとヒンクスが、楔形文字を解読するのに使ったベヒストゥン碑文も、立派なパラレル・コーパスだ。

若い時に、確か、みすずの本で古代エーゲ海文明の「線文字B」の解読の本を読んだことも思い出した。ヴェントリスは、天才だ。パラレル・コーパスなんかなくても、未知の文字を解読できる。

21世紀になって、クレタのGareth Owensは、たった一つの粘土板Phaistos diskにきざまれた、45種類の「文字」で書かれた241文字の「文」の解読に成功したという。女神への祈りだという。https://goo.gl/4Ye6Be　

翻訳の世界には、機械にできないことでも、人間ならできることもあるのだ。

このブログを検索

過去・現在・未来

古代と現代のパラレル・コーパス

コメント

コメントを投稿

このブログの人気の投稿

宇宙の終わりと黒色矮星

1 + 196883 = 196884

機械の言語能力の獲得から考える embeddingの共有・蓄積・検索の未来