古代と現代のパラレル・コーパス

機械翻訳では、同じ意味の二つの言語の文を集めたパラレル・コーパスが不可欠だ。

この世界で標準的に利用されているWMTというデータセットがあるのだが、WMT‘14の英語(En) <-> ドイツ語(De)データセットには、500万の文のペアが含まれている。すごいと驚いてはいけない。

WMT‘14の英語(En)<-> フランス語(Fr)データセットには、3,600万もの文のペアが含まれている。

これは、英語・フランス語のパラレル・コーパスパラレル・コーパスの例。Gale & Church "A Program for Aligning Sentences in Bilingual Corpora"
http://www.aclweb.org/anthology/J93-1004.pdfから。




ところが、上には上がある。

Googleのニューラル機械翻訳の論文を読んでいたら、すごいことがサラリと書かれていた。

「わしら、Google社内で機械翻訳のためコーパス持っているんだけど、それって、WMTより、二桁から三桁大きいんだよね。エヘン。」

噂には、聞いてはいたが、「WMTより、二桁から三桁大きい」は、すごい。どうりで、100個のGPU使って、訓練に3週間もかかるわけだ。WMTだけだったら、そんなに時間かからないはず。

アマノジャクなので、別のことを考える。

「でも、そんなにデータ持ってて、あなたは賢いの?」

「パラレル・コーパスって、昔からあったよね。ロゼッタ・ストーンってそうだろ。」
 

シャンポリオンが、これを使って、古代エジプトの象形文字を解読した。

ローリンソンとヒンクスが、楔形文字を解読するのに使ったベヒストゥン碑文も、立派なパラレル・コーパスだ。



若い時に、確か、みすずの本で古代エーゲ海文明の「線文字B」の解読の本を読んだことも思い出した。ヴェントリスは、天才だ。パラレル・コーパスなんかなくても、未知の文字を解読できる。

21世紀になって、クレタのGareth Owensは、たった一つの粘土板Phaistos diskにきざまれた、45種類の「文字」で書かれた241文字の「文」の解読に成功したという。 女神への祈りだという。https://goo.gl/4Ye6Be 


翻訳の世界には、機械にできないことでも、人間ならできることもあるのだ。

コメント

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

人間は、善と悪との重ね合わせというモデルの失敗について