古代と現代のパラレル・コーパス
機械翻訳では、同じ意味の二つの言語の文を集めたパラレル・コーパスが不可欠だ。
この世界で標準的に利用されているWMTというデータセットがあるのだが、WMT‘14の英語(En) <-> ドイツ語(De)データセットには、500万の文のペアが含まれている。すごいと驚いてはいけない。
WMT‘14の英語(En)<-> フランス語(Fr)データセットには、3,600万もの文のペアが含まれている。
これは、英語・フランス語のパラレル・コーパスパラレル・コーパスの例。Gale & Church "A Program for Aligning Sentences in Bilingual Corpora"
http://www.aclweb.org/anthology/J93-1004.pdfから。
ところが、上には上がある。
Googleのニューラル機械翻訳の論文を読んでいたら、すごいことがサラリと書かれていた。
「わしら、Google社内で機械翻訳のためコーパス持っているんだけど、それって、WMTより、二桁から三桁大きいんだよね。エヘン。」
噂には、聞いてはいたが、「WMTより、二桁から三桁大きい」は、すごい。どうりで、100個のGPU使って、訓練に3週間もかかるわけだ。WMTだけだったら、そんなに時間かからないはず。
アマノジャクなので、別のことを考える。
「でも、そんなにデータ持ってて、あなたは賢いの?」
「パラレル・コーパスって、昔からあったよね。ロゼッタ・ストーンってそうだろ。」
シャンポリオンが、これを使って、古代エジプトの象形文字を解読した。
ローリンソンとヒンクスが、楔形文字を解読するのに使ったベヒストゥン碑文も、立派なパラレル・コーパスだ。
若い時に、確か、みすずの本で古代エーゲ海文明の「線文字B」の解読の本を読んだことも思い出した。ヴェントリスは、天才だ。パラレル・コーパスなんかなくても、未知の文字を解読できる。
21世紀になって、クレタのGareth Owensは、たった一つの粘土板Phaistos diskにきざまれた、45種類の「文字」で書かれた241文字の「文」の解読に成功したという。 女神への祈りだという。https://goo.gl/4Ye6Be
翻訳の世界には、機械にできないことでも、人間ならできることもあるのだ。
この世界で標準的に利用されているWMTというデータセットがあるのだが、WMT‘14の英語(En) <-> ドイツ語(De)データセットには、500万の文のペアが含まれている。すごいと驚いてはいけない。
WMT‘14の英語(En)<-> フランス語(Fr)データセットには、3,600万もの文のペアが含まれている。
これは、英語・フランス語のパラレル・コーパスパラレル・コーパスの例。Gale & Church "A Program for Aligning Sentences in Bilingual Corpora"
http://www.aclweb.org/anthology/J93-1004.pdfから。
ところが、上には上がある。
Googleのニューラル機械翻訳の論文を読んでいたら、すごいことがサラリと書かれていた。
「わしら、Google社内で機械翻訳のためコーパス持っているんだけど、それって、WMTより、二桁から三桁大きいんだよね。エヘン。」
噂には、聞いてはいたが、「WMTより、二桁から三桁大きい」は、すごい。どうりで、100個のGPU使って、訓練に3週間もかかるわけだ。WMTだけだったら、そんなに時間かからないはず。
アマノジャクなので、別のことを考える。
「でも、そんなにデータ持ってて、あなたは賢いの?」
「パラレル・コーパスって、昔からあったよね。ロゼッタ・ストーンってそうだろ。」
シャンポリオンが、これを使って、古代エジプトの象形文字を解読した。
ローリンソンとヒンクスが、楔形文字を解読するのに使ったベヒストゥン碑文も、立派なパラレル・コーパスだ。
若い時に、確か、みすずの本で古代エーゲ海文明の「線文字B」の解読の本を読んだことも思い出した。ヴェントリスは、天才だ。パラレル・コーパスなんかなくても、未知の文字を解読できる。
21世紀になって、クレタのGareth Owensは、たった一つの粘土板Phaistos diskにきざまれた、45種類の「文字」で書かれた241文字の「文」の解読に成功したという。 女神への祈りだという。https://goo.gl/4Ye6Be
翻訳の世界には、機械にできないことでも、人間ならできることもあるのだ。
コメント
コメントを投稿