Google翻訳での日本語の点数の低さについて

Google翻訳は、なかなかスゴイのだが、他の欧米系の言語での翻訳と比べると、日本語の翻訳精度は、かなり低い。


この表は、Google翻訳の「Zero-Shot論文」の、ある意味「目玉」の結果の一つである。
機械翻訳のシステムを、ドイツ語 -> 英語、フランス語 -> 英語 というように、一対一の言語の組み合わせで別々のシステムで訓練させるより、{ ドイツ語、フランス語} -> 英語 のように、一つのシステムで同時に複数の言語(この場合は二つの言語)の一つの言語(この場合は、英語)への翻訳を訓練した方が翻訳精度が上がるという、驚くべきものである。

人間で言えば、日本語の英語への翻訳をもっとうまくやりたいなら、韓国語から英語への翻訳も、同時に学習する方がいいということ。

このメリットを説明する可能性のある仮説の1つは、モデルがより多くの英語データをターゲット側に持ち、ソース言語が同じ言語ファミリに属していること。それで、モデルは有用な一般化を学んでいると思われる。

こうした 発見は、とても興味深いものだが、ここでは、別のことに注目しよう。

ここでの翻訳精度の改善は、BLEUのスコアで、+0.05〜+0.79の改善である。(表の赤い枠の部分。)

ただ、日本語 -> 英語の翻訳精度は高いスコアで 23.87で、フランス -> 英語の 36.77と比べるとずいぶん低い。この表の中では、最低だ。実験で最高得点をたたき出している ポルトガル語 -> 英語の 45.19と比べると、半分程度だ。

実は、このポルトガル語の高得点も、僕には不思議に見える。WMTのコーパスでは、英語・フランス語のパラレル・データが3,600万ペアで、英語・ドイツ語のペア500万と比べても圧倒的に多い。ポルトガル語の高得点は、Google内部のコーパスを使ったものだが、アメリカなら、英語・スペイン語のデータは多いと予想できるのだが、英語・ポルトガル語のデータが、それ以上に多いとは思えない。でも、スペイン語 -> 英語より、ポルトガル語 -> 英語の方が、ずっと成績がいいのだ。

きっとGoogle翻訳は、英訳に関して言えば、日本語とは相性が悪く、ポルトガル語とはとても相性がいいのだ。なぜか? 僕にはわからない。

いくつか実験してみた。「イリュミナシオン」を、まず、原文から日本語に翻訳してみる。

フランス語原文

-------------------------------------------------------
Aussitôt après que l'idée du Déluge se fut rassise,

Un lièvre s'arrêta dans les sainfoins et les clochettes mouvantes, et dit sa prière à l'arc-en-ciel, à travers la toile de l'araignée.

Oh! les pierres précieuses qui se cachaient, — les fleurs qui regardaient déjà.

Dans la grande rue sale, les étals se dressèrent, et l'on tira les barques vers la mer étagée là-haut comme sur les gravures.

Le sang coula, chez Barbe-Bleue, aux abattoirs, dans les cirques, où le sceau de Dieu blêmit les fenêtres. Le sang et le lait coulèrent.

Les castors bâtirent. Les "mazagrans" fumèrent dans les estaminets.

Dans la grande maison de vitres encore ruisselante, les enfants en deuil regardèrent les merveilleuses images.

Une porte claqua, et, sur la place du hameau, l'enfant tourna ses bras, compris des girouettes et des coqs des clochers de partout, sous l'éclatante giboulée.

Madame établit un piano dans les Alpes. La messe et les premières communions se célébrèrent aux cent mille autels de la cathédrale.

Les caravanes partirent. Et le Splendide-Hôtel fut bâti dans le chaos de glaces et de nuit du pôle.

Depuis lors, la Lune entendit les chacals piaulant par les déserts de thym, — et les églogues en sabots grognant dans le verger. Puis, dans la futaie violette, bourgeonnante, Eucharis me dit que c'était le printemps.

Sourds, étang; — écume, roule sur le pont et passe par-dessus les bois; — draps noirs et orgues, éclairs et tonnerres, montez et roulez; — eaux et tristesses, montez et relevez les déluges.

Car depuis qu'ils se sont dissipés, — oh, les pierres précieuses s'enfouissant, et les fleurs ouvertes! — c'est un ennui! et la Reine, la Sorcière qui allume sa braise dans le pot de terre, ne voudra jamais nous raconter ce qu'elle sait, et que nous ignorons!
------------------------------------------------------

仏 -> 日


これは、かなり、ひどい。

------------------------------------------------------
すぐに、古くなった洪水のアイデアがされた後、

ウサギは、蜘蛛の巣を介して、虹の空に祈りをsainfoinsと移動鐘で停止し、言いました。

ああ!貴重な石は、隠れていた - すでに見た花を。

大きな汚れた路上で屋台は立ち上がって、私たちは海に船を引っ張った彫刻のようにそこにステップアップ。

血液は神のシールが窓を青ざめサーカス、中、青髭で、と畜場を流します。血とミルクが流れました。

ビーバーは、内蔵します。パブでスモーク "mazagrans」。

まだウィンドウを滴下大きな家では、喪の子供たちは素晴らしい絵を見ました。

ドアがバタン、と、村の広場に、子供は鮮やかなみぞれの下で、どこにでも鐘楼のweathervanesとコックを含め、彼の腕を回しました。

マダムはアルプスのピアノを確立します。質量と最初の聖体は、大聖堂の10万祭壇で祝いました。

キャラバンは左。そして、スプレンディッドホテルは、氷と極夜の混乱に建てられました。

果樹園でぶつぶつ木製の靴とeclogues  - それ以来、月はタイムの砂漠からハウリングジャッカルを聞きました。その後、紫色の木立の中、急成長、アマゾンユリは、それは春だった私に言いました。

ろう者池; - 泡、橋をロールオーバーや森の上を通過します。 - ブラックドレープや臓器、雷と雷、立ち上がりとロール; - ウォーターズと悲しみ、大洪水を登ると持ち上げます。

彼らは散逸しておりますのでので、 - ああ、貴重な石が自分自身を埋設し、開いた花! - それは迷惑です!クイーン、土鍋で彼女の残り火を点灯魔女は、彼女が知っている私たちに伝えたいことはありません、私たちは知りません!
------------------------------------------------------

仏 -> 英


しょうがないので、原文を英語に翻訳してみる。
これは、かなり使える。

------------------------------------------------------
Immediately after the idea of ​​the Deluge had settled down,

A hare stopped in the sainfoins and moving bells, and said his prayer to the rainbow, through the spider's web.

Oh! The precious stones that hid, the flowers that were already looking

In the great dirty street, the stalls rose, and the boats were pulled towards the sea, staggered up and down as on the engravings.

Blood sank at Barbe-Bleue, at the slaughter-houses, in the circuses, where the seal of God blanched the windows. Blood and milk flowed.

The beavers built. The "mazagrans" smoked in the estaminets.

In the large, still-flowing window-house, the mourning children watched the marvelous images.

A door slammed, and in the square of the hamlet the child turned his arms, including weathercocks and roosters of steeples everywhere, beneath the dazzling giboulée.

Madame  established a piano in the Alps. The mass and the first communions were celebrated at the hundred thousand altars of the cathedral.

The caravans departed. And the splendid Hotel was built in the chaos of ice and night of the pole.

Since then the Moon heard the jackals peeping through the deserts of thyme, and the eclogues in their hoofs groaning in the orchard. Then, in the violet, budding forest, Eucharis told me that it was spring.

Deaf, pond; - foam, rolls over deck and passes over woods; - black sheets and organs, lightning and thunder, go up and ride; - waters and sadness, rise and raise the floods.

For since they have dissipated, - oh, the precious stones burying, and the flowers open! - it's a boredom! And the Queen, the Witch who lights her embers in the earthen pot, will never tell us what she knows, and which we do not know!
------------------------------------------------------

英 -> 日


そこで、この英訳を、日本語に翻訳してみた。仏 -> 日より、英語をブリッジにして 仏 -> 英 -> 日にした方が、僕には、ずっとましな翻訳に思える。

------------------------------------------------------
大洪水の考えが落ち着いた直後、

ウサギはsainfoinsと移動鐘に停止し、蜘蛛のウェブを介して、虹に彼の祈りを言った。

ああ!すでに見ていた花を隠した宝石。

大きな汚れた通りでは、屋台が上がり、ボートが海に向かって引っ張られ、彫刻のように上下にずらされました。

血はバーベ - ブリューに虐殺され、サーカスで虐殺され、そこでは神の封印が窓を白くした。血と牛乳が流れました。

作ったビーバー。エマザミアで燻製にされた「マザグラン」。

大きくてまだ流れている窓屋では、悲しみの子どもたちが素晴らしい画像を見ました。

ドアがはねつけられ、村の広場で子供は、目の茂みや尖塔の鶏を含む腕を、眩しいギブレの下で回した。

マダムはアルプスのピアノを設立しました。質量と最初の聖体拝領は大聖堂の十万祭壇で祝われました。

キャラバンは出発した。そして豪華なホテルは氷の混沌と極の夜に建てられました。

それ以来、月は、ジャーナルがタイムの砂漠を覗き込んでいるのを聞いて、彼らの蹄の中の響きは果樹園でうめき声をあげました。そして、紫色の芽生えている森林で、エウチャリスはそれが春であると私に言った。

ろう、池; - 泡、デッキの上を転がり、森を渡ります。 - 黒いシートとオルガン、雷と雷、上り、乗る; - 水と悲しみは、洪水を起こします。

彼らは消えてしまったので、 - 宝石が葬られ、開花したのです! - それは退屈です!と女王は、土鍋に彼女の燃えかかった光を照らす魔女は、彼女が知っていること、私たちが知らないことを決して私たちに教えてくれません!
------------------------------------------------------





コメント

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

人間は、善と悪との重ね合わせというモデルの失敗について