パラレル・コーパスを使った言語学習技術、日本が先取りしていたかもしれないこと

【 パラレル・コーパスを使った言語学習技術、日本が先取りしていたかもしれないこと 】

「パラレル・コーパス」というのは、 "I love you"という英語の文と「私はあなたを愛しています」という日本語の文のように、二つの言語で同じ意味をもつ二つの文のペアを集めたものです。

現代のAI技術の中心的な担い手と目されている「大規模言語モデル」の前身である「機械翻訳システム」は、大量のパラレル・コーパスを学習することで、翻訳の能力を獲得します。

パラレル・コーパスの規模は巨大なもので、あるコーパス(WT14)には、英語(En)<-> フランス語(Fr) 3,600万の文のペアが、英語(En) <-> ドイツ語(De)データセットには、 500万の文のペアがまれています。もっともGoogleは、このWT14の二桁から三桁大きいパラレル・コーパスを持っていると言います。

僕の不勉強で、パラレル・コーパスの現在の状況は正確に把握していません。機械翻訳のオープンソースのコミュニティを目指している Machine Translateの2022年のレポートによると、機械翻訳技術に世界158の言語に対応しているようです。https://machinetranslate.org/

僕が、興味深いと思っているのは、かつて日本が中国語(漢文)の学習に採用したやり方が、パラレル・コーパスの学習を通じて他言語を学ぶスタイルになっているということです。

それは「白文の素読」というやり方です。

「白文」というのは中国語(漢文)そのものです。「素読」というのは、その漢文を見て「書き下し文」という日本語に翻訳することです。「書き下し文」と言いますが、何かに書き出すわけではありません。目で見た目の前の漢文を、その場で「書き下し文」という翻訳された日本語にして、声に出します。それが「素読」です。

「子曰 学而時習之 不亦説乎」という漢文を素読するとは、それを「子曰く、学びて時に之を習ふ。亦説(よろこ)ばしからずや。」と、声を出して読むことです。意味が同じ中国語と日本語の文のペアが一つ出来上がります。

中国語で「有朋自遠方来 不亦楽乎」が与えられると、「朋有り、遠方より来たる。亦楽しからずや。」と声を出します。意味の同じ中国語と日本語の文のペアが、また作られます。

こうした過程が、繰り返されます。

 子曰。
 子曰く、

 学而時習之。不亦説乎。
 学びて時に之を習ふ。亦説(よろこ)ばしからずや。

 有朋自遠方来。不亦楽乎。
 朋有り、遠方より来たる。亦楽しからずや。

 人不知而不慍。不亦君子乎。
 人知らずして慍(うら)みず、亦君子ならずや。と。

 有子曰、其爲人也孝弟、而好犯上者、鮮矣。
 有子曰く、其の人と爲りや孝弟にして、上を犯すことを好む者は鮮(すくな)し。

 不好犯上、而好作亂者、未之有也。不好犯上、而好作亂者、未之有也。
 上を犯すを好まずして、亂を作すことを好む者ものは、未だ之有らざるなり。

 君子務本、本立而道生。孝弟也者、其爲仁之本歟。
 君子は本を務む、本立つて道生ず、孝弟は、其れ仁の本たるか。

これは立派なパラレル・コーパスです。

学習者が、自分でコーパスを作っているようにも見えるかもしれませんが、それは違います。教師が、最初に「読み方」を教え、このコーパスからの逸脱をゆるさないように監督することで、コーパスは、教師から学習者に与えられています。

学習者は、中国語と日本語の意味の一致を示す、こうしたパラレル・コーパスを繰り返し学習することを通じて、中国語を学んでいきます。

それは、中国語を日本語に翻訳する翻訳システムが、パラレル・コーパスを繰り返し学習することを通じて中国語を学習するのと、まったく同じスタイルです。

世界には、外国語の学び方、教え方のいろいろなスタイルがあると思います。実際に、今は、我々の多くは英語を学んできたと思いますが、こんなスタイルで学んではいません。

こんなユニークなスタイルは、日本だけのように思います。

------------------------------

「 大規模言語モデルとパラレル・コーパスと言語学習」を公開しました。
https://youtu.be/lMFjWL-slDg?list=PLQIrJ0f9gMcMMwP2zBgMe3LbaDnKGG_zw

資料pdf
https://drive.google.com/file/d/1Epl1AbpIoLByxVPS5DliIrWNIylg76mb/view?usp=sharing

blog:「 パラレル・コーパスを使った言語学習技術、日本が先取りしていたかもしれないこと」
https://maruyama097.blogspot.com/2023/02/blog-post_11.html

まとめページ
https://www.marulabo.net/docs/AI+Math/





コメント

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

人間は、善と悪との重ね合わせというモデルの失敗について