意味を考える 5 -- 辞書

言葉の意味を調べようとするとき、我々に一番身近な行為は、「辞書」を引くことである。ただし、辞書が与えるのは、語の意味である。

翻訳が文を対象にするのに対して、辞書は語を対象にする。文は語からできているので、辞書が与える語の意味の情報は、その語を含む文の意味を考えるもっとも基本的な情報を与える。

辞書で 、I = 私、love = 愛する、you = あなた という情報が得られたとしよう。この情報だけから、"I love you"という文を翻訳すると、「私 愛する あなた」になるのだが、これはどうも日本語としてはうまくない。

その理由ははっきりしている。

語から文が構成されているのは明らかなのだが、語から文を構成するときに、日本語でも英語でも、ある構成規則に従う。それを「文法」という。文法は、ある言語での語の出現順序に強い制限を与える。「私 愛する あなた」は、日本語の語の出現順序にそぐわないのだ。

辞書だけに頼る翻訳がうまくない理由は、もう一つある。辞書が与えるのは、名詞でも動詞でもその基本形だけだからである。名詞は「格」によって変化し(日本語だと、「私は」「私に」「私を」 ... というように、名詞の部分は変化しないように見えるのだが)、動詞は「活用」する。こうした語の「屈折」形は、その語のその言語の文法上の情報を与えるのだが、辞書はその屈折形を網羅しない。それは、文法規則として基本的には辞書の外部でカバーされることになる。

先に、簡単に「文は語からできている」といった。それはそれで間違いではない。もう少し正確に言えば、「文は、文法という構成規則に従って、語から構成される」ということになる。

「異なる語から異なる構成規則で構成された文が「同じ意味」を持ちうるのはなぜか?」というのは、言語の意味についての最も重要な問題なのだが、その問題に入る前に、ここでは、辞書上の語彙項目と実際に発せられる文と文法の関係について、基本的な事実を確認しようと思う。

全ての言語において、基本的な語彙の数は、有限である。例えば、26文字のアルファベットで15文字以内で構成される語の数は、高々、26^15である。ところが、10万語の語彙を持つ言語で、10語の語からなる文の数は、100000^10で、約10^50になる。10語文というのは、そんなに長い文章ではない。が、10^50というのは、とても巨大な数である。語と文とでは、複雑さの次元がまるで違うのである。

この計算では、"X"が15個続く「語」や、「私」が10個連続する「文」(明らかに、文法的には文とは言えない)が含まれているので、実際には、もっと小さな数になるというのは正しい。

先には、語彙の数を10万として計算したが、現実には語彙の数は、もっと多い。日本語の辞書の収録語彙数をあげておく。

  • 『日本国語大辞典』(小学館)  50万語
  • 『広辞苑』(第六版、岩波書店) 約24万語
  • 『岩波国語辞典』(第七版)   6万5000語 

しかし、文法を考慮すると、話はもっとややこしくなる。語彙が有限でも、我々は文法に従って、いくらでも多様で複雑な文を構成できることに気づく。文の数は、有限ではなく、可能的には無限なのである。

このことは、それぞれの言語において、網羅的な辞書を編纂することは可能だが、可能な全ての文を網羅したコーパスは作成できないことを意味する。先に、機械翻訳で利用するパラレル・コーパスの巨大さに驚嘆したのだが、それが、可能な文を全て網羅したものではないのは明らかである。

ただ、こうした基本的な事実は、すでに1950年代にチョムスキーが気づいていたことである。

コメント

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

人間は、善と悪との重ね合わせというモデルの失敗について