Botづくりを始める前に（３）

7月 08, 2017

人工知能と検索技術

人工知能と検索技術の関係では、GoogleのLarry Pageの次のような発言が興味ふかい。

「Googleの検索エンジンが、AIによって完全なものになったときにのみ、Googleのミッションは、完遂されるだろう。あなたたちは、それが何を意味するのか知っている。それが人工知能なのだ。」

「人工知能は、Googleの最終バージョンになるだろう。Web上のすべてのものを理解するだろう究極の検索エンジンは、あなたが望むものを正確に理解するだろうし、あなたに正しいものを与えるだろう。我々は、今は、そうしたことをするのには、遠いところにいる。ただ、我々は、少しずつ、それに近ずくことはできる。我々が取り組んでいることは、基本的には、そのことなのだ。」

「検索における我々の大きな目標は、人が望むものを、実際に正確に理解し、世界のすべてのものを理解することである。コンピューター科学者として、我々は、それを人工知能と呼ぶ。」

ここでは、Googleの検索と人工知能の目標が、一致することが主張されている。個々の画像の認識や、個別の文章の意味の理解だけではなく、世界のすべてのものを理解するのが、Googleの検索と人工知能の目標になる。

その主体は、Googleだとも読めるのだが、そこまで言わなくても、人工知能の主体は、ネットワーク上に存在することになる。これはこれで、狭い意味のディープ・ラーニング的な人工知能観とは異質な、しかしながら、重要な観点である。

グラフ検索とEntity ModelとSchema.org

先に見た、第二のタイプのBotを考えるとき、2010年代に起きた検索技術の変化が、大きな意味を持つことに気づく。

それまでの検索は、crawlerが収集したweb上の膨大なテキストから、文字列を探し出し（indexingにバッチのmapreduceを使う）、その文字列を含むURLを適当な順番（pagerank ここでもmapreduce）で返すシステムであった。

2010年代に検索に起きた変化は、まず、Indexingのリアル・タイム化であり、それに続くグラフ検索の手法の導入である。GoogleのKnowledge Graphは、Entity Modelで構成された巨大なグラフを、おそらくは、Google のグラフ検索エンジンPregel で検索している。ちなみに、Pregelのオープンソース版 Apache Giraphの最大ユーザーは、Facebookである。また、PageRankのディープ・ラーニング版 Brain Rankの投入も行われているようだ。

Googleの検索技術の全貌は、明らかではないのだが、すべての検索がグラフ検索に置き換わったわけではなさそうだ。ただ、第二のタイプのBotについては、現在の技術では、エンティティのグラフからそのプロパティを検索する手法が、もっとも適合的であるように見える。

グラフ検索のスキーマには、Schema.org( http://schema.org/ )のスキーマが、グローバルでは広く使われているのだが、日本では、どうなのだろう？

検索技術を巡る、彼我の技術格差は、残念ながら、とても大きいのだ。

日本語WordNetの利用拡大を

ここで、何も、「日の丸独自技術」を持つべきだと主張したいわけではない。ただ、明らかなのは、日本語の処理については、日本が頑張らなければいけないということである。

ここでは、Princeton大学が、300万ドルの政府の支援を得て、1980年代から始めた WordNet( https://wordnet.princeton.edu/ )の取り組みが参考になる。そこには、schema.orgのスキーマより、はるかに豊かな情報が含まれている。

日本でも、NICTが、日本語のネット上で利用可能な意味辞書として日本語WordNet（ http://compling.hss.ntu.edu.sg/wnja/ ）を公開している。こうした取り組みは、とても貴重なものである。

こうしたリソースを活用し、必要に応じて拡充する、基本的な作業が、大きな意味を持つと考えている。

このブログを検索

過去・現在・未来