Botづくりを始める前に(3)

人工知能と検索技術

人工知能と検索技術の関係では、GoogleのLarry Pageの次のような発言が興味ふかい。
「Googleの検索エンジンが、AIによって完全なものになったときにのみ、Googleのミッションは、完遂されるだろう。あなたたちは、それが何を意味するのか知っている。それが人工知能なのだ。」
「人工知能は、Googleの最終バージョンになるだろう。Web上のすべてのものを理解するだろう究極の検索エンジンは、あなたが望むものを正確に理解するだろうし、あなたに正しいものを与えるだろう。我々は、今は、そうしたことをするのには、遠いところにいる。ただ、我々は、少しずつ、それに近ずくことはできる。我々が取り組んでいることは、基本的には、そのことなのだ。」
「検索における我々の大きな目標は、人が望むものを、実際に正確に理解し、世界のすべてのものを理解することである。コンピューター科学者として、我々は、それを人工知能と呼ぶ。」
ここでは、Googleの検索と人工知能の目標が、一致することが主張されている。個々の画像の認識や、個別の文章の意味の理解だけではなく、世界のすべてのものを理解するのが、Googleの検索と人工知能の目標になる。

その主体は、Googleだとも読めるのだが、そこまで言わなくても、人工知能の主体は、ネットワーク上に存在することになる。これはこれで、狭い意味のディープ・ラーニング的な人工知能観とは異質な、しかしながら、重要な観点である。

グラフ検索とEntity ModelとSchema.org

先に見た、第二のタイプのBotを考えるとき、2010年代に起きた検索技術の変化が、大きな意味を持つことに気づく。

それまでの検索は、crawlerが収集したweb上の膨大なテキストから、文字列を探し出し(indexingにバッチのmapreduceを使う)、その文字列を含むURLを適当な順番(pagerank ここでもmapreduce)で返すシステムであった。

2010年代に検索に起きた変化は、まず、Indexingのリアル・タイム化であり、それに続くグラフ検索の手法の導入である。GoogleのKnowledge Graphは、Entity Modelで構成された巨大なグラフを、おそらくは、Google のグラフ検索エンジンPregel で検索している。ちなみに、Pregelのオープンソース版 Apache Giraphの最大ユーザーは、Facebookである。また、PageRankのディープ・ラーニング版 Brain Rankの投入も行われているようだ。

Googleの検索技術の全貌は、明らかではないのだが、すべての検索がグラフ検索に置き換わったわけではなさそうだ。ただ、第二のタイプのBotについては、現在の技術では、エンティティのグラフからそのプロパティを検索する手法が、もっとも適合的であるように見える。

グラフ検索のスキーマには、Schema.org( http://schema.org/ )のスキーマが、グローバルでは広く使われているのだが、日本では、どうなのだろう?

検索技術を巡る、彼我の技術格差は、残念ながら、とても大きいのだ。

日本語WordNetの利用拡大を

ここで、何も、「日の丸独自技術」を持つべきだと主張したいわけではない。ただ、明らかなのは、日本語の処理については、日本が頑張らなければいけないということである。

ここでは、Princeton大学が、300万ドルの政府の支援を得て、1980年代から始めた WordNet( https://wordnet.princeton.edu/ )の取り組みが参考になる。そこには、schema.orgのスキーマより、はるかに豊かな情報が含まれている。

日本でも、NICTが、日本語のネット上で利用可能な意味辞書として 日本語WordNet( http://compling.hss.ntu.edu.sg/wnja/ )を公開している。こうした取り組みは、とても貴重なものである。

こうしたリソースを活用し、必要に応じて拡充する、基本的な作業が、大きな意味を持つと考えている。

コメント

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

宇宙の終わりと黒色矮星