文字からembeddingへ −− 大規模分散システムの成立


【 文字からembeddingへ −− 大規模分散システムの成立】

先に、獲得した言語能力によって可能となった話す聴くことから始まった人間のコミュニケーションと情報共有の範囲が、文字の発明によって空間的にも時間的にも大きく拡大したという話をしました。

大量の情報を時間を超えて世代から次の世代に伝える上で、文字が果たした役割は決定的なものでした。文字は個人の記憶力に依存しない新しい情報の「共有ツール」「記憶装置」を人間に与えました。

文字メディアの発展・拡大は、21世紀まで続きました。

「文字からembeddingへ」という僕のの話は、それに続くものの話なのですが、すこし飛躍があるように思われるかもしれません。今回は言語の歴史と比べれば短いものですが、この四半世紀のIT技術の歴史の話を、大規模分散システムの発展という視点からしてみようと思います。(写真は、Big Table です。ちょっと違うかも。)

【 インターネットの登場と発展 】

インターネットの登場は、情報共有の動きをかつてない規模に拡大しました。同時に、情報共有の拡大は、かつてない規模の情報の集積・蓄積を生み出しました。

21世紀の最初の四半世紀のインターネット上の情報の共有と蓄積の主役は文字(あるいはその電子版である「文字コード」)と言っていいと思います。

そのことは、この時期を代表するBig Techの雄であるGoogleの技術を振り返れば、一層明らかになります。GoogleのPagaRankは、基本的には、検索ワードにそれを含む文章の集合を対応付ます。文字列処理の技術としては、大規模な逆引きインデックスを作成するシステムでした。

PageRankされるべき文章の集合は、Googleのcrawlerが世界中のネットから収集した膨大なものでした。文字情報の「かつてない規模での集積」は、まず、Googleの検索システムの中で生まれたと考えていいと思います。

また、Googleの検索と広告を結びつけるというビジネスモデルは、多くのサイトがGoogleのcrawlerによる情報収集の対象となることをすすんで歓迎することを後押ししました。

【 Googleの検索システムの変化 】

PageRankの実装システムであるMapReduceは処理に数日かかるバッチ・システムでした。検索インデックスを更新するためには、ウェブ全体を再クロールし、再処理する必要があり、このサイクルには数日を要しました。しかし、ニュース速報やSNSの台頭により、情報の鮮度が秒単位で求められるようになると、この遅れは,許容できないものになっていきます。

最初の転換は、2010年に行われたは、「Caffeine」アップデートです。これはPercolatorと呼ばれるシステム上に構築された。インデックスをバッチで再生成するのではなく、個々の文書がクロールされるたびに増分的に更新することを可能にしました。これにより、検索結果の鮮度が劇的に向上し、2010年代半ばには、MapReduceはほぼ廃止されました。

【 Deep Learning技術から大規模言語モデルへの発展を可能にしたもの 】

先の投稿 「情報の共有と情報の集積 」で見たように、2010年代から2020年代にかけて、ITの世界では重要な変化が進行します。Deep Learning技術が登場し10年かけてそれが大規模言語モデルへと発展したのです。

成功した最古の自立型Agentと言っていい、Googlのcrawlerがそうしてきたように、ネットワークへのアクセスは人間だけでなく機械にとっても容易に行うことができました。また、ネットワークに蓄積された情報は、人間だけでなく機械にとっても可読で利用可能でした。

現代のAI技術は、先行した時代のWeb Scale の大規模分散システムの技術的継承者という側面を持っています。(ですので、Web Scale の大規模分散システム構築の技術的蓄積なしに、すぐにそれに追いつくのは難しいのです。)

機械の進化にとっての新しい環境が成熟します。先行する時期に成立していたWebスケールの大規模分散システムとそこで獲得された巨大な「機械可読」な文字情報の集積こそが、Deep LearningからLLMの飛躍を可能にしました。

【 2004年のLarry Page の人工知能観 】

発言そのものは、以前のマルレクで紹介したことがあるのですが、僕は2004年の時点でのLarry Page の次のような発言に改めて注目しています。

Newsweek誌(2004年5月10日号)に掲載されたインタビュー記事 や、同年4月のPBSのドキュメンタリー番組で、彼は次のように語ります。

「Googleの検索エンジンが、AIによって完全なものになったときにのみ、Googleのミッションは、完遂されるだろう。あなたたちは、それが何を意味するのか知っている。それが人工知能なのだ。」

「人工知能は、Googleの最終バージョンになるだろう。Web上のすべてのものを理解するだろう究極の検索エンジンは、あなたが望むものを正確に理解するだろうし、あなたに正しいものを与えるだろう。我々は、今は、そうしたことをするのには、遠いところにいる。ただ、我々は、少しずつ、それに近ずくことはできる。我々が取り組んでいることは、基本的には、そのことなのだ。」

「検索における我々の大きな目標は、人が望むものを、実際に正確に理解し、世界のすべてのものを理解することである。コンピューター科学者として、我々は、それを人工知能と呼ぶ。」

こうしたビジョンが「文字からembeddingへ」という僕の議論と、どう結びつくかについては、おいおい説明していきたいと思います。

-----------------------------

Web Scale の大規模分散システムの発展については、10年以上前になりますが資料をままとめたことがあります。興味がある方は参照ください。

「大規模分散システムの現在 — GFS, MapReduce, BigTableは、どう進化したか」
https://www.marulabo.net/docs/20130729-marulec02/

次のような構成をしています。

    1. 大規模分散システムの成立
    2. すべては、ここから始まったGFS, MapReduce, BigTable
    3. GFSからGFS2へ
    4. Caffeine 新しい検索システム
    5. Dremel インタラクティブなデータ分析
    6. Spanner 新しい分散データベース
    7. Knowledge Graph 新しい検索技術 


コメント

このブログの人気の投稿

初めにことばありき

密度行列とは何か?

「複雑性理論」は「複雑系」の議論とは別のものです