文字列検索と画像検索

【 文字列検索と画像検索 】 

次回のセッションでは、ベクトルで表現されているembeddingを検索するVector Search技術を見ていこうと思います。

これまで、文字列検索へのembeddingの利用を紹介してきたのですがembeddingの検索は、もっと広い応用分野をもっています。次回紹介するVector Search技術は、元はGoogleの画像検索で用いられていた技術です。

文字列と画像はずいぶ違うものなので、両者が同じ検索技術で統合できるというのは意外かもしれません。その統合の鍵は、あるものを数字のベクトルで表すというembedding技術にあります。

【 画像はベクトルで表現できる 】

先に文字列の「意味」を、数字からなる多次元のベクトルという表現で表すというembedding技術を見てきたのですが、そこでの認識の飛躍と比べると、画像がベクトルで表現されるというのは、驚きは少ないかもしれません。

例えば、64 x 64 のマス目に白と黒のオセロのチップを置いて、模様を描くことができます。マス目一つを1ビットが占める場所とし、白いチップが0、黒いチップが1 だと考えると、この白黒の模様は、横に1バイトの列が8個並んでいて、それが縦に64段積み重なったものと考えることができます。これは、白黒画像をバイトの列で表現していることと同じことです。

1024 x 1024 のカラー画像も、RGBに分解すれば、1024 x 1024ビットで表現されるベクトルが、RGBの分の3個分あれば表現できます。ここでは、画像を離散的なものとして「デジタイズ」したことが大きく効いています。例えば、円や球は、連続的なものなので、必ずしも単純に数字の並び、有限次元の数字のベクトルとしてとして表現されるとは限りません。

言葉の意味がベクトル表現にたどり着いた経路と、画像がデジタイズによってベクトル表現にたどり着いた経路は、このように異なるのですが、最終的にはいずれもベクトルによる表現に落ち着いたのは面白いことです。これらを一括して、embedding表現と考えることができます。

【 文字列の意味のベクトル表現と画像のベクトル表現 】

文字列の意味のベクトル表現と画像のベクトル表現を、embeddingとしてひとくくりにすることに抵抗がある人もいると思います。気持ちはわかります。ただ、この二つのembeddingを検索との関係で捉え直すと、意外な共通性があることに気づきます。embeddingの検索でなく、文字列あるいは画像の検索を考えてみましょう。

文字列の検索なら、二つの文字列が「一致」することが基本です。文字列"猫"の検索は、文字列"ねこ”の検索とも文字列"cat"の検索とも違うものです。意味で考えると少し窮屈です。

画像の検索でも、二つの画像が「一致」すことが基本です。でも、これも、文字列の「一致」とは逆の意味(誰も違いに気づかない)になるかもしれないですが、窮屈な条件です。カラーの1024 x 1024ドットの画像があったとします。二つの画像が1ドットだけ違っていたとしても、二つの画像は違うものです。ただ、それに気づくためには多くの計算が必要になります。

言葉の意味のembeddingも画像のembeddingも、この検索の窮屈さを救うものとして、かつ効率的な検索の機能を与えるものとして機能します。

【 embeddingの検索 = 意味の検索 】

今回のセミナー資料(ビデオ・pdf)は、ここでの説明を除いて、2024年3月のマルレク「マトリョーシカとトロピカル」の資料を流用しています。

その資料は、Googleの “Find anything blazingly fast with Google's vector search technology” という技術blogを紹介したものです。

注意して欲しいのは、“Find anything  blazingly fast" という表現です。

  「どんなものでも、驚くほど早く見つけ出す」

ここで述べられているのは、単なる画像検索技術の話ではないのです。画像や文字列を含め、「どんなものでも、驚くほど早く見つけ出す」それが、Vector Search 技術です。それは、「一致」ではなく「類似度」で検索を行います。似ているものを探します。

多様な対象に対応したVector Search は、マルチ・モーダルなAIの時代の、embeddingを用いた「意味の検索」の基本技術になろうとしています。そこでは、文字”猫”と"ねこ"の違いや、本物の猫と絵に描かれた猫の違いを超え、猫の鳴き声や猫の思い出も、一緒に 「猫」の意味に包んでしまう検索が行われるでしょう。 我々が、記憶の中で、猫を想起するように。

【 先にあげた資料の未来展望に注目 】

この資料に僕が注目するのは、その「Vector Searchはビジネスを変える」というビジョンです。それについてはビデオ・pdfをご覧ください。

Facebookでは、リンクをコメント欄に移しています。

【 リンク 】

YouTube
https://youtu.be/Ks1NkPEAjHU?list=PLQIrJ0f9gMcMtd68N6t0r-R-V_keMWFhH

YouTubeスライドのpdf
https://drive.google.com/file/d/1o5Admupdnf25Tmbwlk9Q8Usd51j4RTJF/view?usp=sharing

このblog 「文字列検索と画像検索」

セミナーのまとめページ

公開したショートムービーの再生リスト

コメント

このブログの人気の投稿

初めにことばありき

機械の言語能力の獲得から考える embeddingの共有・蓄積・検索の未来

密度行列とは何か?