マルレク「embeddingプログラミングの基礎」へのお誘い ページ

 マルレク「embeddingプログラミングの基礎」へのお誘い 

マルレク「embeddingプログラミングの基礎」へのお誘いです。

セミナーのタイトルは、予告していた「機械と人間が意味を共有するembeddingの世界を考える」から「embeddingプログラミングの基礎」に変わっています。

このセミナーは、前回のマルレク「機械の言語能力の獲得を考える」の続編になっています。最初に、前回のセミナーを振り返ってみたいと思います。

前回のセミナー 「機械の言語能力の獲得を考える」の振り返り

前回のセミナーは、現代のAI技術の到達点を「機械が言語能力を獲得した」と捉え、その中核を「意味を理解する」能力の獲得と見なして議論を展開していました。

その中心問題は、機械はどのようにして「意味を理解する」ようになったのかという問いであり、これに対して「意味の分散表現論」の発展が一つの答えを与えると述べています。

この四半世紀のAI技術の理論史は、「意味とは何か」を探求する「意味の分散表現論」すなわちembedding論の発展史であると考えることができます。

「大規模言語モデル」の成立が、 機械の言語能力の獲得」を可能にした 

語の意味の分散表現が文の意味の分散表現へと進み、それをベースとした「翻訳モデル」がAttention メカニズムの導入により発展します。 

変化はさらに続きます。Transformerを頂点とした「翻訳モデル」がencoder-only / decoder-only アーキテクチャーに分解・解体する中で、後者のアーキテクチャーの「勝利」として、「大規模言語モデル」が成立します。

「機械の言語能力の獲得」という機械の能力の画期的な拡大を可能としたのは、技術的には、強力な「大規模言語モデル」の成立によるものです。

前回のセミナーのAIによる音声概要

200ページの長い資料がとてもよくまとまっています。ぜひ、お聞きください。

embeddingの働きを知ることの重要性

先のセミナーの振り返りでもみたように、機械が言語能力を獲得できたのは、人間のことばの意味をLLMがembeddingを通じて、理解できるようになったからだと考えています。

ただ、LLMが Next token predictionマシンであるという一般的な認識と、それがコンテキストを含む言葉の意味を理解する能力として現れるという認識には、ギャップがあるように思います。

また、embeddingは、それ自身で既に「世界」についての情報を豊富に含んでいるように思えます。そうした特徴は外付けのRAGとは独立なものです。それは、embedding の生成メカニズムそのものに根ざしているはずです。

残念ながら、こうした問題に十分にふれることはできませんでした。それについては、後続のセミナーで補っていこうとおもいます。

embedding プログラミングを学ぶことの意味

今回のセミナーでは、直接embeddingを操作するembeddingプログラミングの紹介にフォーカスしています。

AIが、ほとんどどんなプログラムも作ってくれる時代に、プリミティブなembeddingプログラミングを学ぶことの意味を確認しておきましょう。

人間と機械が意味を通じ合うための 「共通言語」としてのembeddingの理解 

僕は、Embeddingの発見を「この4半世紀のAI研究の白眉」と高く評価し、それを「人間と機械の共通言語」と呼んでいます。また、人間にとってEmbeddingは、音声や文字に次ぐ「ことばの第三の形態」であるとも位置づけています。

単なるプログラミングテクニックとしてだけでなく、「機械がどのように言葉の意味を数値(ベクトル)として捉え、意味の近さを計算しているのか(コサイン類似度など)」を知ることは、機械の言語理解の本質に触れることであり、AIを活用する上での強力な土台となります。

信頼性の高いAIシステム(RAGなど)の 根幹技術であるため

LLMの弱点であるハルシネーションを抑制し、情報の透明性と正確性を担保する手法として「RAG(検索拡張生成)」が重要視されています。 

RAGのパイプラインでは、テキストをEmbeddingに変換してベクトルデータベースに登録し、ユーザーの入力とのコサイン類似度を用いて関連情報を検索(Vector Search)するというプロセスが必須のステップとして組み込まれています。

AIがコード自体を書いてくれるとしても、この「データをどのようにチャンクに分割し、ベクトル化して検索させるか」というシステム全体の設計やチューニングは人間が行う必要があり、その裏側にある技術を理解しているかどうかがシステムの品質を左右します。

より高度なシステム(Agentic RAGなど)への 進化に対応するため

AI技術は、単純なベクトル検索を行うものから、クエリの書き換えや再順位付けを行う「Advanced RAG」、さらにはAIが自律的に検索対象や再検索を判断する「Agentic RAG」へと急速に進化しています。

また、今後は「embeddingの共有・蓄積・検索」が情報の世界に大きなインパクトを与えると予想されています。

AIにプログラミングを任せる時代だからこそ、ブラックボックスになりがちな「ベクトル空間における意味の検索」の仕組みを人間が直接理解しておくことで、AIに対してより高度な指示を出し、生成されたシステムの評価や改善を正確に行うことができるようになると考えています。

セミナーへの参加方法

次のページから参加の申し込みができます。
https://embeddings2.peatix.com/view

このセミナーは、オンラインで開講します。セミナーは、リアルタイム配信ではなくYouTubeの限定配信で配信します。

受講を申し込まれた方には、セミナー当日セミナー開始時刻に、YouTubeの限定配信のURLと講演資料のpdfファイルをPeatixのメッセージを通じて配布します。

セミナーの内容は、YouTubeの限定配信ですので、セミナー当日に限らず、セミナー開始日時以降であれば、いつでも都合の良い時間に見ることができます。セミナーの期日には都合がつかない方も、申し込み・受講が可能です。

セミナーにむけて、セミナーの解説資料、解説blog、解説ショートムービーをMaruLaboのサイト から随時発信しています。事前にこのセミナーの内容をチェックしたい方は、こちらにアクセスください。

リンク


YouTube 「embeddingプログラミングの基礎」へのお誘い 
https://youtu.be/UthMNlQtI-w?list=PLQIrJ0f9gMcMtd68N6t0r-R-V_keMWFhH

YouTube 「embeddingプログラミングの基礎」へのお誘い スライドのpdf
https://drive.google.com/file/d/18QWfXz9ULmKxeswNDf1x3OX9X7Li8WC9/view?usp=sharing

セミナーのまとめページ

公開したショートムービーの再生リスト

コメント

このブログの人気の投稿

初めにことばありき

機械の言語能力の獲得から考える embeddingの共有・蓄積・検索の未来

密度行列とは何か?