次回マルレク「大規模言語モデルの展開」へのお誘い

9月 09, 2023

【次回マルレク「大規模言語モデルの展開」へのお誘い】

ChatGPTの急速な普及を転換点として、かってない規模とエネルギーで、多くの研究者・開発者・企業が人工知能の分野に参入しようとしています。

セミナーでは、第一に、現在進行中のこの変化がどのような技術的背景を持つのかを考えてみたいと思っています。第二に、現時点での現実的な技術的焦点がどの辺にあるのかを考えようと思います。

【大規模言語モデルの展開】

第一点の現在の急激な変化の技術的背景についてですが、僕は、次のように考えています。

それは、自然言語処理だけではなく、コード生成、視覚情報の処理、分子構造と反応のモデリング等の様々な領域においても、大規模言語モデルが極めて優秀な能力を発揮できることが明らかになったことだと思います。

登場しつつある新しい人工知能技術が、現在の自然言語ベースの大規模言語モデルを超えるものだというイメージを持っている人も少なくないと思いますが、それは少し違うと思います。現在の展開には、技術的連続性があります。セミナーのタイトルを、「大規模言語モデルの展開」としたのはそのためです。

【現在の技術的焦点】

もっとも、技術に連続性があると言っても、技術は変化します。現時点での技術的焦点は何かを考えることは大事なことです。

僕は、それは「テキストの世界とイメージの世界の統合」だと考えています。

こうした動きの先駆となったのは、Transformerのエンジンで画像認識も可能であることを明らかにした、2021年のGoogleの論文 " An Images Is Worth 16 x 16 Words : Transformer For Image Recognition At Scale" だったと思います。

https://arxiv.org/abs/2010.11929

OpenAIのGPT-4でのMultimodalな機能の追加は、とても印象的なものでした。Googleも、それに追従しようとしています。

今回のセミナーでは、人工知能技術の現在の技術的焦点の一つが、「Multimodalな人工知能」にあると考えて、その分野でのいくつかの基本的な技術を紹介しようと思います。

【セミナーで取り上げるトピックス】

セミナーでは、次のような技術の概要を紹介をしようと思います。

　⚫️ Image-to-Text：Vision Transformer, CLIP, ...

　⚫️ Text-to-Image：Diffusion model, DALL·E, ...

しかし、ことばと視覚を持つ人工知能にとって重要なことは、そのモデルがテキストと視覚の両方のコンテンツの意味を理解し、推論する必要があるということです。そこには、いろいろな課題が生まれます。

セミナーの後半では、そうした課題を取り上げたいと思います。

【あらためて「言語モデル」の意味を考える】

少し前までは、自然言語の意味理解にはRNNが、画像認識にはCNNが主なエンジンとして使われていました。

上に見たような多様な応用への展開が、大規模言語モデルの飛躍を生み出したTransformer という一つのエンジンで可能になるかもしれないというのは、一つの驚きです。（実は、それほど簡単な話ではないのですが。）

時間があれば、そのことの意味も、考えてみたいと思っています。

------------------------------------------------------------

ビデオ「 9月マルレク「大規模言語モデルの展開」へのお誘い」を公開しました

https://youtu.be/JTfUiXxWAD0?list=PLQIrJ0f9gMcNq1c2SNCMXp8BbIn1XK76C

ビデオのpdf資料

https://drive.google.com/file/d/17S-RfjBiHugypLIeS2kx-CpxUuargB-a/view?usp=sharing

blog :

https://maruyama097.blogspot.com/2023/09/blog-post.html

マルレク「大規模言語モデルの展開」のまとめページ

https://www.marulabo.net/docs/multimodal/

このブログを検索

過去・現在・未来

次回マルレク「大規模言語モデルの展開」へのお誘い

コメント

コメントを投稿

このブログの人気の投稿

初めにことばありき

密度行列とは何か？

機械の言語能力の獲得から考える embeddingの共有・蓄積・検索の未来