来週のセミナーの技術的背景について

【 来週のセミナーの技術的背景についての補足 】

来週のセミナーですが、いつものセミナーと少し違って、近未来の話をしています。
現在の技術からは、あるいはその現実的な評価からは、すこし飛躍していると感じている人も少なくないと思います。

今回のセッションでは、来週のセミナーの「技術的背景」について、すこし補足しようと思います。

実は、それについてまとめた資料があります。それは、先月のセミナー「大規模言語モデルの展開 -- マルチモーダルへ」https://www.marulabo.net/docs/multimodal/ の「はじめて」の部分なんです。

大抵の人がそうだと思いますが、僕は資料ができてから「最後」に「はじめに」の部分を書きます。この「はじめに」は、セミナーの概要をまとめて次回のセミナーの予告をしたものでした。

「いや、そのスライドのpdfはもう読んだ」という人も多いと思います。ありがとうございます。でも、ビデオでは、スライドに書かなかったことをいろいろ「しゃべって」います。

「いやいや、ビデオも最後まで観たよ」という方もいらっしゃると思います。本当に、ありがとうございます。ご苦労様でした。

僕のテキストを読もうが読むまいが、僕のビデオを最後まで見ようが途中で止めようが、それはみなさんの選択です。僕がどうこうできることではありません。

で、じつは、こうしたやりとりをしたかったわけではありません。今回の投稿では、ビデオよりテキストが好きだという人に対して、また、テキストになってないけどビデオでは喋っているといういるという「言い訳」をしなくてもいいように、「はじめて」の次のビデオ、全文、書き起こしてテキストにしました。

https://youtu.be/dgN8KS9PLTs?list=PLQIrJ0f9gMcNq1c2SNCMXp8BbIn1XK76C

ご苦労なことです。(僕がです) 

でも、そうじゃないんです。簡単でした。この約30分のYouTubeの文字起こし、あっという間におわりました。

"YouTube Summary with ChatGPT & Claude" というChromeのプラグインをゲットして、YouTubeの画面から、"Transcript & Summary" というメニューから、ほとんど一瞬で文字起こし完了します。

というわけで、マルチモーダルAIの "see" だけでなく(率直にいって、貧弱です)、"hear & speak" でも大きな変化が起きているというデモをかねて、先月のセミナーの「はじめて」のビデオの文字起こしを提供します。

テキスト愛好者の方、おじかんがあったらお読みください。


==============================
9月セミナー「はじめに」ビデオの書き起こし
==============================


【 現在のAIをめぐる状況 -- 急激な変化 】

はじめに、今回のセミナー「大規模言語モデルの展開 マルチモーダルへ」で主要に考えたいことを少しまとめてみようというふうに思ってます。

現在の状況の特徴はもうはっきりしていて非常に急激な変化が進行中だということです。基本的には 約1年前にチャットGPTが登場してそれが急速に普及した。立ち上がってすぐに、1億人ぐらい サブスクライブしてるみたいですけども、かってない規模とエネルギーで多くの研究者・開発者・企業が人工知能分野に参入しようとしている。これはとても大きな変化です。

例えば、レフェリーがいないんですけれどもarXiv という有名な論文公開サイトがあるんですけれども、ここで "Transformer"をググると、10万件以上ヒットするんです。
"transform"は一般的な言葉だったりするんで、その全てがAI系とは限ら ないかもしれないんですが、ほとんど9割以上がAI系の投稿ですね。これはちょっと突出してるんです。 論文数で言うと例えば "entanglement"でググれば 36,000件台で、"entropy" だと47,000件台ぐらいですね。この数字だけ見ても、特に "Transformer" 中心に、今の新しい 生成AIに対する 研究者の関心が高いってことがわかると思います。

ただ、これは僕は少し冷ややかに見てるところもあります。だって 、"entropy"は、もうはるか昔から arXaivができる前からずっとテーマとしてあって、それは情報理論にとって非常に大事なことなんですけれども、"Transformer" は、たかだか数年の歴史しかないですからね。 

こういう現象をどう見るかということも、僕は冷静に振り返る必要があるんじゃないかという風 にも考えてます。実際、今年2023年、僕にとって一番印象的なarXivに投稿された論文は entanglement のentropyについての日本の研究者の論文でした。 そういうのはこういう数字からだけだと見えてこない。まあ、だからといってこの数字を無視 するわけにもいかないわけなんですけれども。10万件越えという論文投稿数は、いろんなレベルの投稿があるという風に見た方がむしろいいだろうというふうに考えています。


【 変化の背景と技術的焦点 】

セミナーで考えたいことは、まず第一に、この現在進行中のこの変化がどういう技術的に背景を持つのかを考えてみたいということです。第二に、現時点での技術の焦点がどの辺にあるのかを考えようというふうに思っています。

第一の現在の急激な変化の技術的背景について僕は次の ように考えています。それは自然言語処理だけではなく、code生成だとか視覚情報の処理とか、いろんな 領域において大規模言語モデルが極めて 優秀な能力を発揮できることが明らかになったこと、それが大きいです。

登場しつつ新しい人工知能技術を現在の言語ベースのモデルを超える ものだというイメージを持ってる人も少なくないと思います。でも、僕は、それは多分違うと思っています。現在の展開には技術的連続性があって、今回のセミナーの タイトルを「大規模言語モデルの展開」としたのはそのためです。

でも、技術的に連続性があるからと言っても、技術は変化するものです。現時点での技術の焦点は何かを考えるということは大事なことです。その点では「テキストの世界とイメージの世界の統合」というAIのマルチモーダル化が一つの焦点に なってるという風に僕は考えています。

OpenAIのGPT-4 のマルチモーダルな機能の追加のデモは とても印象的なでもでした。 Googleもそれに追従しようとしてい ます。今回のセミナーでは現在の 人工知能技術の焦点は「マルチモーダルな人工知能」にあると考えて、この分野 のいくつかの基本的な技術を紹介しようと思っています。

今回のセミナーでは、大規模言語モデルのマルチモーダルへの展開として、主要に次の2つの プロジェクトを取り上げます。一つは GoogleのVision Transformer、それからOpenAIのCLIPというプロジェクトです。

時間的に言うと Vision Transformerの論文が、今の 新しいマルチモーダルへの転換を方向づけたと見ていいと思うし、OpenAIのCLIPは今まさに そのマルチモーダルのサービスを公開して [ GPT-4 for Vision ] 大々的にマルチモーダル化へ進んでいます。まあそういう 意味では、最初と現在、起源にあたる論文と現在の段階の論文として2つのプロジェクトを取り上げたと考えてもらえばいいと思います。

Vision Transformer論文は、自然言語処理のエンジンとして出発したTransformerで 画像認識も可能であるということ、すなわち 画像とテキストの統合があの1つのエンジンで可能であるということを示しました。それが Vision Transformer (ViT)。これがマルチモーダルのはしりですね。その展開系として、僕が現在一番面白いなと思ったのがOpenAIのCLIPで、これは "Connecting text and images" といっています。

FacebookのMOCOだったかな、あれも面白いですね。 Amazonも色々やってるんです。でも全部は見ていないし、全部を紹介することはできないので、まずこの2つのプロジェクトにフォーカスしようという風 に考えています。


【 新しいアプローチの登場 】

大事なことは、これらのプロジェクトの中 でAIに対する新しいアプローチが生まれてるって事です。セミナーでは次のアイデアに注目してその概要を紹介したいというふう に思ってます。新しいアプローチがあるんですよ。

一つは "Inductive Bias Free" です。これは先ほど 紹介したGoogleのVision Transformerの論文の中で書かれています。 

CNNとかいろんな 画像処理の技術があるけれども、それは経験的に発見されたその分野に特化した処理 [ Inductive Bias ] をシステムに組み込んでいるのだが、本当はそれはしなくてもいいんだという主張です。Transformer 見れば、そこでは、そういう特殊な処理 は想定されていない。経験的に得られた特殊な知見 "Inductive Bias" を、AIのシステムに組み込むことをやめようということです。

ただ、それは代償があるんです。それは "Inductive Bias Free" にするためには、非常に巨大なデータでシステムを訓練する必要があるということです。実はこの2つがペアなんです。ただこれも非常に注目すべきアプローチだ と思います。

もう一つは "Natural Language Supervision" というアイデアです。
これはCLIPが典型的です。 Facebookの システムも ... すみません Facebookのは、3番目 のやつですね。これ [ Natural Language Supervision ]は、 画像処理で自然言語で画像の意味解釈を与える事が非常に強力な支えになるというアプローチです。これは 画像の意味を考える上でも、また画像に対して大規模言語モデルからアプローチするという点でも自然な アプローチです。これは非常に強力な効率化をもたらすことになります。

三番目は "Contrastive Representation Learning" 、これはマルチモーダルなAIのフラグシップであるGPT-4VのベースとなったCLIPの方法論です。先ほどちょっと話した FacebookのマルチモーダルもこのCRL [ Contrastive Representation Learning ] をベースにしています。

これに注目する必要ですが、今までのAIのアプローチ、ディープラーニングなんですけれども、それをまた新しい観点から捉え直そうとしてるという点で注目すべき動きだという風に考えています。 改めてここで言語モード大規模言語モデルの意味を考える必要が僕はあるだろう というふうに思ってます。


【 変化のドライブング・フォースとしての意味の分散表現論 】

少し前までは自然言語の処理にはRNN、画像認識ではCNNが主なエンジンとして 使われていたわけですけれども、ディープラーニングのこうした多様な 応用あるいは多様なモードへの展開が、大規模言語モデルの飛躍を生み出したという Transformerという一つのエンジンで可能になるかもしれないというのは、確かに魅力的なビジョンです。

これはさっき紹介した あの Inductive Bias Freeというビジョンなのですが、ただそれほど簡単な問題じゃない んだということも、今回のセミナーで伝え たいことなんです。イメージの扱いは難しいんですよ。むしろ ボイスの方が簡単だと僕は思っています。

いろんな変化が 起きてるんですけれども、それらの変化のドライビングフォースが何かを見極める ことは重要だと考えています。その中心的な力は大規模言語モデルが採用した意味の分散表現にあるのだとだと僕は考えてます。

Contrastive Representation Learningでは明確なんですが、意味の「特徴」を抽出して分散表現するというのからもう 一段ステップをすすめて、Transformerの中では、あまり明確には意識されてなかったような気がするんですが、 それを別な空間にマッピングし直します。それを「表現」と言ったりするんですけども、それもでも やっぱり分散表現なんですね。

分散表現は一つじゃなくていろいろある。あるいは、表現自身がいろいろ変換していくっていう考え方。それらを通底してるのは意味の表現の理論自体が変化するということです。

例えば、画像分類の時は典型的だったんですが、一つの画像の意味を一つのラベル一つのカテゴリに対応させる、1次元の1個のやつです。[ 正確には、意味は次元のない点状 pointwise なものとして表現される。] それに対して、言葉の意味では、多次元の分散表現を割り当てたことが大きな飛躍になるわけです。

まだそこの探求は始まったばかりです。今少し話しましたように 特徴のembeddingは、いずれにしても分散表現で、それは、[Transform あるいは Transfer を通じて]いろいろ 使えますというのは非常に強力な強みになりつつあるんだっていう予感があります。

 改めてその大規模言語モデルの意味を考えること は大事なことだと思います。その中心は、やはり意味の分散表現なんです。先のContrastive Representation Learningでは、最終的には正規化された確率分布が出てくるんですけど、それは要するに「エントロピー = 情報」そのものなんです。[ 単に SoftMaxは、その構成上エントロピーと同じものを返すとだけ考えちゃいけないんです。] そういう意味では 情報理論的な観点から 今の変化 アプローチの特徴を考えることは意味があることだという風に考えています。 

それについては、また、今回のセミとは別のセミナーを考えていきたいと考えてます。


【 AIの利用拡大について 】

 現時点での嬉しいニュースは、OpenAIが、ChatGPTのマルチモーダルサービスの公開を予告したことです。つい最近の 9月25日でしたけれども。 これはとても大事なことです。それは AI利用の拡大のゲーム チェンジャーになるという風に僕は考えています。

ここでは、AIの利用者の拡大に注目しているんですけれども ChatGPTの利用者は多く見積もっても 数億人だと思います。 それはスマホの利用者やインターネットの利用者はるかに少ないんです。

利用者の拡大は 今回のセミナーを取り上げたテキストと画像の統合が主要な舞台となるというより、AI の対する入力・出力が音声でも可能になるというのが大きいのではないかと僕は考えています。自然言語というものは、もともと文字じゃなくて音声で伝えられるものです。

どういうところにインパクトを与えるかというと、AlexaだとかSiriもそうかもしれないですけどボイスアシスタント系のサービスは一新されるでしょう。それらは、理論的にも技術的にも、大規模言語モデルからも派生した ボイスアシスタントには、 能力では全然対抗できないからだというふうに思います。 最近は個人的にAlexa 劣化してると思っています。全然、曲探してくれないですよ。あの辺りも大幅に改善される可能性はあると思います。 

ボイスが使えるっていうのは大きいです。今の AI 技術の利用者というのは、ITの世界の人が多いだろうと思います。あとは生成系だとデザイナーとかあるいは文章を作ろうと使ってる人もいるんですけれども、それはまだまだ少ないと思います。多く見積もったら10億人ぐらいいるかもしれ ないんだけれども、でも今の利用のスタイルでは多分頭打ちですね。やっぱり60億とかスマホ 並みに拡大するっての最大の武器は、おそらく音声だという風にも考えています。

僕は長い目で見た時に、大規模言語モデルの人間 にとっての最大の貢献は、人間に言葉の壁を乗り越える現実的な手段を初めて 提供したことにあるという風に考えます。生成AIの使い方いろいろあるんですけれども、産業革命以来とか言って ますけども、この言葉の壁を越えるというのは人類史的なスパンで見ても巨大な変化なんです。

大規模言語モデルというのが、生成系AIもそうですが、いろんな 問題に悩まされることがあると思います。 それはハルシネーションの問題もそうだし、権利の問題もそうです。あるいは AIの利用によって派生する 使えるものと使えないものの 格差の問題を議論する人もいます。

けれども大規模言語モデルで、翻訳を僕は意識してるんですけど、大規模言語モデルの最良の能力は多分翻訳能力だという風に僕は考えています。それは確実な能力なんです。翻訳能力から他のものはみんな派生したものですね。それは 幻想に悩ませることもないし、誰もが使えるものです。それは大規模言語モデルの最良の能力を利用することです。それは多分 歴史的には多分10年とかじゃなくて もっと長い時間をかけてみんながそのことに気がついて、言葉の壁はいずれなくなる。これは非常に 巨大な変化だという風に思っています。

そういう意味ではマルチモーダルではイメージの処理に関心が集まっているんですが、イメージ難しいんですよ。それは少し 貧弱なものにとどまっていたとしても、ChatGPTの公式のサービスとしてマルチモーダルが当たり前 になってくってことのインパクトは、僕 はでかいだろうという風に考えてます。

先日 までは、ChatGPTはテキストベースで、基本的には 画像も音声も駄目だったんですよね。 これがですね先日、ChatGPT now can see, hear and speak と出たんですね。「 ChatGPTは、今や見ることも聞くことも話すこともできる」これは大きいという風に思ってます。

 今回のセミナーは少しテクニカルで 、画像中心で、しかも主要にはテキストと画像からテキストへの流れを追いかけたものなんですが、もう少し別な切り口で hear and speak に 注目すると色々面白い展望が開けるんじゃないかと考えています。

セミナーのお申し込み お待ちしています


コメント

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

人間は、善と悪との重ね合わせというモデルの失敗について