投稿

ボイスAIはAI利用拡大のゲームチェンジャー 3

【 メディアのマルチモーダル化について 】 マルチモーダルなAIへのAI技術の展開は、新しいインターフェースの開発とそうしたインターフェースを搭載した新しいデバイスの登場を準備します。それがAIをめぐる開発競争の、次の段階での重要な舞台になると僕は考えています。 ただ、それを「インターフェース」の問題としてだけで考えるのは、近未来の予測としては狭いのだと感じています。 「感じる」というのは、曖昧に思われるかもしれません。それは僕が技術的な「予測」というより、これまでなかった何か新しいものが生まれるかもしれないという「予感」レベルの話をしているからかもしれません。 ただ、そうした「予感」には、根拠がないわけではありません。(「予感」は、まだ見ぬ未来を考える上では重要なものだと、僕は考えています。) 少なくとも、近現代の電気・電子的なメディアは、その長くはない歴史の中でも、マルチモーダル化のいくつかの波を経験しています。 電信から電話へ:これは「信号」(これはテキストの亜種と考えられます)から「音声」へのマルチモーダル化です。信号から音声へという同じモーダルの変化が、次の例でも現れます。電話はリアルタイムで「双方向性」を持つという点では画期的なメディアだと思います。 無線通信からラジオへ:ここでは、信号から音声へというモーダルの変化とともに、「1対1」から「1対多」というモードの変化が重要です。ただし、ラジオには「双方向性」はありません。 ラジオからテレビに:テレビは、基本的にはラジオの特性(「音声」「一対多」「一方向」)を引き継いだまま、それに「イメージ」を追加したマルチモーダル化です。 とても雑なまとめですが(インターネットの話がぬけていますね)、ここで僕が強調したかったことは、メディアのマルチモーダル化は、その利便性によって多くの利用者を獲得し、それまで存在しなかった新しい強力な産業を創出する、とても強い力を持っていたということです。 メディアのマルチモーダル化は、決して同じ産業構造上の同一のデバイス上での「インターフェース」の進化ではありませんでした。それは、新しいデバイス(電話・ラジオ・テレビ等)を産み出し、新しい産業を台頭させ、産業構造を変えました。 21世紀初頭に起きたIT産業の再編は、インターネットという新しいメディアの上での、クラウドとクラウド・デバ

ボイスAIはAI利用拡大のゲームチェンジャー 2

【 ボイスAIはAI利用拡大のゲームチェンジャー 2 】 "ChatGPT can now see, hear, and speak" 「ChatGPTでは、新しい音声と画像機能を提供し始めています。音声で会話したり、話している内容をChatGPTに見せることで、より直感的な新しいタイプのインターフェイスを提供します。」 それでは、なぜ、僕は "hear and speak" するAI に注目しているのでしょうか?  前回も述べたように、ChatGPTの入出力を音声にするのは、技術的には簡単なことです。ただ、ChatGPTのChat は、「おしゃべり」や会話ではなく、テキストの交換です。それは、インターネットとスマホが普及するまでは、耳と発話が不自由な人のコミュニケーションのスタイルでした。 そうしたコミュニケーションのインターフェースを、近未来のAIが引き継ぐかは、よく考える必要があると思います。 人間の言語能力は、約10万年前(その時期は特定されているわけではありません)、話す・聞く能力として開花し、そのスタイルが人間という生物種に固有な能力として維持されてきました。 それに対して、文字の利用は、長くとも数千年の歴史しかありません。正確にいうと世界の大多数の人が文字を使えるようになったのは、近現代になって、いわゆる「民族国家」「市民社会」が成立し、具体的には、学校制度が定着してからです。短く見積もれば、この100~200年の間に起きた変化です。 人間が、全体としては、言語生活の歴史の大部分を文字なしで過ごしてきたということ、また、文字の利用は、人間の生物学的な「ネイティブ」な能力ではないということは、人間のコミュニケーションの志向に深いところで影響を与えていると思います。 ネット上のコミュニケーションのスタイルは、ChatGPTを含めて、話す・聞くに対して、書く・読むが優位になったと考えることもできます。他方では、ネット上のコミュニケーションの拡大は、むしろ多くの人の「文字離れ」を起こしていると考えることもできます。 後者の「文字離れ」の志向が強まるという現象は、人間の言語活動の成り立ちと歴史から見ると、むしろ自然なことかもしれません。 ただ、文字の利用については、留意すべき重要なことがあります。それは、文字の利用には二つ

ボイスAIはAI利用拡大のゲームチェンジャー

【 ボイスAIはAI利用拡大のゲームチェンジャー 】 "ChatGPT can now see, hear, and speak" 「ChatGPTでは、新しい音声と画像機能を提供し始めています。音声で会話したり、話している内容をChatGPTに見せることで、より直感的な新しいタイプのインターフェイスを提供します。」 せっかちなのか、すぐOpenAIのスマートフォン・アプリで音声入出力を試した見たのですが思うようには動きません。 先の記事の最後に、こう書いていました。 「PlusとEnterpriseのユーザーは、今後2週間で音声と画像を体験できるようになります。その後すぐに、開発者を含む他のユーザーグループにもこれらの機能を展開できることを楽しみにしています。」 「今後2週間で」なんですね。 僕は、音声で入出力ができる「ボイスAI」に大きな期待を持っています。 でも、アプリ・ショップを見ると、すでにChatGPTの入出力を音声で可能にするというアプリは沢山あります。それは、文字を音声に変える、あるいは、音声を文字に変える技術は、すでに確立しているからです。 でも、僕が期待しているのは、そんなアプリじゃないんです。 少し視点を変えてみましょう。 ChatGPTのサービスの登録者は一億人を超えたと言われています。それはそれですごいことです。ただ、スマホやインターネットの利用者は数十億人はいるはずです。ChatGPTの利用者は、数の上では、スマホの利用者よりはるかに少ないのです。 「早く使いこなして差をつけよう」といった記事も少なくないのですが、それはAI技術を活用できるのは少数で、使えない人が沢山残るだろうと想定しているように感じてしまいます。 利用者が少ない技術やサービスは、あまり発展しないものだと僕は考えています。勝負は、サービスや製品が、圧倒的多数の人に行き渡るかどうかから始まります。その時期を超えてから、いくつかの生き残りをかけた本当の競争が展開されるでしょう。 少なくとも、AI技術の利用者の拡大にとっては、音声で入出力ができる「ボイスAI」の登場は、重要な意味を持っていると思います。 それでは、現在のChatGPTの入出力を音声に変えれば、利用者は急拡大するのでしょうか? 多分、そうはならないと思います。現在のChatGPTのインターフェ

CLIP -- Contrastive Representation Learning

【 「似ているもの」は近くに、「違うもの」は遠くに 】 「テキストとイメージの」結合を目指したOpenAIのプロジェクトCLIPを紹介しています。 これまで、第一に、"natural language supervision" という、ことばで画像の意味を伝えるというアプローチと、第二に、人手によるラベル付は行わず、インターネット上のテキストとイメージのペアを見つけて巨大な訓練用データセットを作ったという話をしてきました。 今回のセッションでは、CLIP ( "Contrastive Language-Image Pre-training" ) という名前の元となった "Contrastive Representation Learning" というCLIP の訓練法を紹介します。 contrastive というのは、日本語の「コントラスト」の形容詞形です。「コントラストのはっきりした」という意味です。"Contrastive Representation Learning" を「対比的表現学習」と訳していいと思います。 この訓練法は、画像認識での定番のCNNの訓練法とも、大規模言語モデルのTransformerの訓練法とも、少し違ったものです。では何故、これらの「実績」のある訓練法ではなく、CLIPは別の訓練法を選んだのでしょう? それは、「最先端のコンピュータビジョン・システムは、非常に大量の計算を使用する。」からです。インターネットから沢山のテキストと画像のペアを集めて、巨大なデータセットを作ったとしても、現実的には計算能力が追いつかないのです。 CLIPが選択した "natural language supervision" は非常に魅力的なアプローチです。ただ、OpenAIのCLIPチームは、いろいろな試行錯誤の中で、このアプローチをスケールさせる成功の鍵は、やはり、その学習効率であることに気づきます。 そこで選択されたのが、"Contrastive Representation Learning" だったのです。 直観的には、対比的表現学習は、比較することによって学習します。何と何を比較するのでしょう?  比較は「似ている」入力のペア(

CLIPのデータセットと予測サンプル

【 CLIPの性能を見る 】 このセッションでは、CLIPがどのようなデータセットを訓練用データを構築したのか、また、CLIPがどのような性能を持つかを、いくつかのサンプルで見ていこうと思います。 CLIPの基本的なアイデアの一つは、さまざまな画像認識タスクをを訓練する大規模なデータセットを、インターネット上に大量に存在するテキストと画像のペアから構築しようということです。そこでは、natural language supervision によるテキストが与える画像の解釈が重要な役割を果たします。 【 従来の研究で利用されたデータセット 】 既存のコンピュータビジョンの研究では、主にMS-COCO、Visual Genome、YFCC100M の3つのデータセットを使用しています。 MS-COCOとVisual Genomeは高品質のクラウドラベル付きデータセットですが、それぞれ約10万枚のトレーニング写真からなり、現代の基準からすると小規模です。 YFCC100Mは1億枚の写真からなります。ただ、各画像のメタデータはまばらで、品質も様々です。英語の自然言語のタイトルや説明文を持つ画像だけを残すようにフィルタリングした結果、 YFCC100Mデータセットは6分の1に縮小され、わずか1500万枚の写真になりました。これはImageNetとほぼ同じサイズです。 それら以外にも、画像認識で利用されたデータセットは沢山あります。この論文では、27個のデータセットを紹介して、それをCLIPの性能評価用に利用しています。 【 CLIPはどのようなデータセットで 訓練されたのか? 】 「natural language supervisionの主な動機は、インターネット上で公開されている大量のデータである。既存のデータセットはこの可能性を十分に反映していないため、それらのデータセットのみでの結果を考慮することは、この研究分野の可能性を過小評価することになる。」 「この問題に対処するため、我々はインターネット上の様々な公開ソースから収集した4億組の(画像、テキスト)データセットを新たに構築した。」 「可能な限り幅広い視覚的概念をカバーするため、構築プロセスの一環として、テキストが50万件のクエリのいずれかを含む(画像、テキスト)ペアを検索した。」 「クエリごとに最大2万件の(画像、

CLIPのアプローチ

【 natural language supervision とは何か? 】 CLIP (Contrastive Language–Image Pre-training) は、テキストとイメージを結合することを目指したOpenAIのプロジェクトです。 CLIPは、大規模言語モデルをマルチモーダルな人工知能に展開する上での、OpenAIの中心的なプロジェクトと考えていいと思います。 OpenAIは、CLIPを次のように紹介しています。 https://openai.com/research/clip 「CLIPと呼ばれるニューラルネットワークを導入し、natural language supervision から視覚概念を効率的に学習する。CLIPは、GPT-2やGPT-3の「ゼロショット」機能と同様に、認識すべき視覚カテゴリの名前を与えるだけで、あらゆる視覚分類ベンチマークに適用できる。」 ここでのキー・コンセプトは、“natural language supervision” です。その意味は、すぐ後で説明します。先の文は、それを視覚概念の学習に活かすと言っています。 【 CLIP登場の背景 】 “natural language supervision” の説明の前に、CLIPの登場の背景を見ておきましょう。その背景を、OpenAIは、とても率直に語っています。 「ディープラーニングはコンピュータ・ビジョンに革命をもたらしたが、現在のアプローチにはいくつかの大きな問題がある。」 最大のものは、データセットの問題だとOpenAIは言います。 「また、ベンチマークでは優れた性能を発揮するモデルも、ストレス・テストでは失望するほど低い性能しか発揮できず、コンピュータ・ビジョンへのディープラーニング・アプローチ全体に疑問を投げかけている。」 データセットには、どういう問題があるのでしょう? 先に見た Vision Transformer は、”Inductive Bias Free”なシンプルなアーキテクチャーでも、データセットの規模を拡大すると、画像認識の性能を上げられることを強調し、「大規模訓練が帰納的バイアスに勝ることを発見した。」と豪語していたのですが、OpenAIのCLIPのアプローチは、すこし違ったものです。 「典型的なビジョン・データセットは、作成に労力と

Vision Transformer 内部表現の分析

【 Attention の働きを「見える化」する 】 前回に引き続き、Vision Transformer 論文の概要の紹介の二回目です。基本的には、論文の展開にそった説明を行うようにしています。 前回は、「 Vision Transformerの画像embedding 」を取り上げたのですが、今回のセッションでは、「 Vision Transformer 内部表現の分析 」をトピックとして取り上げようと思います。概要の最後に、この論文全体の「結論」を紹介しています。 「 内部表現の分析 」というのは、システムの内部で、入力に与えられたデータが出力に至るまでどのように変化するのかを追いかける分析です。 ディープラーニングのニューラル・ネットワークは、膨大な量のデータが、多数の「層」を通り抜け、かつそれらが相互に作用するので、アーキテクチャーの構成をみただけでは「なぜ、このシステムで、こういう働きが可能になるの?」という疑問の答えは得られません。 一つ一つのデータの動きを追いかけても(実際には、それは無理なのですが)、それぞれの層でのデータを表現する数式を眺めても(それは抽象的すぎます)、システムの「ふるまい」は、さっぱり見えてきません。 でも、いい方法があるのです。それは、複雑なものを一瞬・一瞥で理解・把握する人間の視覚の力を利用することです。 データではなく各層でもっとも活発に呼び出されている「ふるまい」に注目します。そのふるまいが各層でデータをどのように変えているかを、そのふるまいの結果の全部をデータの画像として表示します。 そうすれば、その層のふるまい全部ではないけど、もっとも頻繁に呼び出されているふるまいの結果を画像として可視化することができます。これが、重要な情報を与えてくれることになります。 2013年の  Zeiler , Fergusの  "Visualizing and Understanding Convolutional Networks"   https://arxiv.org/pdf/1311.2901.pdf  は、この分野を切り拓いた画期的な論文です。お時間があったら、ぜひ、お読みください。画像を見るだけでも楽しいです。 今回のセッションの隠れたテーマの一つは、前回も触れた Vision Transformer の「