ボイスAIはAI利用拡大のゲームチェンジャー 4
【 メディアのマルチモーダル化について 2 】
近未来のAI技術が視覚情報をどのように扱うことができるかについて考えてみたいのですが、その前に、メディアと視覚情報の関係を考えてみたいと思います。
前回見たように、近現代の電気・電子的メディアの電信・電話・ラジオ・テレビというマルチモーダル化の流れを振り返ってみると、多くの人に訴求する人間のメディアの進化をドライブしている力は、マルチモーダル化への欲求と抽象的に考えるのではなく、視覚情報「をも」扱うメディアへの志向だと考えた方がよさそうです。
視覚情報「をも」扱うメディアというのは、テキストも音声も視覚情報も扱うメディアという意味なのですが、その中核は視覚情報です。まぎれがなければ、「Visualなメディア」と呼ぶことにしましょう。
コミュニケーションとメディアと情報蓄積の中心舞台がインターネットに移行して以降も、Visualなメディアへの志向の強さは、ある意味で、驚くべきものです。
インターネットは、テキストベースのメディアとして出発しました。インターネットの新しいメディアとしての特徴を代表するFacebookやTwitterといったSNSも、もとはテキストベースでしたが、InstagramやTikTokといったVisualなSNSの挑戦を受けています。こうした動きは、これもまたインターネット・メディアの特徴と目されていたCGMが、商業的にはほぼYouTubeに一本化される中で、あたらしいCGMへの欲求として解釈することができるかもしれません。
新しいインターネット・メディアであるSNSやCGMばかりではなく、Visualな旧メディアである映画やテレビもインターネットへの参入を果たします。こうして、インターネットはVisualなメディアとして統合されつつあるようにも見えます。インターネットはVisualな情報で溢れ、その帯域の圧倒的部分はそれで占められています。
ここまで読んでくれた読者に、注意してほしいことがあります。それは、ここから議論が転調するということです。
メディアのVisual化についていろいろ書いてきたのですが、これまでの議論は、一本調子のものでした。何が一本調子かといえば、その延長で考えれば、VisualなAIの登場がAIの利用者拡大の鍵になると考えられるという議論が可能なように思えるからです。
でも、そういうことではないと僕は考えています。VisualなAIというコンセプトは、曖昧なものです。
メディアのVisual化への流れを一貫して推し進めてきたのは、メディアの利用者である人間の強い具体的な欲求です。
それでは、現在のテキスト・ベースのAIの利用者は、AIのVisual化を強く望んでいるでしょうか? 僕には、よくわかりません。
もし、実際にそういう強い欲求が存在するなら、それは何のためでしょう? そう考えるともっとわからなくなります。
あるいは、人間ではなくAI自身が、VisualなAIを望んでいるのかもしれません。結果的にはそういうこともありうるかもしれませんが、生まれたばかりのAIには、自分で自分のことを考える力はありません。
一番基本的な問いは、我々人間がどのようなAIを望んでいるのかということにあります。それが、AI利用者の拡大にとっても、AIとのインターフェースを考える上でも鍵になります。そういう問題を考える時期に、ようやく差し掛かっているのだと思います。
次回は、AI技術の側から、Visualな情報処理技術の到達点と課題を考えてみたいと思います。
---------------------------------
ショートムービー「 メディアのマルチモーダル化について 」を公開しました。
https://youtu.be/B4y76rmyq1M?list=PLQIrJ0f9gMcONFj6CSbKdp_mdh_81VgDU
ショートムービー 「 メディアのマルチモーダル化について 」のpdf資料
https://drive.google.com/file/d/183RPkNvmmq7TrmMnLPVGYmounpT6Mmkx/view?usp=sharing
コメント
コメントを投稿