投稿

2月, 2023の投稿を表示しています

量子優越性のマイルストーンの達成

 【 「量子優越性のマイルストーンの達成」ビデオ公開しました 】 現在公開中のビデオ「量子計算の古典的検証」  https://www.youtube.com/playlist?list=PLQIrJ0f9gMcNwyptLu7uIZboO62Ffu-cI  (まとめページは、「量子計算の古典的検証」 https://www.marulabo.net/docs/cvqc/ です)の理解を深めるために、この問題の実践的重要性と解決の難しさを改めて明らかにした、2019年のGoogleによる「量子優越性」を達成したという実験とその意義を解説した、2020年2月のセミナー「量子コンピュータの現在 -- 量子優越性のマイルストーンの達成 」の講演ビデオを公開しました。 ビデオ 1 「Googleの量子優越性実験 -- なぜ、量子優越性を示すことが重要だったのか?」  ・2019年10月23日の前後に起きたこと  ・なぜ、量子優越性を示すことが重要だったのか?  ・Googleはどんな実験をしたのか https://youtu.be/MBIlcaJ7SnM?list=PLQIrJ0f9gMcNT0S6xsOdyasJSHMUDaUrM ビデオ 2 「Googleの量子優越性実験 -- 量子コンピュータの動作を図解する」  ・量子コンピュータの動作を図解する  ・量子優越性をめぐる「論争」  ・「拡大されたチャーチ=チューリング・テーゼ」の終焉 https://youtu.be/HzQVlP13kWw?list=PLQIrJ0f9gMcNT0S6xsOdyasJSHMUDaUrM あわせて、次のページを更新しました。 「量子計算の古典的検証」 https://www.marulabo.net/docs/cvqc/   「量子コンピュータの現在 -- 量子優越性のマイルストーンの達成」   https://www.marulabo.net/docs/q-supremacy/ ----------------------------------- これらのビデオは、以前は、crash-academy さんのサイトから配信されていたものですが、crash-academyさんのご好意で、YouTubeからの配信を行うことができるようにな...

11/26 マルゼミ 「量子計算の古典的検証」講演ビデオ公開しました

  【 11月のマルゼミ 「量子計算の古典的検証」の講演ビデオ公開しました 】 MaruLaboでは、開催したセミナーの様子を、ビデオで公開しています。 今回は、11月26日のマルゼミ 「量子計算の古典的検証」の講演ビデオの公開です。 【「量子計算の古典的検証」問題とは何か? 】 「量子計算」というのは、量子コンピュータが行なう計算のことです。「古典的検証」を行うのは人間です。人間が古典的手段を使って、量子コンピュータが行なった計算が正しいかどうかをチェックすることを、「量子計算の古典的検証」と言います。 「古典的手段」とは、主要には、古典的コンピュータのことを指します。これも、ピンとこない言い回しかもしれません。それは、量子コンピュータとの対比で古典的と言われているだけで、最新鋭のスーパーコンピュータを含む、普通のコンピュータのことです。 「量子計算の古典的検証」とは、量子コンピュータの行なった計算が正しいものであるかを、人間が普通のコンピュータを使って、確かめると言うことです。 【 素因数分解なら量子コンピュータの計算のチェックは簡単 】 量子コンピュータが行う計算が、素因数分解ならその計算の正しさのチェックは簡単です。入力した数に対して量子コンピュータが出力した素因数を、コンピュータで実際に掛け算を行なって、それが入力したものと一致しているか確かめればいいわけですから。 ただ、量子コンピュータが行う計算の正しさが、コンピュータで簡単にチェックできるとは限りません。 【 「二日半」か「一万年」か? 】 数年前に、GoogleとIBMとの間で、Googleが開発した量子コンピュータの「計算能力」をめぐって激しい論争がありました。 Googleの量子コンピュータが行った計算をスーパー・コンピュータで行ったとすると、Googleは「その計算は、一万年はかかるだろう」と主張したのに対して、IBMは「そんなにはかからない。やりかたを工夫すれば、二日半で計算できるはずだ」と反論したのです。 面白いのは、Googleの「一万年」の計算は無理だとしても、IBMも実際のコンピュータで計算してみせたわけではないのです。 【 困ったことが起きる 】 我々は量子コンピュータのずば抜けて高い計算能力に期待しています。それは、量子コンピュータが、正しく動作することを期待しているとい...

還元された密度行列

【 図形で分かること 】 今回のセッションのテーマは、還元された密度行列です。ただ、数学の話だけでは、退屈かもしれませんので、テンソル・ネットワークを使った、数学への図形的なアプローチをすこし紹介しようと思います。 こんな感じです。 ベクトル空間Vのベクトルを、丸に一つの直線をくっつけた図形で表します。 ベクトル空間Vとベクトル空間Wのテンソル積 V⨂Wで作られる空間のベクトルは、丸に二つの直線をくっつけた図形で表します。丸に2本の足がある図形です。2本の足は、空間Vと空間Wに対応しています。 今回は、この二本足のベクトルで説明します。 ちょっと数学が入りますが、たいしたことはありません。このベクトルを|A>で表すことにしましょう。|A>は2本の足を持つ丸です。 今度は、|A><A|という式が表す図形を考えます。(実は、密度行列というのは、基本的にこの式で表されます。) |A> と<A|はよく似ています。真ん中に鏡を置けば、お互いの姿が映ります。ただ、鏡でも、目の前に鏡を置くのと、頭の上に鏡を置くのとでは映り方が変わります。目の前の鏡は左右を逆にしますが、頭の上の鏡は上下を逆にします。 丸い図形の左右を反転させても、たいして変わりは出てきませんので、頭の上に鏡を置くことにしましょう。そうすれば、下に2本の足を出していた元の図形|A>は、上に2本の足を出している図形に変わります。これを、<A|の表す図形だということにしましょう。 これで、|A>を表す図形と<A|を表す図形ができました。今度は、|A><A|を表す図形を考えます。 |A><A|は、じつは、数学的には、|A>⨂<A|と同じものです。なんか話が難しくなりそうな予感がするのですが、そんなことはありません。図形をテンソル記号⨂で結びつけるということは、実は、何もしないことなのです。二つの図形を、何も手を加えず、そのまま並べておくことなのです。 ですので、|A><A|を表す図形は、下向きに2本の足をもつ丸と、逆立ちして上に足を伸ばした丸が、二つ並んだ図形だということになります。お互いが関係があることをわかりやすくするために、この二つの図形を、丸と丸を近づけて、上下に積み重ねることにしましょう。 こうして、二つの丸と4本の足(2本は下向き、2本は上向き)を持つ図形が、|A><A|を表す、すなわち数学的には密度行列を表...

Partial Trace

【  Partial Trace は周辺確率を導く 】 二つのベクトル空間 V, W のテンソル積で作られるV⨂W から、その一方( V あるいはW )への写像pを考えます。v, wをV, Wの要素として、 p(v, w) = v という( wを無視する)写像を考えればいいですね。 残念ながら、このpは線型写像にはなりません。 pが線形なら p(v, w1+w2) = p(v, w1) + p(v, w2) = 2v になるのですが、p(v, w1+w2) = v で2v にはなりません。 ただ、V⨂W からV, Wへの写像ではなく、End( V⨂W )からEnd(V), End(W) への写像を考えると線型写像になることがわかります。End というのはEndmorphism のことで、自分自身への写像のことです。f がEnd(V)に属するということは、f は、VからVへの写像だということです。 End( V⨂W )は End(V)⨂End(W)と同型です。f がEnd(V)に属し、g がEnd(W)に属する時、   tr_W( f⨂g ) = f tr(g) ,  tr_V( f⨂g ) = tr(f) g と定義します。このEnd( V⨂W )からEnd(V), End(W) への線型写像 tr_W, tr_Vが、Partial traceです。 tr_W では、f⨂g のf は残っているのですが、gはtrace(=スカラー)になります。 tr_V では、f⨂g のg は残っているのですが、fはtrace(=スカラー)になります。 密度行列ρに対して、partial trace をとると、その結果も密度行列になることが分かります。こうして得られた密度行列を「還元された密度行列」といいます。 重要なことは、この「還元された密度行列」が、古典的確率論での「周辺確率」に相当するものになるということです。 ------------------------------------- 「 Partial Trace」を公開しました。 https://youtu.be/ZQsi22ma4X0 ?list=PLQIrJ0f9gMcOByaj0vK9cnGyaEUFUadh4 資料pdf https://drive.google.com/fi...

古典論的確率と 量子論的確率の基本的同一性

 【 二つの確率概念は、基本的には一致する 】 このセッションでは、古典論的確率と量子論的確率の基本的な同一性を示す次の関係が成り立つことを示します。  ● 量子論から古典論へ        全てのC^S上の密度演算子ρから、S上の確率分布πを定義する    ことができ、二つの確率を一致させることができる。  ● 古典論から量子論へ    全てのS上の確率分布πから、 C^S上の密度演算子ρを定義する    ことができ、二つの確率を一致させることができる。 ただ、古典論的確率から量子論的確率を導出しようとする時、「二つの確率を一致させる」やり方は、一意に定まるわけではありません。 密度行列ρで計算された確率π_ρと確率分布πで計算された確率を一致させるという条件、π_ρ = π を満たす複数の密度行列ρが存在しえます。やはり、量子論の世界の方が古典論の世界より広いんでしょうね。 セッションでは、二つの代表的な対応づけを紹介しています。 一つは、確率関数π(s)の値を、そのまま一つづつ行列ρの対角線上に並べる対応です。 もう一つは、まず、π(s)から |ψ> = ∑ √π(s)|s> というベクトルをつくります。この対応づけのポイントは、π(s)を直接使うのではなく、その平方根 √π(s)を使うことです。この|ψ>から次のように密度行列ρを定義します。   ρ = |ψ><ψ| 以後の説明では、主に、このスタイルの対応づけを利用します。 ------------------------------------- 「 古典論的確率と 量子論的確率の基本的同一性 」を公開しました。 https://youtu.be/_hkBh_haefM ?list=PLQIrJ0f9gMcOByaj0vK9cnGyaEUFUadh4 資料pdf https://drive.google.com/file/d/1Kba1CsRWGDdG7j_S8-PoiBpO286KA1Th/view?usp=sharing blog:「 二つの確率概念は、基本的には一致する 」 https://maruyama097.blogspot.com/2023/02/blog-post_20.html まとめページ https:/...

2/25 peatix 申し込みページ

【 2/25 マルレクの申し込みページ作りました 】 2月25日のマルレクを「密度行列 ρ で理解する確率の世界」というテーマで開催します。 セミナーの申し込みページは、 https://density2.peatix.com/view です。 今回のセミナーの趣旨は、密度行列から確率の概念をを考えてみようというものです。 密度行列は、量子論で量子の状態を記述するものです。今回のセミナーでは、少し別の角度から密度行列を見てみようと思います。それは、密度行列は確率概念の一般化であるという見方です。 たしかに、量子の世界では決定論ではなく確率論が基本的な役割を果たすと言われますので、量子の状態を記述する密度行列が、確率の概念と結びつきがあるのは、当然のことかもしれません。 ただ、密度行列は確率概念の一般化であるという主張は、もう少し強い内容を持っています。それは、我々が普段使っている確率の概念とは異なる確率の概念があるということです。 量子論は我々の日常のマクロな世界とはかけ離れたミクロな世界の理論で、そうした世界を理解するためには確率論が必要だという考えは、正しいように思えます。ここでは、マクロな世界とミクロの世界という「二つの世界」を、「一つの確率論」が結びつけています。 もしも、マクロな世界の確率論とミクロな世界の確率論が、二つの異なる確率論であるなら、そうしたイメージは変わります。 でも、それはミクロな量子論の世界に大きな変更を強いるものではありません。問題は、我々の日常のマクロな世界の中でも、古典論的ではない量子論的確率論が、大きな役割を果たしている領域が存在する可能性があるということです。 僕は、ことばの意味を密度行列で表現しようという「意味の分散表現論」の新しい進展が、マクロな世界で量子論的な確率論が機能している舞台だと考えています。 それについては、3月以降のセミナーで展開できればと思います。 ------------------------------------- 「 密度行列 ρ で理解する確率の世界 」を公開しました。 https://youtu.be/zdVwKj3Z9Qs ?list=PLQIrJ0f9gMcOByaj0vK9cnGyaEUFUadh4 資料pdf https://drive.google.com/file/d/1KRJb_...

固有値に注目しよう

【 固有値に注目しよう 】 このセッションでは、Density Operatorを定義して、それが古典的確率分布の一般化になっていることを説明します。 DがDensity Operator になるのは、Dが次の三つの条件を満たす時です。  ● Dは、エルミートである。  ● Dは、半正定値である。  ● Dのtraceは、1である。 この条件を、次の有限集合S上で定義された古典的確率分布関数pの条件と比較します。  ● 関数pは、実数値を取る。  ● Sの要素である全ての sについて  p(s) ≥ 0 である。  ● Sの要素である全ての sについて  p(s) を足したものは1である。 この二つの定義の関係は、すぐには、わかりにくいかもしれません。それは、主要には、前者のDがDensity Operatorの定義がわかりにくいからだと思います。それについては、今回のセッションできちんと説明します。 両者の関連を見る上で、もう一つ、ポイントがあります。 前者の量子の世界の記述は、基本的に、ベクトルとベクトル空間上の演算子を通じて行われるのですが、そのスタイルと、古典的な世界の記述のスタイルのギャップを埋めるものがあるのです。量子の世界の演算子の(固有ベクトルと)固有値が、両者の世界を結びつける上で、重要な役割を果たします。演算子の固有値が鍵なのです。 演算子の固有値に注目しましょう。そうすると、両者の関係は明確になります。 ------------------------------------- 「 古典的確率分布の一般化 -- Density Operator 」を公開しました。 https://youtu.be/lGcixzjF9U8 ?list=PLQIrJ0f9gMcOByaj0vK9cnGyaEUFUadh4 資料pdf https://drive.google.com/file/d/1Jyk2KCf5UfHoHNOOHRtZEinMLMgaWiLj/view?usp=sharing blog:「 固有値に注目しよう 」 https://maruyama097.blogspot.com/2023/02/blog-post_68.html まとめページ https://www.marul...

テンソル積の表現

【 テンソル積の表現 】 先のセッションで、Tensor Network の初等的な導入をしました。今回は、その上で、Tensor Networkの基礎を紹介しようと思います。 もっとも重要なポイントは、テンソル積の表現です。 ベクトル空間 V とベクトル空間W のテンソル積で表される空間は、Vを表す直線とWを表す直線を平行にならべた二本の直線で表現されます。 このテンソル空間上の任意のベクトルは、このVとWに対応する二本の直線をエッジとして持つノードで表現されます。二本足のノードです。 もしもこのテンソル空間が、二つのベクトルのテンソル積として分解可能ならば、この空間は、二つのベクトルを表す図形が平行にならんだ形で表現されます。 この場合、先の二本足の一つのノードは、並行に並んだ二つの一本足のノードに分解されます。図形が平行に並ぶことが、テンソル籍を表現しています。 二本足のノードが、常に、二つの一本足のノードの分離したペアで表現されるとは限りません。エンタングルメントという状態は、ノードが二つのもののテンソル積の形には分解できない状態をさします。それを、「分離不可能」と呼ぶこともあります。エンタングルメントは、分解不能=分離不可能な状態のことです。 文章で書くと、かえってわかりにくいかもしれません。図をみてもらった方がわかりやすいと思います。ぜひ、スライドまたはビデオをご覧ください。 ------------------------------------- 「 Tensor Network の基礎 」を公開しました。 https://youtu.be/Z83MxtzSsSQ ?list=PLQIrJ0f9gMcOByaj0vK9cnGyaEUFUadh4 資料pdf https://drive.google.com/file/d/1JakrBx0zltJrGy9UGHEbWVAVpqfU2gr8/view?usp=sharing blog:「 テンソル積の表現 」 https://maruyama097.blogspot.com/2023/02/blog-post_19.html まとめページ https://www.marulabo.net/docs/density2/

誰でも分かるテンソル・ネットワーク入門

【  誰でも分かるテンソル・ネットワーク入門 】 今、テンソルを多数並べて、一つのネットワークを作る「テンソル・ネットワーク」という技術が、物理学でもディープ・ラーニングでも、いろんなところで活躍しています。  「ちょっと待って。何の話をしているの? テンソルを並べると言っても、そもそもテンソルが何かわからないし。」 「テンソル」というのは、スカラーやベクトルや行列といった数学的概念を一般化したものです。  「ベクトルは、イメージはある。矢印のことだろ。行列はどっかで習ったような気がするけど、行列の掛け算、むづかしかった。嫌になった。スカラー、聞いたことないな。わからないことを一般化すると、わかりやすくなるの? わからないままでしょう。」 スカラーは、数字のことです。ベクトルは、数字が並んだものです。数字同士を掛け算できるように、ベクトル同士も、掛け算できるんですよ。それをベクトルの「内積」と言います。  「ベクトルの内積? もういいよ、興味ないから。普通の掛け算できれば、日常生活じゃ十分じゃない? 電卓だってエクセルだってあるし。」 どうやら、「テンソル・ネットワーク」導入に失敗したようです。中身に入る前に。 ただ、それは残念なことだと思います。というのも、テンソル・ネットワークの基本的な考え方は、行列の掛け算よりずっとやさしいからです。多分、小学生でも理解できると思います。 皆さんも、テンソル・ネットワークの世界、のぞいてみませんか? ---------------------------------------------- このセッションは、予定しているセミナー「密度行列 ρ で理解する確率の世界」https://www.marulabo.net/docs/density2/ の一部なのですが、少し説明が長くなってしまったので、別ページ「Tensor Network入門」https://www.marulabo.net/docs/tensor-network/ を作りました。

ニューラル・ネットワークは モノマネの天才

【 ニューラル・ネットワークは モノマネの天才 】 機械の学習能力を、人間の言語や数学の学習能力と比較することは、いわゆる「人工知能」の現在の到達点を評価する上で大事なポイントになると僕は考えています。 機械の学習能力を考えるには、人間との比較だけではなく、それとは異なるアプローチがあります。それは、機械の能力自体がどのように発展してきたかを、技術的な視点から歴史的に振り返ることです。 大規模言語モデルを一つの到達点として考えると、そこには二つの技術的な飛躍があったことに気づきます。 一つは、以前のセミナーでも取り上げた「意味の分散表現」技術の獲得です。この分野の研究は現在も活発に進んでいます。次の機械の認識能力の飛躍は、こうした研究の中から生まれると思います。 もう一つは、今回取り上げる RNN ( Recurrent Neural Network ) 技術の採用です。RNNの一種であるLSTM ( Long Short Time Memory ) は、現在の大規模言語モデルを構成するユニットの心臓部です。心臓というより、大規模言語モデルそのものが、全身、このLSTMのかたまりだと思っていいと思います。 大規模言語モデルの理解には、要素技術的には、RNN = LSTM の理解が不可欠です。それは、ChatGPTにしても同じことです。 真面目に大規模言語モデルを勉強しようと思ったら、ここは避けて通れないところだと思います。是非、チャレンジください。ただ、その働きの技術的説明は面倒臭いです。ここで書くには長すぎます。別に資料を用意します。 現代では、誰もが 「人工知能」について語ることができます。それはそれでいいことかもしれません。 それでは、「人工知能」技術の大飛躍をもたらした RNN技術の導入を、一般の人にわかりやすく伝える方法はないのでしょうか? たぶん、それはできると思います。 2011年、Ilya Sutskever はRNNを使って、Wikipediaやニューヨーク・タイムズの文体をまねた英文を、機械に造らせることに成功します。 2015年、Andrej KarpathyはRNNを使って、数学の論文やCのプログラムをまねて、どこにもない数学の論文・Cの論文に見える出力を、機械に造らせることに成功します。 RNNは、モノマネができるのです。しかもその...

昔の論文を集めて、新しくページを作りました

【 昔の論文を集めて、新しくページを作りました 】 「人工知能と数学」というシリーズを始めているのですが、「チューリング・テスト」のことを書こうとして、昔、自分が書いたものを探していました。 「機械の思考は可能か?」というその論文は見つかったのですが、この論文が載った「一橋論叢」という雑誌は、とうの昔に廃刊になっていることを知りました。そんなことがあったんだ。知らなかった。 まだ、ネットからはアクセスできるのですが、もはや自分では紙のデータは持っていないし、いつ無くなるかもしれないと少し心配になって、MaruLaboのサイトに、博士課程にいた時代の論文を集めることにしました。 ずいぶん古いものです。 探していた「機械の思考は可能か?」という論文は、1983年の3月の日付のものでした。今から、ちょうど40年前ですが、まだ使えます!(多分)まあ、あまり進歩していないということなのかもしれません。 お暇な方がいらしたら、このページ見てみてください。 「数理哲学論文」  https://www.marulabo.net/docs/math-philo/  

9/30 マルレク「ラティス暗号入門」講演ビデオの公開

  【 9/30 マルレク「ラティス暗号入門」講演ビデオの公開 】  MaruLaboでは、以前に行ったセミナーの動画を定期的に公開しています。 今回は、昨年の9月30日に開催した、マルレク 「ラティス暗号入門」の講演ビデオの公開です。こちらの不手際で公開が遅れたこと、お詫びします。 実は、去年の暮れに、ChatGPTに「ポスト量子暗号」のこと聞いて見たんです。 「ポスト量子暗号の標準化の 取り組みは存在しますか?」 そうしたら、こう答えるんです。 「現在、ポスト量子暗号の標準化の取り組みは、ほとんど存在しません。ポスト量子暗号は、まだ実現されていない未来の暗号技術であり、現在はまだ技術的に実現可能なものではありません。」 とんでもないことを言います。おかしいので、いろいろ突っ込むと、すべての質問に間違った答えを返します。ちょっとショックでした。 その内容は繰り返しませんが、「ChatGPT が間違ったことを言うサンプル = ChatGPTは嘘をつく」をご覧ください。 https://www.marulabo.net/docs/chatgpt/#ChatGPT_%E3%81%8C%E9%96%93%E9%81%95%E3%81%A3%E3%81%9F%E3%81%93%E3%81%A8%E3%82%92%E8%A8%80%E3%81%86%E3%82%B5%E3%83%B3%E3%83%97%E3%83%AB ラティス暗号は、ポスト量子暗号の標準化の取り組みの中で、次世代暗号化技術の最有力の候補に目されています。 新しい暗号化技術に興味がある人は、この問題に関する質問を、ChatGPT に聞かない方がいいと思います。こちらのセミナーをご利用ください。 もう一つのセミナー「暗号技術の現在」 https://www.marulabo.net/docs/cipher2/ もご利用ください。 ------------------------------- 以下が、セミナー「ラティス暗号入門」の 講演資料と講演ビデオの再生リストです。ご利用ください。 講演資料: https://drive.google.com/file/d/1F7ShzeRuDl0mLCe69kX32fgD5tm-Thqi/view?usp=sharing 再生リスト: https://w...

ベクトルは関数なんです

【 ベクトルは関数なんです 】 この章では、以後の議論で利用するノーテーションを確認します。 次の二つのノテーションについてふれようと思います。  ○ Bra-Ket記法  ○ テンソル・ネットワーク この二つのノテーションについては、次のMaruLabo の資料も参考にしてください。  ○ 「ケット |k> で理解する量子の世界」    https://www.marulabo.net/docs/ket-talk/    ○ 「テンソルとは何か? Tensor Network 入門」    https://www.marulabo.net/video/tensor-network/     (ただし、このページの動画は「無声映画」です。ごめんなさい。) このセッションでは、Bra-Ket記法を扱います。 Sを有限集合とする時、Sの要素上で定義され複素数Cに値を持つ関数 S → C の集まり 𝑉を、S上のベクトル空間といいます。 これを V = C^S で表します。 大事なこと。ベクトルって、関数なんです。 ベクトルのこと、Sのいくつかの要素の並びだと思っていませんか? 見かけ上はそれでもいいんですが、それでも関数なんです。(何言ってんだか) s ∈ Sの時 |s>で、SからCへの関数であるベクトルを表します。これを、ket 記法といいます。 Sの要素がn個あって、それが番号をつけられて順番に並んでいるとします。この時、「Sの要素sからCへの関数」は「番号i を持つSの要素からCへの関数」ですので、「 iからCへの関数」と同じだと考えることができます。この対応を、 C^S ≅ C^𝑛 と表します。 ベクトル v = [ 1, 9, 4, 8 ] だとしましょう。このベクトルが関数だということは、このベクトルが、v(0) = 1, v(1) = 9,  v(2) = 4, v(3) = 8 という関数v によって定義されていると考えることです。 Sの要素を S = { s0, s1, s2, ... } とすると、先の対応のもと、|s0>は|0>、|s1>は|1>、|s2>は|2>、... と書き換えることができます。こちらの方が見やすいですね。 このセッションでは、主要に次の四つのことを説明します。  ● V ⊗ W...

言語の習得と数学の学習

【 言語の習得と数学の学習 】 大規模言語モデルや機械翻訳システムでの言語の学習は、基本的には、膨大なパラレル・コーパスの学習である。パラレル・データの一方が模範解答として教師の役割を果たす。 それは人間なら嫌になって逃げ出したくなるほどの、教師による誤りの指摘と修正の、気の遠くなるような繰り返しである。幸いなことに、人間と違って機械は、登校拒否することも気絶することもない。 機械学習にはいくつかのタイプがあるのだが、画像認識でもSequence to Sequence でも強化学習でも、膨大なデータと繰り返しの学習によって「誤り」の低減を目指すというメカニズムは同じである。 機械はそうした退屈だが過酷な試練を耐えぬく、ある意味では人間(すくなくとも僕)に欠けている、優れた能力を持っているのである。素晴らしい! ChatGPTの、時には嘘も交えて流暢に言葉を話す能力は、時にはヘラヘラしている印象を与えるかもしれないが、彼の生まれも育ちも「根性」も、試練に耐えた筋金入りのものだ。 ただ、こうした機械の言語学習のモデルが、言語学習の一般的なモデルであるとは、僕は思っていない。僕らは、それとは全く違うスタイルで「母語」を操る能力を手に入れているからだ。 僕らは、けっして数億ペアの大規模パラレル・コーパスを与えられて、ことばを習得したわけではない。それは経験的にはあきらかだ。その上、論理的には、僕らが学ぶ最初の言葉である母語に、対応するペアなどあるわけがないのだ。また、「母」にあたる環境は、ことばの間違いをしつこく指摘する「鬼教師」ではなかったはずだ。 人間が、だれでもことばを理解できるというのは、言語能力が人間のもっとも基本的な能力であるということである。 機械が示し始めた言語能力に感心する前に、そういう時代だからこそ、僕ら自身の言語能力の習得の不思議さに、もっと関心が集まっていいと僕は思う。言語学者は昔からそうした関心を持っていたはずだ。そこには、Chomsky「言語能力の生得性」の主張をはじめとしてたくさんの知見の集積がある。 話は変わるのだが、大規模言語モデル的な学習モデルが、学習の普遍的なモデルではないことを示すのは、人間の言語習得のプロセスだけではない。数学の学習プロセスも、現象的にも原理的にも、多くの不思議に包まれている。 近代以降、学校教育の成立の中...

計算しないとわからないけど

イメージ
【 計算しないとわからないけど 】  今回のセッションは、古典論的確率から量子論的確率への移行の具体的な手順の説明です。(ここでは、確率分布Xと確率分布Yという二つの分布を結合するものとしています) まずは、普通の(古典論の)結合確率分布を記した表を用意し、このi行j列の表をi行j列の行列にします。 次のステップが、古典論から量子論への大きな飛躍になります。 でもやることは簡単です。先に作った行列の各要素の確率pを、√pに書き換えます。そうして書き換えた行列をMと呼ぶことにします。このMを元の結合確率分布の表や行列に代わる、新しい結合確率分布の表現と考えることにしましょう。Mの各エントリーは、直接、確率を表していません。その値を二乗したものが確率になります。 これで大飛躍は完了です。大したことなかったですね。 今度は、この結合確率分布もどきMから、周辺確率分布を計算する方法を説明します。 だって、以前は、縦横に小計を求めれば、簡単に周辺確率が求まったのですが、今度の行列の要素は確率ではなく、その平方をとった数字ですので、和をとっても意味ありませんから。 こうします。  ● 𝑀と共役なM^†を作ります。  ● 𝑀^†𝑀を計算すると、その対角成分に、Xについての周辺確率が現れます。  ● 𝑀𝑀^†を計算すると、その対角成分に、Yについての周辺確率が現れる。 本当です。 これ以降、この 𝑀^†𝑀と𝑀𝑀^†を新しい周辺確率の表現だと考えることにします。 問題は、この新しい周辺確率がどのような力を持つかということです。 というのも、このセミナーのはじめから、結合確率分布を周辺化してえられた周辺確率分布を、「元の情報を忘れている」と難癖をつけてボケ老人扱いしてきたからです。もちろん、このクレームは古典論の世界では、理不尽な要求です。 ただ、この新しい周辺確率は、立派な記憶を持っているのです。強制記憶消去の周辺化手術を受けても、彼の記憶は蘇ります。 もっとも、表面を見ただけでは、この人の本当の能力は分かりません。彼が過去の記憶を持っているのを確かめるには、ちょっと面倒な計算をしなければなりません。 それは、この新しい周辺確率 𝑀^†𝑀と𝑀𝑀^†の固有ベクトルを計算することです。そうすれば、この固有ベクトルが、新しい周辺確率が記憶の担い手であること...

パラレル・コーパスを使った言語学習技術、日本が先取りしていたかもしれないこと

イメージ
【 パラレル・コーパスを使った言語学習技術、日本が先取りしていたかもしれないこと 】 「パラレル・コーパス」というのは、 "I love you"という英語の文と「私はあなたを愛しています」という日本語の文のように、二つの言語で同じ意味をもつ二つの文のペアを集めたものです。 現代のAI技術の中心的な担い手と目されている「大規模言語モデル」の前身である「機械翻訳システム」は、大量のパラレル・コーパスを学習することで、翻訳の能力を獲得します。 パラレル・コーパスの規模は巨大なもので、あるコーパス(WT14)には、英語(En)<-> フランス語(Fr) 3,600万の文のペアが、英語(En) <-> ドイツ語(De)データセットには、 500万の文のペアがまれています。もっともGoogleは、このWT14の二桁から三桁大きいパラレル・コーパスを持っていると言います。 僕の不勉強で、パラレル・コーパスの現在の状況は正確に把握していません。機械翻訳のオープンソースのコミュニティを目指している Machine Translateの2022年のレポートによると、機械翻訳技術に世界158の言語に対応しているようです。https://machinetranslate.org/ 僕が、興味深いと思っているのは、かつて日本が中国語(漢文)の学習に採用したやり方が、パラレル・コーパスの学習を通じて他言語を学ぶスタイルになっているということです。 それは「白文の素読」というやり方です。 「白文」というのは中国語(漢文)そのものです。「素読」というのは、その漢文を見て「書き下し文」という日本語に翻訳することです。「書き下し文」と言いますが、何かに書き出すわけではありません。目で見た目の前の漢文を、その場で「書き下し文」という翻訳された日本語にして、声に出します。それが「素読」です。 「子曰 学而時習之 不亦説乎」という漢文を素読するとは、それを「子曰く、学びて時に之を習ふ。亦説(よろこ)ばしからずや。」と、声を出して読むことです。意味が同じ中国語と日本語の文のペアが一つ出来上がります。 中国語で「有朋自遠方来 不亦楽乎」が与えられると、「朋有り、遠方より来たる。亦楽しからずや。」と声を出します。意味の同じ中国語と日本語の文のペアが、また作られます。 ...

単純な例を見つける

イメージ
【  単純な例を見つける 】  今回のセッションは、結合確率なぜ、大規模言語モデルは、数学が苦手なのか? Joint distributionと周辺確率分布 Marginal distributionの話です。  ある分布を考える時、通常は、年齢についての分布を見るとか、性別についての分布を見るとか、特定の一つの分類基準に従ってその分布を考えます。それに対して、結合確率分布では、年齢と性別といった複数の分類基準の分布を同時に考えます。 といっても難しいことではなく、結合分布の具体的なイメージとしては、あるイベントの参加者を、横方向に年齢別に縦方向に性別に分類してカウントした数字が並んでいる表計算の表を考えればいいと思います。周辺分布というのは、この表の縦横の「小計」に当たるものです。これらの数字から、確率を得るには、これらの数字を、全体の数「総計」で割ればいいのです。 表が与えられれば、縦横の小計はすぐに計算できるのですが、表の小計だけから表の各セルの値を見つけることはできません。同じことで、結合確率分布から周辺確率分布は計算で求めることができるのですが、逆の操作、周辺確率分布から結合確率分布を求めることはできません。 結合確率から周辺確率を計算する過程で、元の情報は失われます。小計を取って、足して10になることが分かったとしても、もとのそれぞれの数字がなんだったかはわからないのと一緒です。 ところが、古典的確率論を量子論的確率論に拡大すると、量子論的確率論で周辺確率に対応するものから、もとの分布の結合確率が復元できます。次回、そうしたことを示してみようと思います。 Tai-Daneの論文を読み返しているのですが、最初はなんとも思わなかったのですが、彼女が挙げている結合確率分布の例が、絶妙に「簡単」だということに気づきました。簡単ですが、議論の本質を捉えている例になっています。 簡単な例を見つけるって、難しいんですね。 ------------------------------ 「 結合確率分布と周辺確率分布 」を公開しました。 https://youtu.be/05mqZYcSKKI?list=PLQIrJ0f9gMcOByaj0vK9cnGyaEUFUadh4 資料pdf https://drive.google.com/file/d/1EaQ32X5...

なぜ、大規模言語モデルは、数学が苦手なのか?

【 なぜ、大規模言語モデルは、数学が苦手なのか? 】 なぜ、大規模言語モデルは、数学ができないのか? それには理由があると思います。 大規模言語モデルは、機械翻訳モデルから派生したものです。それはある言語の文法的に正しい文を受理し、他の言語の文法的に正しい文に変換・生成する能力を持ちます。それはそれで素晴らしいものです。 そこでの意味理解は、基本的には、翻訳的意味理解ともいうべきものです。それは、  「 "I love you" の意味は、"私はあなたを愛している" ということである。」 と考えることです。 あるいは、同じことだと思いますが  「システムTが、 "I love you" を"私はあなたを愛している" に変換できるなら、システムTは、"I love you" の意味を理解している」 と考えることです。 システムTは、入力に与えられた語の並びS1を、別の語の並びS2に変換するシステムと考えることができます。ただ、こうした変換が可能であるためには、システムTに課せられる最低限の条件があります。それは、S1もS2も「文法的」に正しい語の並びでなければならないということです。 " I you love"は英語の文法にあっていませんのでシステムTは、それを入力として受け付けることはできません。また "私愛するあなた”は、日本語の文法にあっていませんので、システムTは、そうした出力をすることはできません。 システムTが、こうした入力と出力の文法性・構成性の要件を満たしているとして、次のように考えることができるでしょうか? 「システムTが、文法的に正しいシーケンスS1を文法的に正しいシーケンスS2に変換できる時、システムTはS1の意味を理解していると考えることができる。」 これは少しおかしいですね。こう言えるのは、出力S2の意味を我々が理解できる場合だけですね。少し変更しましょう。 「システムTが、文法的に正しいシーケンスS1を文法的に正しいシーケンスS2に変換でき、S2の意味を我々が理解できる時、システムTはS1の意味を理解していると考えることができる。」 これは、機械の意味理解についてのいい解釈かもしれません。大方の場合はそれでうまく...

2/25 マルレク

 【  2/25 マルレク「密度行列 ρ で理解する確率の世界」への招待 】 2月25日 マルレク「密度行列 ρ で理解する確率の世界 -- 意味の分散表現の数理」を開催します。 密度行列については、2021年夏に「密度行列 ρ で理解する量子の世界」というセミナーを開催しました。 https://www.marulabo.net/docs/rho-talk/ 今回のセミナーは、その続編です。 2021年のセミナーでは、観測演算子の一般化として POVM (Positive Operator Valued Measurement ) という概念を紹介しました。また、密度行列を別のより単純な密度行列に還元する Partial Trace という操作を定義して、それがエンタングルした複雑な系を理解するのに重要だという話をしました。今回のセミナーでは、これらのトピックスをもう少し掘り下げたいと思います。 2021年のセミナーの舞台は量子の世界でしたが、今回のセミナーの舞台は確率の世界です。 古典的な確率の概念は、20世紀の量子論の成立とともに量子論的な確率の概念に変化するのですが、今回のセミナーでは、古典論的な確率分布概念は量子論的な密度行列という概念に変化したという視点で、両者の対応と差異を見ていきたいと考えています。 主要に依拠したのは、DisCoCatのメンバーとして活躍した Tai-Danae Bradleyの2020年の論文 "At the Interface of Algebra and Statistics" 「代数と統計の境界で」です。 https://arxiv.org/abs/2004.05631 この前までChatGPTやAIの話をしていたのに、なぜ、数学の話になるんだと思われた方もいらっしゃるかもしれません。若干、セミナーの背景を補足させてください。 今回のセミナーは、以前の密度行列のセミナーの続編であるだけでなく、セミナーのサブタイトルの「意味の分散表現の数理」が示しているように、つい先日開催したもう一つのセミナー「AIは意味をどのように 扱っているのか? -- ChatGPT の不思議」 https://www.marulabo.net/docs/meaning/ の続編でもあります。 先日のセミナーでも述べたように、...

Facebookの「マルレク + MaruLabo」ページのフォロアーが、7,500名になりました。

イメージ
【 キリ番です 】 Facebookの「マルレク + MaruLabo」ページのフォロアーが、7,500名になりました。https://www.facebook.com/marulec2019/ 「マルレク + MaruLabo」への応援ありがとうございました。