セルフ・プレイに代わるもの

【 セルフ・プレイに代わるもの 】

イリヤ達の論文は、数学的証明をDeep Learningで行う上で、二つの難しさがあるといいます。

一つは、ゲームの場合にはそれぞれの局面で選択できる手は有限個しかないのですが、数学的推論では可能な選択は有限とは限りません。もう一つの問題は、ゲームの場合には非常に有効だった、機械と機械を戦わせて膨大な対戦データを自動的に蓄積して、それを機械の訓練に利用する手法(それを、「セルフ・プレイ」といいます)が使えないことです。

この二つのことから、ゲームでは成功を収めた「強化学習の方法を形式的な数学に、素朴に適用することは成功しそうにない。」といいます。彼らは、この論文では二つ目の「セルフ・プレイ」の問題にフォーカスしています。

「二つ目の問題に取り組む上で基礎となるのは、セルフ・プレイのもっとも重要な役割は、それが教師なし学習のカリキュラムを提供していたという観察である。我々は、それらの代わりに、様々のレベルの難しさからなる補助的な問題群を(証明を要求することなく)提供することを提案する。」

彼らが提案していることは、セルフ・プレイが生成する訓練用データの代わりなるようなデータを提供するということです。

「証明なしでも構わない」と言ってることが気になる人もいると思いますが、それは問題ないと思います。なぜなら、そこで提供されるのは、「証明が存在しない」ような、すなわち「偽」である命題ではなく、正しいことが保障されている問題だけだからです。

数学の証明問題で、「ピタゴラスの定理」を使ったとして、その度に、「ピタゴラスの定理」の証明を繰り返す必要はありません。いったん証明された定理は、その後は、証明なしでも使うことができます。

「これらの補助的な問題の難易度が、十分に多様なものであれば、単純な学習の繰り返しの手順で、だんだんと難しくなる問題のカリキュラムを解くことができることを、我々は経験的に示した。」

大事なことは、「これらの補助的な問題の難易度が、十分に多様なもの」であることです。

それでは、こうした「補助的な問題群」は、どのようにして作られたのでしょうか? 注目すべきことは、今回のOpen-AI Theorem Proverでは、人間が手動で編集したデータが使われているということだと思います。

「我々の結果は、形式的数学が絶えず継続的にその姿を改善していることは、今回は部分的に手動で行った形式的命題の集合を生成する問題に、潜在的に還元できることを示唆している。」

【「難しさにどう立ち向かうか?」を公開しました 】

https://youtu.be/ESAen9DLfAA?list=PLQIrJ0f9gMcPP8LOejaQQlYufAMEQbcdg

スライドのpdfは、こちらからアクセスできます。https://drive.google.com/file/d/1tEEUmZRGH37tnbmcvliWGqtQ-ih4XqoA/view?usp=sharing

このトピックのまとめページは、こちらです。ほぼ毎日更新されると思います。https://www.marulabo.net/docs/math-proof/

セミナーへのお申し込みは、こちらからお願いします。
https://math-proof.peatix.com/

コメント

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

人間は、善と悪との重ね合わせというモデルの失敗について