情報の共有と情報の集積

 


【 情報の共有と情報の集積 】

21世紀初頭の四半世紀は、現在のBig Tech の覇権が確立した時期でした。同時にこの時期は、20世紀末から始まったインターネット上のオープンな情報共有が、史上例を見ないほどに拡大した時期でもあります。そのいくつかを見ておきましょう。

【 arXiv 】

1991年8月14日に開始されたarXiv.orgは、査読なしで科学論文を公開するサイトですが、その掲載論文数は、2008年10月3日に50万件を突破し、2014年末までに100万件、2021年末までに200万件に達しました。 2024年11月現在、投稿数は月間約24,000件だと言います。数学や物理学の多くの分野では、査読付きジャーナルに掲載される前に、ほぼ全ての論文がarXivリポジトリに自己アーカイブされていま( https://en.wikipedia.org/wiki/ArXiv より )

【 GitHub 】

GitHub  は、開発者がコードを作成、保存、管理、共有できる開発者向けプラットフォームです。一般的にオープンソースソフトウェア開発プロジェクトのホスティングに利用されています。2023年1月時点で、GitHubは1億人以上の開発者と4億2000万以上のリポジトリ(少なくとも2800万の公開リポジトリを含む)を擁すると報告しています。2024年には500万以上のオープンソースプロジェクトに対し、50億件以上の開発者の貢献が行われたと言われています。( https://en.wikipedia.org/wiki/GitHub より )’

WikiPedia

2001年にジミー・ウェールズとラリー・サンガーによって創設された WikiPedia は、史上最大かつ最も読まれている参考書であると言われています。当初は英語版のみでしたが、現在では340以上の言語で提供され、世界で9番目にアクセス数の多いウェブサイトに成長しています。英語版ウィキペディアは700万以上の記事を擁し最大ですが、全部の言語版を合わせると6500万以上の記事があり、2024年4月時点で月間15億以上のユニークデバイスアクセスと1300万回の編集アクセスを集めていると言います。
https://en.wikipedia.org/wiki/Wikipedia より)

SNS

現在のネットワーク上の情報共有で、もっともトラフィックが多いのは、SNSだと思います。また、現代社会でのそれが果たしている役割は、独特なものです。ただ、「機械が言語能力を獲得した」ことを言語の歴史の中でどう考えるかというテーマからは、少し離れたトピックだと僕は考えています。もっとも言語の利用に関わるIT技術の変化では、SNSの登場は大きな役割を果たしてきました。今後の展開の中で、折に触れて考えていきたいと思います。当面の僕の関心は、「累積的な知」の変化にあります。

【 情報共有の飛躍的な拡大が、巨大な情報の集積を生み出した 】

重要なことは、インターネット上の情報共有の飛躍的な拡大が、インターネット上に巨大な情報の集積を生み出したことです。この情報の集積・蓄積の過程は、ある時期までは人間同士の情報共有の副産物にすぎなかったかもしれません。

より重要なことは、この情報の集積・蓄積の過程が、「機械にも読むことのできる」機械可読な情報の集積・蓄積の過程として進行したことです。

Wikipediaのページ ”List of datasets for machine-learning research
https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research に、機械が学習可能なデータを公開しているポータルとデータセットの膨大なリストがあります。

【 機械可読な情報の集積・蓄積が、生成AIと大規模言語モデルを準備した 】

ネットワークに蓄積された情報は、人間だけでなく機械にとっても可読であり、また、ネットワークへのアクセスは人間だけでなく機械にとっても容易に利用可能です。

こうした条件は、ネットワーク上の情報の交換・蓄積・共有の過程にとって、これまでは人間の役割を補完するささやかな「代理人」に過ぎなかった機械の能力(かつて、Webの世界ではブラウザーのことをAgentと呼んでいました)が 、自律的なものとして飛躍的に発展する時代を準備しました。こうして登場したのが、現代のAI技術です。

「機械可読」な情報の集積こそが、2010年代のDeep Learning の時代から2020年代の大規模言語モデルを中核とした新しいAI技術の時代への飛躍を可能にしました。

【 文字と文字コード 】

前回予告した、話し聴くことば → 読み書きする文字 → ? の話、言語の第三の形態はどういうものかの話、まだしていませんでした。

一つの候補は、ことばを機械にも理解可能にした最初の貢献者は、機械上で文字を表現する「文字コード」です。文字と文字コードは違うものです。でも、ことば → 文字 → 文字コード じゃ、あまり、面白くありません。

予告した約束を破るのもなんなので、僕が考えている言語の第三番目の形態の候補を、説明抜きで述べてみたいと思います。

僕は、それを Embedding (ことばの多次元ベクトルによる数値表現)だと考えています。詳しくは次回に。


コメント

このブログの人気の投稿

初めにことばありき

密度行列とは何か?

「複雑性理論」は「複雑系」の議論とは別のものです