情報の共有と情報の集積
【 情報の共有と情報の集積 】
21世紀初頭の四半世紀は、現在のBig Tech の覇権が確立した時期でした。同時にこの時期は、20世紀末から始まったインターネット上のオープンな情報共有が、史上例を見ないほどに拡大した時期でもあります。そのいくつかを見ておきましょう。
【 arXiv 】
1991年8月14日に開始されたarXiv.orgは、査読なしで科学論文を公開するサイトですが、その掲載論文数は、2008年10月3日に50万件を突破し、2014年末までに100万件、2021年末までに200万件に達しました。 2024年11月現在、投稿数は月間約24,000件だと言います。数学や物理学の多くの分野では、査読付きジャーナルに掲載される前に、ほぼ全ての論文がarXivリポジトリに自己アーカイブされていま( https://en.wikipedia.org/wiki/ArXiv より )
【 GitHub 】
GitHub は、開発者がコードを作成、保存、管理、共有できる開発者向けプラットフォームです。一般的にオープンソースソフトウェア開発プロジェクトのホスティングに利用されています。2023年1月時点で、GitHubは1億人以上の開発者と4億2000万以上のリポジトリ(少なくとも2800万の公開リポジトリを含む)を擁すると報告しています。2024年には500万以上のオープンソースプロジェクトに対し、50億件以上の開発者の貢献が行われたと言われています。( https://en.wikipedia.org/wiki/GitHub より )’
【 WikiPedia 】
2001年にジミー・ウェールズとラリー・サンガーによって創設された WikiPedia は、史上最大かつ最も読まれている参考書であると言われています。当初は英語版のみでしたが、現在では340以上の言語で提供され、世界で9番目にアクセス数の多いウェブサイトに成長しています。英語版ウィキペディアは700万以上の記事を擁し最大ですが、全部の言語版を合わせると6500万以上の記事があり、2024年4月時点で月間15億以上のユニークデバイスアクセスと1300万回の編集アクセスを集めていると言います。
( https://en.wikipedia.org/wiki/Wikipedia より)
【 SNS 】
現在のネットワーク上の情報共有で、もっともトラフィックが多いのは、SNSだと思います。また、現代社会でのそれが果たしている役割は、独特なものです。ただ、「機械が言語能力を獲得した」ことを言語の歴史の中でどう考えるかというテーマからは、少し離れたトピックだと僕は考えています。もっとも言語の利用に関わるIT技術の変化では、SNSの登場は大きな役割を果たしてきました。今後の展開の中で、折に触れて考えていきたいと思います。当面の僕の関心は、「累積的な知」の変化にあります。
【 情報共有の飛躍的な拡大が、巨大な情報の集積を生み出した 】
重要なことは、インターネット上の情報共有の飛躍的な拡大が、インターネット上に巨大な情報の集積を生み出したことです。この情報の集積・蓄積の過程は、ある時期までは人間同士の情報共有の副産物にすぎなかったかもしれません。
より重要なことは、この情報の集積・蓄積の過程が、「機械にも読むことのできる」機械可読な情報の集積・蓄積の過程として進行したことです。
Wikipediaのページ ”List of datasets for machine-learning research”
https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research に、機械が学習可能なデータを公開しているポータルとデータセットの膨大なリストがあります。

コメント
コメントを投稿