投稿

日本語WordNetのサーバーがシンガポールにあるのが悲しい

小川 さんから指摘されて、日本語WordNetのサーバーがシンガポールにある理由を調べて見たんですが、理由がわかりました。(多分)

このプロジェクトをNICTで推進していたFrancis Bond 氏が、シンガポールの大学にうつったからですね。http://www.ntu.edu.sg/home/fcbond/prof.html

ということは、日本では、日本語WordNet メンテされてないんだ。ひどいな。なんてこった。

「Botづくりを始める前に(4)」を書いていて、「まず、bAbiに対応する推論訓練用の日本語データセット作ろう」とか、書いていたんだけど、バカバカしくなって、書くのやめました。

ImageNetのラベルには、WordNetのIDがふられています。自国語辞書の整備は、自然言語処理の基本中の基本です。そんなこともできないで「日の丸人工知能」なんか、できっこないと思います。

Botづくりを始める前に(3)

人工知能と検索技術 人工知能と検索技術の関係では、GoogleのLarry Pageの次のような発言が興味ふかい。 「Googleの検索エンジンが、AIによって完全なものになったときにのみ、Googleのミッションは、完遂されるだろう。あなたたちは、それが何を意味するのか知っている。それが人工知能なのだ。」 「人工知能は、Googleの最終バージョンになるだろう。Web上のすべてのものを理解するだろう究極の検索エンジンは、あなたが望むものを正確に理解するだろうし、あなたに正しいものを与えるだろう。我々は、今は、そうしたことをするのには、遠いところにいる。ただ、我々は、少しずつ、それに近ずくことはできる。我々が取り組んでいることは、基本的には、そのことなのだ。」 「検索における我々の大きな目標は、人が望むものを、実際に正確に理解し、世界のすべてのものを理解することである。コンピューター科学者として、我々は、それを人工知能と呼ぶ。」 ここでは、Googleの検索と人工知能の目標が、一致することが主張されている。個々の画像の認識や、個別の文章の意味の理解だけではなく、世界のすべてのものを理解するのが、Googleの検索と人工知能の目標になる。

その主体は、Googleだとも読めるのだが、そこまで言わなくても、人工知能の主体は、ネットワーク上に存在することになる。これはこれで、狭い意味のディープ・ラーニング的な人工知能観とは異質な、しかしながら、重要な観点である。
グラフ検索とEntity ModelとSchema.org 先に見た、第二のタイプのBotを考えるとき、2010年代に起きた検索技術の変化が、大きな意味を持つことに気づく。
それまでの検索は、crawlerが収集したweb上の膨大なテキストから、文字列を探し出し(indexingにバッチのmapreduceを使う)、その文字列を含むURLを適当な順番(pagerank ここでもmapreduce)で返すシステムであった。
2010年代に検索に起きた変化は、まず、Indexingのリアル・タイム化であり、それに続くグラフ検索の手法の導入である。GoogleのKnowledge Graphは、Entity Modelで構成された巨大なグラフを、おそらくは、Google のグラフ検索エンジンPregel で検索して…

Botづくりを始める前に(2)

Botの機能の三つのタイプ パーソナル・アシスタント・システムのボイス・インターフェースとしてのBotの役割は、機能面で大きく三つのタイプに分けられる。

第一のタイプは、もともとのハードウェアやアプリが持っていた、入出力インターフェースのボイス化を目的とするBotである。これは、問題(「会話」)のドメインも限られており、実装は比較的容易である。

第二のタイプは、「情報」や「知識」を、ボイスを通じて提供するタイプのBotである。現在の「音声検索」と共通の技術である。このBotを可能にするバックグラウンドの検索エンジンの開発は容易ではない。ただ、Bot(広くは人工知能技術)と検索の関係は、ディープ・ラーニングのブームの陰に隠されている感があるのだが、重要で深いものだ。

第三のタイプは、第一でも第二のタイプでもない、いわば、「汎用の会話Bot」である。多くのコンシューマが期待しているのはこのタイプなのかもしれないし、多くの企業と開発者が夢見ているのも、このタイプかもしれない。ただ、この1, 2年で、この機能を実現できることはないだろう。

第三のタイプでは、現時点で現実的に可能なことは、「ああいえば、こういう」という人の手による「シナリオ」を、できるだけ沢山かき集めることに帰着するだろう。

「人工知能」という触れ込みなのに、蓋を開けてみたら、中に沢山の小人さん(といっても、普通の人間)が詰め込まれていて、「ああ言われれば、こう言う」というシナリオづくりに汗をかいているだけという、笑えないことになる。(まあ、「戦争」に勝つには、それも必要なのかもしれないが。)
何から始めるべきか? 第一のタイプから。 僕がエンジニアに勧めたいのは、第一のタイプのBotでスキルを高めておくことだ。

Iotでハードを作っている人は、そのハードのインターフェースのボイス化に挑戦する。スマートフォン・アプリやWebアプリを作っている人は、そのアプリのインターフェースのボイス化に挑戦する。部分的なものでいいのだ。

ポイントは、二つあると思う。

一つは、自作ハードであれ、Webアプリであれ、スマートフォンからのコントロールを追求すること。様々な、ボイス・アシスタンスのアプライアンスが登場すると思うのだが、我々にもっとも身近なプラットフォームは、スマートフォンだ。

そうしたスマートフォンからのハード、…

Botづくりを始める前に(1)

AmazonのEcho/Alexaの日本上陸を前にして、それを迎え討つべくDoCoMo・Line等の日本勢の動きも、開発者レベルでは慌ただしい。

ただ、これはグローバルな競争の一環だ。すでに、昨年5月に開催されたAmazon Code Conference で、Jeff Bezosは、「ボイス・アシスタントの熱狂的な流行は、すぐ、そこまで来ている。」として、壇上から、 Apple, Google, Amazon製品の「戦争」が迫っているとほのめかした。http://goo.gl/rR5BqP

 「ボイス・アシスタント」技術の周辺にみられる二つの期待を確認しておこう。

第一に、機械と人間のインターフェースが、人間と人間の通常のインターフェースと同じように、音声中心のものになっていくという期待がある。
第二に、そうしたインターフェースの変化は、機械が賢くなるということなのだが、それは、ディープ・ラーニングを中心とする人工知能技術によって可能になるという期待がある。

ただ、ディープ・ラーニング技術に限って言えば、現在のディープ・ラーニング技術が、ボイス・アシスタントの分野で確実に達成できることは、音声を文字列に変換するところまでである。変換された文字列をどう処理すべきかは、現在のディープ・ラーニング技術は、何も教えてくれないと考えたほうがいいのだ。

そのことは、現在のディープ・ラーニング技術の最先端である、Google Deep MindのDifferentiable Neural Computerや、FacebookのMemory Networkが、bAbiデータセットと悪戦苦闘していることを見ればよくわかる。小学4年生程度の国語の問題をうまくハンドルすることが、現実的には、最先端の課題なのだ。

逆に、彼らの研究を突き動かしている最大の力は、ビジネス的には、ボイス・アシスタントを巡る競争での優位の確保である。

それにもかかわらず、ある種の幻想に突き動かされて「戦争」は、始まるだろう。多くのエンジニアが、それに巻き込まれるだろう。

楽観的には、こうして流される「血と汗」の上に、新しい技術が生まれると考えることもできなくはないのだが、こうした「理性の狡知」流の楽観論は、現実的には悲観論者の諦觀でしかない。

どうせ、「血と汗」を流すなら、できるだけ、筋のいい方向で頑張ったほ…

バングラディッシュからの留学生

イメージ
昨日は、PE-BANKさんのイベントで講演だったのだが、古い友人と再会した。 10年以上前、僕が働いていたwakhokの東京サテライト校にバングラディッシュから留学したRito Ahmed君だ。彼によると8年ぶりだという。元気で、日本で働いていた。嬉しい。 彼とは、英語で話していたはずだが、流暢な日本語の使い手になっていた。バングラの一流大学に在籍していた、もともと優秀な学生だった。 あのころ、アジアの各地を飛び回っていた。熱意のある大学人、優秀な若者にコンタクトできて、楽しかった。カトマンズでJavaのプログラム・コンテストをしたこともある。優勝したのは高校生だった。あの天才君は、いまどうしているのだろうか。 当時、ネパール、バングラディッシュを中心に、100名近い留学希望者を集めたのだが、入管が「不法就労」を疑って、入国できたのは10名にも満たなかった。 日本でIT技術を学びたいという彼らの期待に、僕は応えることができなかった。僕は、大学を辞めた。 「まだ、東京で消耗しているの」というフレーズがあるらしいのだが、田舎にいたって消耗はする。東京に活動の拠点を移してからは、アメリカには嫌になる程行ったけど、アジアの田舎には、パタリと行かなくなった。 ダッカでご馳走になった料理は(なぜかワインも飲めた)、僕の外国旅行で最高のディナーだった。また、ロブスター食べたいな。

年齢を実感する時

「老人力」が、高まっているのか、自分の歳も忘れていることがある。
でも、この前、居酒屋でお店の会員になることを勧められて、忘れていたことが、具体的に、よくわかった。
「当店の会員になって、お誕生月にご来店頂けると、お歳の数の個数の餃子、無料で差し上げます。」 来年3月、この店にいったら、餃子 70個食べなきゃいけない。
なんてこった。

白熱塾「AI関連に興味のある就活生とAIに取り組んでいる社会人の座談会」

イメージ
昨日は、 成迫 さんの白熱塾「AI関連に興味のある就活生とAIに取り組んでいる社会人の座談会」https://goo.gl/ck1SsUで、話をする。
僕の講演 「AI技術の現在」の資料はこちら。短いものなので、どうぞ、お読みください。https://goo.gl/Z5CQMz
AIに取り組んでいるIT企業の人の話が、それぞれ、「ああ、こういうふうに、ビジネスを構成しようとしているのか」ということがわかって、おもしろかった。 時代と技術と会社の履歴の上につくられた、ある種の「集合知」なのだが。(登壇者が、ぽろっと漏らす、個人としての意見は、もっと面白かった。) そういえば、AIについては、IT企業の人と、あまり話をしていないことに気づく。僕の関心は「広い」ほうと、「深い」ほうに分かれている。(あまり、よくないことなのかも。) でも、AI技術普及の現実的な担い手は、大会社であれベンチャーであれ、IT企業なんだと、あらためて思う。(当たり前か。なにを今更。) 今度、MaruLaboへの支援のお願いで、IT企業、回ってみようと思う。 打ち上げの写真で、フレームアウトしていた 浦本 さんの写真を追加しました。