NTTグループの音声処理技術

9月 15, 2017

Echo / Alexa の日本上陸直前なのだが、迎え撃つ日本勢の中で、僕はNTTグループの音声ソリューションの取り組みに注目している。https://goo.gl/XAHuWs　日本語でなら、speech2textもtext2speechも、日本製のプロダクトの方が、クオリティーが高いと思っているので。

事実、NTTグループは、2015年の国際音声認識コンテストで、いい成績をおさめている。「公共エリア雑音下でのモバイル音声認識の国際技術評価で、世界1位の精度を達成」NTT持ち株会社ニュースリリース https://goo.gl/7FQxD9 （2016年の結果はこちら。https://goo.gl/PE7GPb　三菱や日立の研究者も頑張っている。）

NTT傘下のdocomoも、NTT研究所の技術をベースに、AI向けのAPIを、多数公開している。GoogleやMicrosoftのRecognition APIと比べて、音声系が多いのが一つの特徴かもしれない。これは、面白いことだ。音声認識APIのSDKは、https://goo.gl/iZuFqJ　から、無料で簡単に入手できる。

これは、とてもいいことだと思う。スマホ（AndroidでもiOSでも）の開発者は、音声入出力を用いたアプリを簡単に作ることができるのだから。日本の開発者の活躍に期待したい。

音声認識の技術は、昔から、日本は進んでいたと思う。Googleの音声検索が登場した時、僕のまわりの人は、「技術では先行していたのに。」「技術で勝って、サービス化で負けた」と大いに悔しがっていた。（もっとも、検索技術については、全く負けていたのだが。）

ただ、echo / alexa と「戦う」ためには（ジェフ・ベソスは、「戦争が迫っている」と言っているのだから。http://goo.gl/rR5BqP ）、少し気になることもある。

一つは、提供されているサービスの粒度が、高機能だとしても、少し細かい。echo / alexa のプログラミングでは、speech2textもtext2speechのAPIも意識する必要はない。それは、ボイス・アシスタント・システムの「開発のしやすさ」に大きく影響する。開発は、簡単な方がいいのだ。

それは、どのサービスが音声サービスの中核なのかというビジネス上の課題の設定を避けていることにも起因していると思う。汎用性には欠けていて、できることは限られていても、alexa の「スキル」を皆で作ろうという呼びかけの方が、わかりやすい。

現在のAIの自然言語処理技術では、できることは限られている。そこは、単純に割り切って、それでも、デファクトの音声インターフェースとそのエコシステムが成立することの意味は大きい。

最後に、echo / alexa のビジネス・モデルは、echo というアプライアンス（ハードウェア）の上に成り立っていることを忘れるわけにはいかない。具体的なデバイスの存在が、サービスの集中を可能にしている。そのことを意識しないと、競争にならない。

よく、「スマート・スピーカー」と言われるが、僕は、今後普及するのは、echo ではなくecho show だと思っている。それなら、キャリアがサービスにバンドルして配布しているAndroidタブレット上に、echo show ライクなキラー・アプリケーションを作って、その開発環境を広めることはできる。　（マイクやスピーカーの性能の問題もあるのだが、それは、別の問題だ）

ポイントは、僕のタブレッット（Amazon Fire HDは、4,980円だった）並みの低価格で、ハードウェアを作れるかということだ。（今見たら、ドコモのタブレット、高いじゃないか！）

日本メーカーがどんどんスマートフォン市場から撤退する中で、また、家電メーカーも元気がない中で、ここにはまだ、チャンスはあるのでは？　

まだ、勝負はついていないと、僕は思っている。

NTTさんの技術を褒めようと思って描き始めたのだが、最後は、愚痴みたいになったかな？　今度のセミナーにいらしてください。

このブログを検索

過去・現在・未来

NTTグループの音声処理技術

コメント

コメントを投稿

このブログの人気の投稿

初めにことばありき

密度行列とは何か？

「複雑性理論」は「複雑系」の議論とは別のものです