Quantizable Model and Quantized Inference

One of the main challenges in deploying our Neural Machine Translation model to our interactive production translation service is that it is computationally intensive at inference, making low latency translation difficult, and high volume deployment computationally expensive. Quantized inference using reduced precision arithmetic is one technique that can significantly reduce the cost of inference for these models, often providing efficiency improvements on the same computational devices. For example, in [43], it is demonstrated that a convolutional neural network model can be sped up by a factor of 4-6 with minimal loss on classification accuracy on the ILSVRC-12 benchmark. In [27], it is demonstrated that neural network model weights can be quantized to only three states, -1, 0, and +1

インタラクティブな製品版の翻訳サービスにニューラル機械翻訳モデルを導入する際の主な課題の1つは、推論時に、計算が集中して、低遅延の翻訳が難しく、高価な計算装置を大量に配置することが必要になることである。
精度の低い算術演算を使用した量子化された推論は、これらのモデルの推論のコストを大幅に削減することができ、同じ計算装置で効率を改善する1つの手法である。
例えば[43]では、ILSVRC-12ベンチマークでのクラス分けの精度の低下を最小限に抑え、CNNモデルを4〜6倍高速化できることが示されている。 [27]では、ニューラルネットワークモデルの重みは、-1、0、+ 1の3つの状態だけに量子化できることが示されている。


コメント

このブログの人気の投稿

TPU論文の翻訳(1)

可微分ニューラルコンピュータとは何か(1) 概論

TensorFlow Foldについて