![ライブキャプションの仕組み。 NLPとスピーチからテキストへの説明!](https://i.ytimg.com/vi/jDO9nVydUHs/hqdefault.jpg)
コンテンツ
ライブキャプションは、これまでで最もクールなAndroid機能の1つです。デバイス上の機械学習を使用して、ローカルビデオやWebクリップのキャプションを生成します。
Googleは、この気の利いた機能がどのように機能するかを詳細に説明するブログ投稿を公開しました。実際には、初心者向けの3つのデバイス上の機械学習モデルで構成されています。
音声認識自体にはリカレントニューラルネットワークシーケンストランスダクション(RNN-T)モデルがありますが、Googleは句読点の予測にもリカレントニューラルネットワークを使用しています。
3番目のデバイス上の機械学習モデルは、鳥のさえずり、人の拍手、音楽などのサウンドイベントのたたみ込みニューラルネットワーク(CNN)です。 Googleは、この3番目の機械学習モデルは、音声および音声イベントを文字起こしできるLive Transcribeアクセシビリティアプリでの作業から派生したと言います。
ライブキャプションの影響を軽減する
同社によれば、Live Captionのバッテリー消費とパフォーマンス要求を削減するために多くの対策を講じているという。1つは、完全自動音声認識(ASR)エンジンは、音声が実際に検出されたときにのみ実行され、バックグラウンドで常に実行されるのではありません。
「たとえば、音楽が検出され、音声ストリームに音声が存在しない場合、ラベルが画面に表示され、ASRモデルがアンロードされます。 ASRモデルは、音声が再び音声ストリームに存在する場合にのみメモリに読み込まれます」とGoogleはブログ投稿で説明しています。
Googleは、ニューラル接続のプルーニング(音声モデルのサイズを削減)などの技術も使用しており、消費電力を50%削減し、Live Captionを継続的に実行できます。
Googleは、キャプションが形成されると音声認識結果が毎秒数回更新されるが、句読点の予測は異なると説明しています。検索の巨人は、リソースの需要を減らすために、「最後に認識された文のテキストの末尾に」句読点予測を提供すると言います。
ライブキャプションは、Google Pixel 4シリーズで利用可能になりました。Googleは、Pixel 3シリーズおよびその他のデバイスで「まもなく」利用可能になると述べています。同社はまた、他の言語のサポートとマルチスピーカーコンテンツのより良いサポートに取り組んでいると言います。