Android 10のライブキャプションの実際の仕組みは次のとおりです

著者: Peter Berry
作成日: 16 Lang L: none (month-012) 2021
更新日: 1 J 2024
Anonim
ライブキャプションの仕組み。 NLPとスピーチからテキストへの説明!
ビデオ: ライブキャプションの仕組み。 NLPとスピーチからテキストへの説明!

コンテンツ


ライブキャプションは、これまでで最もクールなAndroid機能の1つです。デバイス上の機械学習を使用して、ローカルビデオやWebクリップのキャプションを生成します。

Googleは、この気の利いた機能がどのように機能するかを詳細に説明するブログ投稿を公開しました。実際には、初心者向けの3つのデバイス上の機械学習モデルで構成されています。

音声認識自体にはリカレントニューラルネットワークシーケンストランスダクション(RNN-T)モデルがありますが、Googleは句読点の予測にもリカレントニューラルネットワークを使用しています。

3番目のデバイス上の機械学習モデルは、鳥のさえずり、人の拍手、音楽などのサウンドイベントのたたみ込みニューラルネットワーク(CNN)です。 Googleは、この3番目の機械学習モデルは、音声および音声イベントを文字起こしできるLive Transcribeアクセシビリティアプリでの作業から派生したと言います。

ライブキャプションの影響を軽減する

同社によれば、Live Captionのバッテリー消費とパフォーマンス要求を削減するために多くの対策を講じているという。1つは、完全自動音声認識(ASR)エンジンは、音声が実際に検出されたときにのみ実行され、バックグラウンドで常に実行されるのではありません。

「たとえば、音楽が検出され、音声ストリームに音声が存在しない場合、ラベルが画面に表示され、ASRモデルがアンロードされます。 ASRモデルは、音声が再び音声ストリームに存在する場合にのみメモリに読み込まれます」とGoogleはブログ投稿で説明しています。

Googleは、ニューラル接続のプルーニング(音声モデルのサイズを削減)などの技術も使用しており、消費電力を50%削減し、Live Captionを継続的に実行できます。

Googleは、キャプションが形成されると音声認識結果が毎秒数回更新されるが、句読点の予測は異なると説明しています。検索の巨人は、リソースの需要を減らすために、「最後に認識された文のテキストの末尾に」句読点予測を提供すると言います。

ライブキャプションは、Google Pixel 4シリーズで利用可能になりました。Googleは、Pixel 3シリーズおよびその他のデバイスで「まもなく」利用可能になると述べています。同社はまた、他の言語のサポートとマルチスピーカーコンテンツのより良いサポートに取り組んでいると言います。


Huaweiの米国での取引禁止により、会社のAndroidの更新が複雑になりましたが、90日間の猶予がこの点で役立ちました。ファーウェイは、Android QをP30シリーズに搭載することを確認しました。製造業者は、自社のWebサイトのHuawei Anwerページでこの発表を行い、製品の更新状況を明確にしました。...

Huaweiは本日、Weiboで、GoogleのPixelスマートフォンがアップデートを入手した直後に8台のスマートフォンがAndroid Qを入手すると発表しました。Android Qで最初のディブを獲得できる幸運なHuawei社の携帯電話は、Mate 20シリーズ(Mate 20、Mate 20 Pro、Mate 20 X、Mate 20 R Porche Deign)、P30シリーズ(P30...

人気のある記事