Arm Cortex-A77-知っておくべきことすべて

著者: Randy Alexander
作成日: 2 4月 2021
更新日: 1 J 2024
Anonim
PowerVRGPUについて知っておくべきことすべて
ビデオ: PowerVRGPUについて知っておくべきことすべて

コンテンツ


新しいMali-G77グラフィックプロセッサとMali-D77ディスプレイプロセッサに加えて、Armは最新の高性能CPUデザインであるCortex-A77を発表しました。昨年のCortex-A76と同様に、Cortex-A77はArmの特徴的な低電力消費を要求するプレミアムティアアプリケーション向けに設計されています。スマートフォンからラップトップに至るまで、さらにそれを超える可能性があります。

Cortex-A77では、ArmはCortex-A76で管理できるサイクル/クロック(IPC)あたりの最大命令パフォーマンスの向上を目標にしています。クロック周波数、消費電力、および面積はすべて、ほぼ同じ球場にとどまるように設計されていますが、新しいコアは一度により多くの命令を処理できます。これを行うために、Armは昨年よりもさらに幅の広いコアを設計し、CPUコアに実行すべきことを提供するために多くの改善を行いました。しかし、その前に、概要とパフォーマンスの数値を詳しく見ていきましょう。

パフォーマンス目標の達成

2018年8月に、Armは2020年までCPUロードマップを特徴的に共有しました。2016年のCortex-A73から2020年の「Hercules」設計まで、同社は計算パフォーマンスの2.5倍の増加を約束しています。この巨大な投影のかなりの部分は、Cortex-A76による主要なマイクロアーキテクチャシフト、より高速なクロックスピード、および16から10への移行、そして5 nmを伴う7 nm製造によって達成されました。ロードマップの約1.8倍のゲインは、昨年までにすでに達成されており、Cortex-A77はIPCを約20%向上させます。これによりArmの2.5倍の目標を達成できますが、電力と熱の予算が限られているモバイルデバイスでは、これらすべての利益を期待することはできません。

比較のために、昨年のCortex-A76は、Cortex-A75よりも約30〜35%向上しました。今年は、A77とA76の間で、IPCが20%ほど落ち着いてはいるものの、まだ大幅に増加することを検討しています。これは、以前と同様の熱および電力の制約を守りながら、より多くのパフォーマンスを意味するため、朗報です。トレードオフは、A77がA76よりも約17%大きいため、シリコン面積の点でもう少しコストがかかることです。デスクトップリーダーと比較したい場合、AMDはZen2とZen +の間で15%のIPCブーストを管理しましたが、IntelのIPCは何年もほぼ静的なままです。もちろん、ここではさまざまな市場セグメントについて話していますが、これは、ArmのCPU設計チームが最近の世代で印象的な成果を上げていることを示しています。


次世代のCortex-A77ベースのSoCで20%の性能向上が提供されます

ここで重要なことは、A76が大幅なパフォーマンスの向上を伴う主要なマイクロアーキテクチャの変化を示した一方で、A77による最適化レベルの改善に戻ったことです。それが終わったら、Arm Cortex-A77の新機能に飛び込みましょう。

Cortex-A77はA76マイクロアーキテクチャ上に構築されます

Cortex-A77とA76の違いを理解する鍵は、「より広い」コア設計の意味を理解することです。基本的に、各クロックサイクルでより多くの命令を実行する機能について話しているため、コアのスループットが向上します。これを正しく行うには2つの重要な部分があります。処理を実行する実行ユニットの数を増やし、これらのユニットにデータが十分に供給されるようにすることです。後半から始めて、SoCのディスパッチ、キャッシュ、分岐予測の各部分に焦点を当てましょう。

Cortex-A77では、ディスパッチ幅が50%増加します。A76の場合、4からサイクルあたり最大6命令です。つまり、各クロックサイクルで実行コアに向かう命令が増え、パフォーマンスが向上します。その結果、アウトオブオーダー実行ウィンドウも大きくなり、160エントリに増加して、より多くの並列処理が公開されます。おなじみの64K命令キャッシュがありますが、分岐予測子のアドレスを保持する分岐ターゲットバッファー(BTB)は、並列命令の増加を処理するために以前より33%大きくなっています。ここでは珍しいことではありませんが、本質的には昨年のデザインのより広いバージョンです。

より魅力的なフロントエンドの追加は、デコードユニットからフィードバックされるマクロ操作(MOP)を保存するまったく新しい1.5K MOPキャッシュです。 ArmのCPUアーキテクチャは、ユーザーのアプリケーションからの命令をより小さなマクロ操作にデコードし、さらに実行コアが理解できるマイクロ操作にデコードします。これは、上の図のデコードセクションで確認できます。 MOPキャッシュは、マクロオペレーションを再度デコードするのではなく保持し、コアの全体的なスループットを向上させるため、欠落したブランチとフラッシュのコストペナルティを削減するために使用されます。 iキャッシュではなくMOPからフェッチすると、デコードステージがバイパスされ、1サイクル節約されます。 Armは、MOPキャッシュはさまざまなワークロードで85%以上のヒット率を達成できると述べており、標準iキャッシュへの追加として非常に便利です。


CPUの実行コア部分に移動して、4番目のALUと2番目の分岐ユニットが追加されていることに注意してください。この4番目のALUは、プロセッサの一般的な数値処理帯域幅を50%向上させます。この追加のALUは、基本的な1サイクル命令(ADDやSUBなど)に加えて、乗算などの2サイクル整数演算が可能です。他の2つのALUは基本的な1サイクルの命令しか処理できませんが、最終ユニットは除算、積和などのより高度な数学演算を担当します。実行コア内の2番目の分岐ユニットは同時分岐ジャンプの数を2倍にしますコアは処理できます。これは、ディスパッチされた6つの命令のうち2つが分岐ジャンプである場合に便利です。これは少し奇妙に聞こえますが、Armの内部テストでは、この2番目のユニットを採用することによるパフォーマンス上の利点が明らかになりました。

Cortex-A77では、並列処理が改善され、プリフェッチキャッシュが新しくなりました。

CPUコアのその他の調整には、2番目のAES暗号化パイプラインの追加が含まれます。データストアパイプラインは、メモリ発行帯域幅を2倍にする専用発行ポートを備えています。これらのポートは以前ALUと共有されていたため、ボトルネックになることがありました。また、システムのDRAMの帯域幅を増やしながら、電力効率を改善する次世代のデータパーフェクターもあります。

Cortex-A77のこのシステムの一部には、まったく新しい「システム対応」プリフェッチシステムも搭載されています。これにより、幅広いCPUコア数、キャッシュ容量とレイテンシ、および最終デバイス内のメモリサブシステム構成に基づいてメモリパフォーマンスが向上します。共有L3キャッシュの使用を監視するDynamIQ CPUクラスターの一部としてDynamic Sc​​heduling Unit(DSU)と通信する専用ハードウェア。コアは、L3帯域幅が他のCPUコアによって制限されている状況でのキャッシュ使用率を削減するために、動的距離と積極性レベルを備えています。 Cortex-A77などの高性能コアは、メモリへのDSUアクセスを飽和させる可能性が高く、A55などの低電力コアはそうではありません。

すべてを組み合わせて

Cortex-A77には多くの小さな変更が加えられており、その結果、前任者との大きな違いがいくつかあります。簡単に言えば、A77sの新しいMOPキャッシュは、より長くより長い命令ウィンドウと組み合わされて、強化されたALU、ブランチ、およびメモリユニットがやるべきことで忙しくなり続けるのに役立ちます。強力なCortex-A76の設計は、A77を使用することでスループットをさらに向上させるために拡張され、より高いクロック速度に依存しません。

Cortex-A77の最大のパフォーマンス向上は、整数と浮動小数点演算の形式で提供されます。これはArmの内部ベンチマークで確認されており、SPEC整数および浮動小数点ベンチマークでそれぞれ20〜35%のパフォーマンス向上を示しています。メモリ帯域幅の改善は15〜20%の間にあり、ここでも最大の増加は数値処理の形でもたらされることを強調しています。全体として、これらの改善により、A77は前世代よりも平均20%向上しました。また、今年後半または2020年初頭に、より高度な7nm製造プロセスの結果として、さらにわずかな利益が得られる可能性があります。

スマートフォンの観点から見ると、Cortex-A77を搭載したSoCは、高性能なフラッグシップ製品向けです。 Armは、発電所の設計が4 + 4ビットを使用することを完全に期待しています。LITTLEコア配置。 A77のスループットが向上し、エリアサイズがわずかに増加したことを考えると、SoC設計者は1 + 3 + 4または2 + 2 + 4の傾向を継続するでしょう。大きなキャッシュと高いクロックを備えた1つまたは2つの強力なビッグコアを備え、2つまたは3つのA77コアでバックアップし、キャッシュサイズを小さくし、クロックを減らして、電力と面積を節約します。最終的に、Cortex-A77は、スマートフォンチップと、常に接続されたArmベースのラップトップの成長市場に良い影響を与えます。今年後半のシリコン発表に注目してください。

「ハードウェアアクセラレーション」は、Androidスマートフォンを含む多くのデバイスのさまざまなアプリケーションのオプションメニューに隠れているオプションです。ほとんどのスマートフォンアプリでは常にアクセス可能なオプションではありませんが、ハードウェアアクセラレーションは、YouTube、Chrome、Facebookなど、多くの人気のあるAndroidアプリで使用されています。...

GoogleによってAndroid 10が正式にリリースされ、Pixelデバイス、さらにRedmi K20シリーズにもすぐに登場しました。プライバシー関連の調整、ブランド変更、長期にわたる機能の間で、Googleがこの機能で非常に忙しいことは明らかです。それでは、知っておく価値のあるAndroid 10の傑出した機能は何でしょうか?読み進めて調べてください。...

興味深い出版物