Metalによる最新のレンダリング

その他のビデオ

Metalによる最新のレンダリング

MetalはGPUを活用したグラフィックスおよび演算のためのフレームワークで、プロフェッショナル向けのAppからコンソールスタイルのゲームに至るまで、あらゆるAppの構築に役立ちます。このセッションでは、Metalの機能を利用して、遅延レンダリングやタイルベースのフォワードレンダリングといった最新のグラフィックステクニックを実装する方法について説明します。GPUで処理される機能により、Metalで処理のスケジュールが自動的に決定され、シーン全体の描画や演算処理の実行が、CPUとほとんど、またはまったくやり取りせずに行われる仕組みについてご確認ください。GPUファミリーを使用することで、さまざまなAppleプラットフォームに対応できるAppを簡単に構築する方法や、MetalによってAppやゲームでまったく新しいレベルのパフォーマンスと機能を実現する方法を紹介します。

リソース
関連ビデオ

WWDC21
- EDRによるHDRレンダリング
WWDC19
Tech Talks
- A13 BionicにおけるMetalの機能強化
(音楽)
(拍手) ヤープ･ヴァン･マーデンです “Modern Rendering with Metal”のセッションへようこそ
前半は高度なレンダリング手法をご紹介早速皆さんも使用できます後半はシュリーニバスより GPUパイプラインへの移行についてお話しします最後はクロスプラットフォーム開発を簡素化する― 新しいGPUファミリです
このセッションでは Metalを初めて使う方でもさらに使いこなしたい方でも歓迎です今回お伝えするレンダリング手法はきっとニーズに合致するはずです
では現在のアプリケーションなどに使われる― レンダリング手法を見てみましょう
まず標準的なDeferred ゲームやグラフィック系では最も一般的でしょうこのレンダリング手法について Metalへの実装方法と iOSへの最適化を紹介します次にライトパスを拡張できる Tiled Deferredです複雑な光源の設定にはうってつけです
そしてForward 複雑なマテリアルの Metalアプリケーションと相性がよくアンチエイリアスや透明処理などにも向いています
最後はVisibility Bufferですジオメトリをライトパスまで遅延させます Metal 3ではより簡単に実装可能ですではDeferredから始めます
Deferredはレンダリングを２パスに分けますジオメトリパスで基本的に全体像を中間のG-bufferに描画しますここでのテクスチャは法線アルベド粗さそして必要に応じた表面やマテリアルの属性です次に２つ目のパスですライトパスは光量を調整し最終的なシーンを構築します遅延シェーダはG-bufferでバインドされ表面のカラーに割り当てられますでは流れを確認して Metalの実装に移ります
２つのパスがあり GPU上で連続して動作しますジオメトリパスでは深度を書きます深度を呼び出すだけでなくピクセル位置と空間の計算にも必要となります
G-bufferテクスチャも出力この例では法線アルベド粗さを使います
そしてライトパスでそのテクスチャを読み戻します光量を調整して出力するテクスチャに重ねます
ではMetalで実行します
始めるには Render Passディスクリプタが必要です出力が最も重要になってきますアタッチメントで定義され
深度は１つカラーは複数持たせることができますアタッチメントを保存するデータを指すテクスチャを定義しテクスチャから既存データをロードする動作を定義しますまたレンダリング結果をテクスチャに保存する動作も定義します全アタッチメントの属性を定義すると Render Command Encoderを生成できます Render Passにオブジェクトを加えられます
では実際にやってみます
セットアップ関数を用意しましたまずRender Passを作成アタッチメントを書き込みますまずは深度です必ず深度が明確な状態でシーンを描画したいので loadActionはclearに深度を保存するため storeActionはstoreです次にカラーアタッチメントは G-bufferで各テクスチャに１つ必要になりますどのテクスチャも処理は同じです
描画中は SKYBOXや背景のように扱うため全フレームの全ピクセルをオーバーライドしますテクスチャの過去の値を気にせず済みます loadActionはdontcareにします
G-bufferの結果を保存するため storeActionはstoreですではライトパスのディスクリプタですオブジェクトを生成し蓄積バッファのアタッチメントを定義確実にデータを蓄積するように loadActionはclear 画像を保存するため storeActionをstoreにします
実際にシーンを描画した時のレンダーループを確認しますまずはジオメトリパス Render Command Encoderを生成しシーン内の計測を順に処理しますこれは非常に単純な方法ですセッションの後半ではシュリーニバスからレンダーループの移行に触れます LODを備えた GPUパイプラインに切り替えますそれではジオメトリパス全体をエンコードしたのでライトパスに移り Render Command Encoderを生成しますすべての光源の処理を順に行います光源ごとに遅延シェーダがテクスチャとバインドし光の色を計算します
この２パス方式は全プラットフォームで macOSとiOSに完全に対応しますハードウェアの種類も問いません手順を踏めばiOSへのさらなる最適化も可能です概要のスライドに戻って説明します２つのパスは大きなバッファを経由しますジオメトリパスの全データが保存されライトパスに流れます光源が複数だとその分リードバックが繰り返されます Metalの Programmable Blendingを使えばこの処理をデバイスのメモリで行えます iOSデバイスのアーキテクチャを利用するのですこの手法を実行するにはジオメトリパスとライトパスを統合しますそして単一のRender Encoderを生成
iOSアーキテクチャの性質からエンコード中アタッチメントはタイルメモリに残りますつまり書き出しながらリードバックが可能ピクセルの値も読み戻せます光を算出する時に重宝しますピクセルのG-bufferアタッチメントを読み出すからですではシェーダを見てみましょうライトパスのフラグメントシェーダですまずは全テクスチャをバインドさせていき― G-bufferのデータを取得しますそしてこのすべてのテクスチャを読み込み表面などの情報を得ますこの情報から最終的なカラーが算出されるのです Programmable Blendingを使ってみます
テクスチャではなくカラーアタッチメントをバインド
値はそのままLightingModelに使えます
G-buffer用に新しいアタッチメントができました深度アタッチメントにアクセス不可だからです
もうテクスチャの調整は不要なのでメモリ配置の最適化に使います
G-bufferテクスチャの書き出しや読み込みは不要なので storeActionをdontcareに変更しますまだデバイスの容量を占める Metalオブジェクトがあるので G-bufferテクスチャの物理メモリを消去させますそこでstorageModeを memorylessにしますこれで基本的に保存は実行されませんメモリも不要ですこのようにして優れた機能を備えた― iOSへの実装が完了します G-bufferによるオーバーヘッドが排除できます
次に移る前にまとめておきますパスが分かれた手法は幅広く使うことができます複雑なジオメトリや光源に対応 G-bufferが後処理パイプラインを促進させます Programmable Blendingでパイプラインの一本化が可能
ただしmacOSではまだG-bufferが必要です
では次はTiled Deferredです光を最大限に与えて描画する場合ライトパスの処理に負担がかかります
Tiled Deferredはこの処理性能の向上を図っています Deferredでは光源を個別に描画し G-bufferの処理に負担をかけます
Tiled Deferredは計算用のプリパスを追加しシェーディングをタイル別で行います
プリパスが画面を格子状に分割しタイルごとに光源リストを作りますすると次のステップで単一のフラグメントシェーダで効率よくタイルを照らせますリスト内の光源が対象です実装の詳細に触れる前に光源リストの生成方法を紹介します
表示領域をタイルとなるサブ領域に細かく分けます
そしてシェーダでサブ領域を調整タイルの位置や深度から計算しますジオメトリパスを実行しているので深度バッファも実装済みです
これで光量の対象となる領域だけをテストして光源リストに交点を加えられます
この処理はカーネルに最適で全タイルで並行して実行されますではDeferredパイプラインに統合します
先ほどの２パス手法ですね
この演算パスを中間に加えます
生成された光源リストはバッファを介しデバイスのメモリに保存されますこの手法も全プラットフォームで機能します必要なのは演算パスの追加と光源のロジックの変更シェーダでループ処理を実行させるロジックにします前のレンダリング手法と同様に iOSではさらなる最適化が可能ですそれでは iOSへの実装手順を見ていきましょう
統合したパスで Programmable Blendingを使うには 1つのRender Command Encoderに収める必要があります Metalではタイルベースのアーキテクチャを使い復元した各タイルにコンピュータモデルを描画しますそこでiOS上では Render Command Encoderがシェーダのパイプラインをエンコードします外側の光源に最適ですコンセプトをHardware Tileに直接マッピングできるからです
Hardware Tileで直接プリパスを実行できるため Persistent Threadgroup Memoryを使うことができますタイルメモリと並行して光源リストを保存します
リードバックすると Render Command Encoderに取り込まれます今回は光源１つにつき実行されます
ライティングはグラフィックに合わせてタイルメモリ内で完結しますではMetalで行ってみましょう
タイルシェーダは標準的なパイプライン構成ですディスクリプタを生成しカラーアタッチメントを設定実行したい演算機能を設定しパイプラインを構成します Persistent Threadgroup Memoryを使うので少しメモリを確保しておきます Render Passに戻り光源リストの保存用データを確保します
ディスパッチを確認するためレンダーループへ Render Command Encoderを１つ用意そしてシーンの全メッシュをループ処理します
まずはタイルシェーダを実行しますパイプライン構成を設定しすべての光源を保持するバッファをセット Threadgroup Memoryのバッファをタイルメモリにバインドしますそしてシェーダをディスパッチタイルシェーダと Threadgroup Memoryを実行したので光の描画に光源リストが使えます各ピクセルが光源リストにアクセス可能 Persistent Threadgroup Memoryにより効率的にシェーディングできます
セットアップが完了し次はシェーダです
２つのうち上がタイルシェーダです Persistent Threadgroup Memoryに光源リストをバインド
全光源をループ処理してマスクを出力します Persistent Threadgroup Memoryに入りますそして２つ目のシェーダが読み戻しますタイル内の可視光すべてを対象にピクセルを調整します
タイルベースを実装する上での要点を見てきましたではこの仕組みを使ってレンダラを拡張し追加のフォワードパスを効率よく構成してみます
Persistent Threadgroup Memoryの光源リストデータはフォワードパスを加速させるために使えます
ジオメトリをシェーディングする時同じPersistent Threadgroup Memoryを使い光源リストを読み込みます遅延ライティングと同じLight Loopを使い効率的にシェーディングしますこのフォワードパスは透明処理や特殊効果の他複雑なシェーディングも可能にします
遅延パイプラインには限界がありアンチエイリアスや複雑な描画などは困難です中間のG-bufferが原因ですタイルベースの手法を使うことで効率よく― Forwardレンダリングを加速できますそこでフォワードパスのみに注目しますタイルベースの手法と並んで解決策となるからです
Deferredのジオメトリパスとライトパスを除きますしかしサブ領域に合わせる深度が必要です
そのためジオメトリパスを深度プリパスに置き換えますすでに備わっているなら問題ないはずです
オーバードローや最適化などには強い味方となる手法でしょうしかしiOSハードウェアでは不要になることもその場合 Clustered Lightingが効果的かもしれませんこの手法は光源リストを生成する時に深度を求めませんタイルに深度の範囲を定めておらず軸に沿って表示領域を分けているだけ
そこで3D光源リストマップを放出
タイルベースのサブ領域より非効率かもしれませんが各ピクセルで光源リストを使い分けライティングの性能を向上させます
タイルシェーディングとPersistent Threadgroup Memoryを兼ねれば Forwardは性能が増します
定番の手法と Metalへの実装方法を紹介しました最後はVisibility Bufferです G-buffer処理を軽減し旧式ハードウェアへの対応を促します
一旦 Deferredに戻ります現状最適化できるのは iOSアーキテクチャのみでした
Visibility Bufferは別の手法で中間バッファの処理を軽減します限りなく少ないデータ量で保存するのですピクセルごとに属性を保存するのでなくプリミティブ識別子と重心座標のみ保存します
直接シェーディングには使えませんしかし元のジオメトリの再構築に使用しシェーダ内でマテリアルロジックを実行できますこれはタイルベースの手法で非常に効果があり各ピクセルが一度の再構築で済みます
しかし最大の難点がありますプリミティブ識別子と重心座標をいかにして―
少ない作業で生成するかですそこでMetal 3の出番ですこれらの属性を使えばフラグメントシェーダ内で読み出すことができます
これまで以上にジオメトリパスを高速にして実装をより簡単にしてくれます
Metalでの描画に使える様々な手法の中からいくつか実践してご紹介します
複雑なジオメトリとPBRマテリアル― 異なるシェーダを有するテストシーンです Deferred　Tiled Deferred　Forward いずれの手法も使えますでは Deferredを使ってみます Deferredは２パスの手法です第１パスがG-bufferを介し描画しますではテクスチャを見ます
これはアルベドです
そして法線
これが粗さのテクスチャですもっと複雑なモデルなら G-bufferの保存量は増えるでしょうこのシーンは第２パスで光を当てています夜のシーンで光源を確認します
このシーンでは多くの光源を描画しています可視化します Deferredでは光源を１つずつ処理し複雑に重ね合わせているのが分かります次はTiled Deferredです
先ほどと同じシーンを Tiled Deferredで描画しています
可能な限り可視化したのでそれぞれのタイルで描画されている― 光源の量をご覧いただけるかと思いますタイルに分けることで差が生まれ一度に全ピクセルに光を当てられます
紹介した手法を用いてシーンをご覧いただきましたでは後半はシュリーニバスより GPUパイプラインへの移行を説明します (拍手) ありがとう
Metal 2のGPUパイプラインの構成は Argument Buffersと Indirect Command Buffersでした今回 CPUベースから GPUの操作に切り替えます前半ではMetalへの実装方法をご紹介しましたが後半はGPUへの切り替え方法をお見せしますレンダーループが改善されるだけでなく CPUが解放されます他の処理に回せますねまずレンダーループでどんな操作があるのか確認します
大型のシーンの場合効率的に描画する際一連の操作が必要です最初にフラスタムカリング表示領域外のオブジェクトを無効にします次にオクルージョンカリング重なって見えないオブジェクトを無効化します他にはLODの選択が一般的でしょうカメラとの距離に応じてモデルのLODを調整します CPUベースの典型的な操作はこのような形です無効化の対象物とテストデータを Command Bufferにエンコード GPU上のレンダーパスで実行し次フレーム用にデータを生成しますフラスタムカリングで表示領域外のオブジェクトを無効化し LODでモデルの詳細度合を調整しますそしてオクルージョンカリングで重なったオブジェクトを無効化最後にドローをエンコードして Render Passを実行するという流れですしかしここで非効率な箇所がありますオクルージョンカリングでは現在のフレームデータを無効化しますしかしどんな同期も導入したくないため低解像度で取得した過去のフレームデータを頼ります無効化の失敗につながります適切な手順を踏む必要がありますまた並列化できそうな操作としてフラスタムカリングが挙げられますこのような単一のCPUスレッドでは順番にフラスタムカリングが実行されますしかし複数のCPUスレッドに分配しても使えるスレッドは限られますオブジェクトごとに異なる操作を含むとこのようになるでしょう確かにスレッドを増やせばシーン内の各オブジェクトを平行して処理することができますしかし大抵の場合シーン内にオブジェクトは数千個あるのですそんな処理に対応できるのがGPUです GPUは数千個のスレッドを駆使して並行に処理を行います各スレッドで実行したい操作をオブジェクトに与えられます数千個を同時に処理できるのです GPUならより効率的なレンダーループが可能です CPUは解放されるため他の処理を割り当てられますではGPUへの移行方法です GPU上の演算パスと Render Passを結合すると GPU上でレンダーループ全体を実行できます一連のレンダリング操作が完全にGPU上で行われるのですではこれらのパスを GPUでレンダーループしてみますオクルージョンカリング用のオクルーダーデータを得るため演算パスにシーンデータを移しオクルーダーのコマンドをエンコードそのコマンドがレンダーパスで実行されオクルーダーデータを生成しますオクルーダーデータの形式は様々なのでさらに処理が必要です別の演算パスを使いますここでオクルージョンカリングに適した形式に変更されますそしてさらに用意した演算パスがカリング LOD コマンドエンコードに対応しますここでのオクルージョンカリングは過去のフレームデータに頼りません最初の２パスで生成されたオクルーダーデータは現在のフレーム用なのでより正確です
最後に別のRender Passでコマンドを実行しシーンを描写しますこれならすべての処理が GPU上で行われますどの段階でも CPUとGPUの同期は不要ですではビルドする方法ですそのためには少なくとも２つの工程が必要です１つ目はドローコマンドを GPU上でエンコードする方法です演算パスがRender PassにエンコードしますまたMetalがIndirect Command Buffersでサポートします次にシーンデータが要りますフレームを介してGPU上のシーンデータにアクセスこれでシーン全体を描画できますジオメトリや引数マテリアルなどですまたMetalが提供する要素に Argument Buffersがありますでは２つのBuffersに触れます
Argument Buffersは複雑なデータ構造で描画を可能にしどの段階でもシーンデータにアクセス可能にします Indirect Command Buffersは呼び出しをビルドし膨大なコマンドを並行して生成しますではオブジェクトモデルでさらに詳しく触れます
まずシーンデータへのアクセスです構成要素の１つがメッシュですジオメトリを表すメッシュオブジェクトの配列です次がマテリアルの配列で属性やテクスチャを備えていますパイプライン状態オブジェクトは影のパイプラインを描きますそしてモデルの配列です各モデルはLODが調整されており LODごとにメッシュやマテリアルの配列で構成されますシーンオブジェクトが３つの構成要素を関連付けていますではArgument Buffersで構成してみます
非常に簡素な１対１のマッピングになりました例えばScene argument bufferは３つのオブジェクトのみで構成されます先ほどのメッシュとマテリアルとモデルですシーン全体が Argument Buffersで描かれますではシェーダ内で確認してみます
各Argument Buffersの構文はご覧のとおりですオブジェクトモデルのメンバを含んでいますそれぞれが非常に柔軟な構文なので配列やポインタなどを加えることもできます例えばMaterial argument buffer テクスチャに必要な定数を含みパイプライン状態オブジェクトもあります１つのBufferにすべて詰まっています Scene argument bufferもオブジェクトモデルと同様です Argument Buffersでのモデル構築は非常に簡単ですではArgument Buffersへのアクセス方法です
フラスタムカリングを行う演算カーネルですドローコマンドを Indirect Command Buffersにエンコードカーネルのインスタンスを実行する各スレッドがオブジェクトを処理しドローコールをエンコードします詳しく見ていきます高水準のScene argument buffer内でパスしてシェアへシェーダやシーンにアクセスすれば他のものにも簡単にアクセスできます CommandArgsはIndirect Command Buffersの参照を含みます
スレッドIDに従いシーンからモデルを処理全スレッドが特定のオブジェクト上で並行して機能していますフラスタムカリングで表示領域外を無効化しますオブジェクトが見える時はカメラからの距離を基準にLODを計算 LODがあれば距離に応じたメッシュマテリアルの引数 Argument Buffersを簡単に読み込めます Argument Buffersがシーンに必要なリソースを結び付けるからです必要な情報を得たのでエンコードします Indirect Argument Buffersにエンコードしていきます Indirect Command Buffersの出番です
Indirect Command Buffersはレンダーコマンドの配列です各コマンドは異なる属性とパイプライン状態オブジェクトを含んでいますまた頂点バッファやフラグメントバッファもあります基本的にエンコードはオブジェクトが見えると全属性を読み込み Indirect Command Buffersにエンコードしますオブジェクトを処理する各スレッドは Indirect Command Buffersの枠にエンコードしますスレッド同様コマンドも並行してエンコードされます引き続きカーネルの例を使って実際のエンコードを見ていきます
まずドローコマンドをエンコードするために draw idを使って Indirect Command Buffersの枠を得ますドローコールに必要なパラメータを設定しますそれに必要な情報はMaterialと Mesh argument bufferにあります例えばマテリアルにはパイプライン状態オブジェクトを設定メッシュには頂点バッファなどを設定できますフラグメントバッファも同様に設定これでエンコードが完成しました非常にシンプルな手順で簡単にできます
ではPathの設定を行います
エンコード用の Indirect Command Buffersが要ることは GPUレンダーループに関して最初に話したとおりですカリングを実行する演算ディスパッチから始めオクルーダードローコマンドをエンコードします各スレッドが独立してドローをエンコードするので Indirect Command Buffers内の状態の設定は様々でしょう任意で Indirect Command Buffersを最適化しその設定を省けますこれはオクルーダードローを実行する Render Passです同様に他のPathも設定できます例えばこちらだと
カリングカーネルをローンチする演算ディスパッチですカリングやLODの選択などを話した時に触れました最後にコマンドを実行するレンダーパスをローンチこれでシーンを描けますではドローコマンドのエンコード後 Indirect Command Buffersの流れを見てみましょう
穴だらけの状態ですこれはオブジェクトが見えていない時スレッドがドローコマンドをエンコードしていないからですこの例だとオブジェクト１と３です Indirect Command Buffersの枠が空の状態ですこのbufferをGPUに渡すと空のコマンドが無数に実行され非効率になりますそのため空のコマンドは詰めてしまいたいどうすればエンコード時に詰められるでしょうかそこで間接的な手法を用います Indirect Rangeを通じて実行すべきコマンドを GPUに伝えます Indirect Range Bufferは開始地点とコマンド幅を含みますこのバッファはGPU上に存在しているものです実行されると開始地点とコマンド幅が拾えるのでコマンドを詰める時に使えますではコードの例を見てみましょう
これは先ほど触れたカリングカーネルです Indirect Range Bufferに対応させコマンドを詰めています
最初にIndirect Range Bufferの幅のメンバを渡しますコマンドを読み出すと自動的に幅をインクリメントします各スレッドがアトミックに幅をインクリメントするので幅は自動的に設定されます同時にコマンドも詰められますこのatomicという指示により過去の幅の値が返されるからです例えば０で始めると０の枠は幅が１にインクリメントされます１の枠なら幅が２にインクリメントされますコマンドを詰めなおかつ幅をアップデートできるのですではアプリケーションでの Indirect Range Bufferの設定方法です
まず演算パス用に Indirect Range Bufferを生成次にカリングカーネル用にそのrangeBufferを設定しますカリングカーネルをローンチする演算パスを用意オブジェクト処理と同時に自動で幅がアップデートされます最後にIndirect RangeのAPIで実行コマンドのパスを調整これでIndirect Range Bufferの開始地点とコマンド幅を呼び出します Indirect Command Buffersをより効率的に実行できます
GPUパイプラインでは全コマンドが GPUの演算パスでビルドされています通常ディスパッチが起こる演算パスもですそうなるとGPU上の演算ディスパッチを Indirect Command BuffersにエンコードしたいはずそこでMetal 3の新たな追加機能をご紹介しますこのエンコードをサポートします GPUでも演算ディスパッチをビルド可能 Indirect Command Buffersの機能面はレンダリングに近く― 繰り返し使用することができます CPUの処理を軽減しますそしてレンダリングと計算が GPU上で行えますより柔軟なGPUパイプラインを構築できますでは使用例を見てみましょう
パッチ別Tessellationファクタです大量のパッチで作られたメッシュがあり各パッチにTessellationパッチを生成これをすでに紹介したカリングカーネルで実行できるのです GPUのスレッドがオブジェクトの各パッチを経由して Tessellationファクタを生成しますしかしTessellationファクタの生成はそれ自体並列可能な操作なので効率的とは言えませんマルチスレッドで操作を分配することが効率的です全パッチを並行して処理しますカリングディスパッチの各スレッドが Tessellationファクタのディスパッチをエンコードしますこれは別の演算パスでも実行され操作を並列化します GPUのディスパッチが可能にしますではこの処理を行う GPUパイプラインに変更します
メインの演算パスがありますカリング LODの選択エンコードを担いますさらにTessellationファクタのディスパッチエンコードを追加スレッドがオブジェクトの可視を確認後 Indirect Command Buffersにそのディスパッチをエンコードしますそしてコマンドが別のパスで実行されレンダーパスに移ります GPUドローに結び付いた GPUディスパッチがより柔軟なGPUパイプラインを構築しますではサンプルを作成しましたのでご覧ください
前に見たレストラン街のシーンです通りを抜けるように進んでいますこのシーンは約280万個のポリゴンと約8000のドローコールを使用し１つのビューを構成しています前に使用したカスケードシャドウを想定すると約４種のビューを扱います CPUでレンダリングすると APIは相当な数になりますこのシーンは Indirect Command Buffersを使いすべてGPU上で処理していますそのためCPUの負担を大きく軽減しているのです
もう１つのビューを見ましょう今度は同じシーンを通り抜けるカメラを映しています白いオブジェクトがカメラだと分かるでしょうマゼンタに染まっている部分のジオメトリはカメラの表示領域外を表していますカメラが通り抜けることで表示領域内のジオメトリが分かります GPUでフラスタムカリングを行うカリングディスパッチが領域外のジオメトリを確定していますこのジオメトリは GPU上で処理しないのでレンダリングの負担を軽減しますもう１つビューを見ます
フラスタムカリングとオクルージョンカリングを実行しましたシアンの部分がオクルージョンされたジオメトリです引き続きマゼンタは表示領域外です画面右側の大部分がオクルージョンされています表示領域内でも大部分あると見て分かると思いますここでもGPUでカリングを行うカリングカーネルが領域外のジオメトリを確定します色付き部分はGPUで処理されないためレンダリングの負担が減り性能が向上します
最後にもう１つお話しするテーマがあります Metalにおける相互参照の記述を一層簡単にする方法またiOS tvOS macOSにおいて機能の特定を手軽にする方法ですまずは全プラットフォームで使える Metalの機能を振り返ります
iOSとtvOSに新機能を加えています先ほどIndirect Command Buffersでパイプラインを GPUベースにする方法をお見せしましたまたIndirect Rangeで Indirect Command Buffersをより効率的に使えますそしてもう１つが 16ビット深度テクスチャですシャドウマップの最適化に定評があります macOSにも重要な新機能がありますアタッチメントなしでのレンダリングが可能になりましたコマンドバッファの所要時間のクエリが可能に動的にインターバルを調整できます最後にsRGBと非sRGBのキャストをサポート光の線形をより適切に整えますでは新しいGPUファミリAPIを紹介します
これまで利用可否に応じて Metalの機能セットを使ってきましたしかしそんな機能も今では膨大な種類がありますそこでGPUファミリがシステム容量のクエリをより簡単に行いますまず４つのファミリに集約しクロスプラットフォーム開発を簡素化します次にインスタンスで構成された機能の階層をサポート過去の全インスタンスを引き継ぎますそして新APIで Metalのバージョンのクエリを区別しインスタンスの変化を追跡します最後にファミリに適さない任意の機能に対してデバイスのクエリを定義しますでは新しいGPUファミリの詳細に触れます
iOSとtvOSの全機能の構成は５つのインスタンスのファミリです過去のインスタンスに含まれた機能も引き継ぎます全機能を一覧にするのではなくファミリとインスタンスにマッピングします Macの機能構成は２つのインスタンス Mac 2はMac 1の機能を引き継いでいます
機能をクエリしてファミリがコードの記述を簡素化します全プラットフォームを対象とする共通のファミリも用意しましたクロスプラットフォームの階層に Metal機能を組み込み― Common 1はMetal GPUがサポート少しMetalを使うアプリケーションに適しています Common 2はゲーム開発に必要な全要素を提供します例えばIndirect Drawや Counting Occlusion Queries Tessellationや Metal Performance Shadersです Common 3は高性能アプリケーション向け Indirect Command Buffersや Layered Renderingなどです最後にMetal 3には Macをターゲットとした― iPadアプリケーション用のファミリがあります
iOSMacインスタンスは２つ Macの性能に重要な機能を備えています注目はMac専用のBC Pixel Formatsと iOSアプリケーションで使える Managed Texturesです iOSMac 1はCommon 2の機能に加えて Common 3の一部にも対応 BC Pixel Formatsと Managed Texturesの他 Cube Texture Arraysをサポート他にもRead/Write Textures Indirect Tessellationがあります
iOSMac 2はCommon 3の全機能と BC Pixel Formats Managed Texturesです以上が新しいファミリですでは新しいQD APIの使い方を紹介します
Mac 2の機能を利用できるか確認します
まずOSが新ファミリAPIをサポートするか確認利用可能なら次に Metal 3の機能を確認します新型なのでそこまで厳格な確認は不要です
そして利用したいファミリを確認しますここではCommonファミリの１つや Mac専用ファミリなどを確認します APIかバージョンが適用外なら旧バージョンの機能セットAPIに戻ります
ではクエリ可能なセットアップの任意機能です
ファミリはGPUの一般的なビヘイビアを特定しますしかしサポートされない重要な機能や制限があります例えばDepth24Stencil8や MSAA Sample Countsですその状況に対処するため Metalは各機能を直接クエリするAPIを提供しますしかしこれに属する機能は多くありません
前半で紹介した手法も新しいGPUファミリにサポートされています
Deferredは全プラットフォームに対応 Programmable Blendingは全Apple GPUでサポートされゲーム開発にうってつけです Tile DeferredとForwardも Apple専用の最適化で新しいハードウェアに対応します Visibility Bufferは Macファミリのみです解像度の条件により制限されています最後にファミリにサポートされた GPUパイプラインの機能をご紹介
幅広いサポートを受けることでいくつかの機能はレンダリングエンジンの中核にもなりますご紹介したArgument Buffersと Indirect Command Buffersは Common 2のサポートを受けています
それではこのセッションのまとめですぜひ皆さんのアプリケーションに応用してみてください
前半は高度なレンダリング手法の実装方法を紹介 Deferredなどの手法は Programmable Blendingを加え最適化することで iOSに最適な手法となります Macファミリの重心座標とクエリLODを使えば Visibility Bufferを実装し高解像度でレンダーが可能しかしどの手法でもレンダーループはGPUに移行できます各Buffersを備えてカリング LODの選択はすべて― GPU上で処理されますまたGPU上で演算ディスパッチを Indirect Command Buffersにエンコード可能
ハードウェアを幅広くターゲットにする場合や高度なMetal機能を使う場合もあります再設計されたGPUファミリAPIで機能の利用可否を確認しましょう
Metal機能やGPUパイプラインの詳細は Webサイトをご覧くださいサンプルも掲載しています各手法をアプリケーションに応用できるでしょうぜひラボにもお立ち寄りください
本日はありがとうございました (拍手)

リソース

関連ビデオ

WWDC21

WWDC19

Tech Talks