Real-ESRGAN

 どうも、ひねもすのたりのたりかな、琥珀銀です。


 今回はラビットハウス制服なチノちゃんを描かせて頂きました。やっぱりチノちゃんは制服が似合いますな。
 さて、今回はちょっと趣向を変えてアニメ鑑賞のお話を少々。
 我々キモオタたるもの、アニメ鑑賞は基本中の基本と言っていいでしょう。加齢のせいか30分間が耐えられないとかあるかもしれませんが、それでも我々のライフワークであることに変わりはありません。期のクォータ間際はいつも新作に心躍ると言うものです。
 そして観るからには綺麗な画像で観たいもの。とはいえ、いわゆる円盤はとても高いですし、超高解像度エンジンを積んだ高級テレビなんぞ赤貧たる我々には手が届きません。そこでたいていの場合、ワンランク上のアニメ専門なんとか言うテレビ放送からtsデー(検閲)を(検閲)して(検閲)したものをmadVR積んだMPC-BEで鑑賞ってのが定番になってくるかと思います。えぇ、意味が分からない方は多分この先をお読みになられてもわけわからないと思いますが察してください。
 正直、手持ちのPCとしょっぼいモニタでどれだけ綺麗にアニメが観られるものなんでしょうか。今日はそのあたりを追ってみたいと思います。
 まず、参考としてYouTubeをそのままキャプチャした画を下記に提示します。なお、掲載画像は引用であり著作権は著作権者に属します。
 注意!:画像はリンクしており拡大できますが、4K対応のPCモニタ等でご覧ください。スマホで見ても小さすぎてほとんど変化が分かりません
 これが元動画画像となります。
 

©日向夏・主婦の友インフォス/「薬屋のひとりごと」製作委員会

 これをまずは最近話題になったGeforceによるAI超解像度ドライバで表示させたらどうなるか試してみます。
 これをONにするには設定画面の下記「RTXビデオ強調 スーパー解像度」のクオリティを4で設定します。
 
 その画像が以下。解像度が上がったと言うよりは、ノイズが消えた感じがしますね。
 
 このときのGPU負荷はおよそ35%~40%くらい。まぁ許容範囲でしょうか。
 
 よく言われるmadVR+MPCの組み合わせではどうか。今のところこれが最適解と言われています。エッジが強調されるイメージですね。ノイズ除去の処理はRTXスーパー解像度の方が上でしょうか。
 
 なお、madVR+MPCでは処理が重いと言う方が2番手として使っているのがAnime4K+MPC。個人的にはさらにエッジが効いたmadVRという感じですな。どちらがいいかと言うと好みの問題になりそうです。
 
 さてここまで見てきまして、「まぁ綺麗になってるような気がするけどどれもあんまり変わらんなぁ」と思った方がほとんどではないでしょうか。さらに静止画だからじっくり比較できるんであって、これが動いている動画になるとなおさら違いは感じられないかも知れません。
 さてここで登場しますのが最終兵器Real-ESRGANであります。こいつについてはこちらの方が詳しく説明されておりますが、リアルタイムデコードでなくひたすらAIエンジンによる超高解像度処理を事前に時間をかけてフレーム1枚1枚アップスケールを実施し、再度エンコードのうえ高解像度動画を作り上げるという力業で成し遂げるものです。その効果は以下の通り。

 この画質で動画が観られるわけで、画質レベルはUHD BDレベルに達します。まさに画質は最上級、これでアニメ鑑賞となればもう言うことはないでしょう。がしかし、こいつは上記説明サイトにありますとおり事前アップスケールおよびエンコードに相当な時間がかかります。RTX3070+Corei7 10700の環境でテストに用いた2分弱の本動画でさえ、全て完了するまでに5時間弱かかりました。しかも下記の通りGPU負荷は65度台で99%に張り付いたままになります。なぜか私の環境では上記説明サイトの環境よりも時間が掛かるようです。
 
 んで2分で5時間掛かるとすると、単純計算で30分アニメで75時間です。つまり、およそ3日間アプコンとエンコで轟音うなるPCと共に過ごさねばならなくなります。いや一戸建てだの4LDKマンションだのに住んでいるセレブな方なら離れた部屋にエンコ用PC置けば問題ないんでしょうが、そもそも貧乏だからこの記事の話題を書いているわけでして。
 んじゃぁクラウドコンピューティングならどうか。このReal-ESRGANはいわゆるGPGPUを利用しますが、AWSなどのインスタンスでもそれが利用出来るAMIが用意されています。んで、取りあえず現実的な料金の範囲を狙うとして最下位にあるこのあたりのでWindowsインスタンスを選ぶとすると大体4.562USD/時間のようです。
 
 んでp3.2xLargeはnVidia Tesla V100を1基搭載だそうですから、こちらの方の意見を元にすっごいざっくり計算でGeforce RTX3090の約8割程度の性能とすると、私が今回使ったRTX3070はそのRTX3090の8割程度の能力なのでまぁだいたいV100とおんなじくらいと考えて(適当)、先ほどの75時間を4.562USDで1$あたり135円として、エンコ完了までにかかる費用としては4.562$×75時間×135円になるので・・・
 

46,190円!!

 実際にはこれだけじゃダメで、元データの700倍の作業領域が必要なため、30分アニメデータとして500MB(さすがに素のtsデータを突っ込むのは無謀)くらいならおよそ700倍にあたるEBS領域を350GBくらい確保が必要です。えぇもう円盤買った方が安いですね…。
 まぁこの手のマシンラーニングっぽいインスタンスを作って活用するような人は、こういう出来合のソフトをOS入れたIaaSで動かすんではなく、ちゃんと学習モデルに適したPaaSを利用する形で最適なインスタンスを構築できるでしょうから、実際にはもうちょい安く出来るんでしょう。Real-ESRGANのGAN(敵対的生成ネットワーク)てのは偽データ作成モジュールとその偽データを見破るモジュールを相互に競争させて最適な結果を得るAIの一種ですが、これのアルゴリズムを構築する必要があります。
 ちなみに最近政府がこれからのビジネスパーソンが生き残るうえで必須技能とか言ってるリスキリング(職業能力の再開発)ではこの手のAIモデルを理解し構築してビジネスに活かせる能力が必要になります。これからお金が掛かる子育て中の皆様はリストラされないよう必死に勉強する必要が生じるわけでホント大変そうですね。まぁ優秀だから結婚できて子供が作れたんでしょうから頑張ってください。私は結婚どころか彼女すら出来ないキモオタ童貞なので無理ですわー(完全に人ごと)。
 あ、ちなみに参考動画として引用させて頂いた「薬屋のひとりごと」ですが、アニメ化を楽しみに待っております。コミカライズは2種類出てますが私的にはこっちの方が好きです。ぜひアニメでも幼女戦記のターニャばりの顔芸を期待したいところです(声優も一緒だし)。でも男性主役側の声優が不倫沙汰起こして先行き不透明だとか何とか雲行きが怪しいのがなんとも…。2次元の世界に3次元のクソを持ち込まんでほしーわ
 それでは、また次回まで。