【良く分かる】Pythonで超解像！ESRGAN／Real ESRGAN／SwinIRをまとめて紹介

2024年9月4日

当ページのリンクには広告が含まれています。

前回公開した「【超簡単】コマンド一発！Real ESRGANで超解像（アップスケーリング）しようぜ」の記事では、無料のアプリやコマンドを用いてReal ESRGANによる高解像化を実現する方法について紹介しました。

今回は同様のことをPythonを使って実現したいと思います。とは言っても、同じことをPythonで行うだけだと意味が無いので、メジャーな ESRGAN ／Real ESRGAN／SwinIR の３種類についてダウンロード～使い方までを紹介したいと思います。

それぞれの方式で高解像化した画質比較についても掲載しましたので、これから超解像化を始める方、あるいはどの方式を使えば良いか迷っている方は、この記事を参考にして下さい。

Python環境

今回紹介する高解像化については、Python環境にモジュールをインストールする必要があります。

ご自身の環境にモジュールをインストールして頂いても良いのですが、既にインストール済みのモジュールがある場合、バージョン違いによりエラーが発生する可能性があるため、本記事ではポータブル環境のPythonに一からインストールする方法を採用します。

ご自身の環境を利用される場合は、説明内容をご自身の環境に置き換えて操作して下さい。

WinPythonによる環境構築

今回はPythonは 3.10.9 を使います。「【お手軽】WinPython＋Portable Gitでお手軽Python環境を構築しようよ」の記事の手順に従ってPython環境（「WinPython＋PortablGit」環境）を構築して下さい。

公式サイトから自己解凍形式の圧縮ファイルをダウンロードし、任意のフォルダに展開するだけです。

ESRGAN

ESRGAN（Enhanced Super-Resolution Generative Adversarial Network）は、GAN（Generative Adversarial Network）アーキテクチャを採用した、超解像化向けの深層学習モデルです。

従来の超解像化は、画像処理技術を用いてピクセル単位で拡大や補間を行っていました。ESRGANは深層学習の手法を用いることで、これまで課題だったアーティファクト（不自然な模様やブロッキングなど）を低減し、自然な視覚効果を向上させるなどの品質向上が図られています。

インストール方法

ESRGANは GitHubで公開されています。

「WinPython＋PortablGit」環境をお使いの場合は、@CommandPrompt.exe を実行後、開いたコマンドプロンプトから次のコマンドを入力すると、「WinPython＋PortablGit」環境内にインストールできます。

cd ..
git clone https://github.com/xinntao/ESRGAN

別の場所にインストールしたい場合は、コマンドプロンプト上でインストールしたいフォルダに移動し、次のコマンドを実行して下さい。

git clone https://github.com/xinntao/ESRGAN

尚、git を使わなくても、下記URLから直接ダウンロードが可能です。

https://github.com/xinntao/ESRGAN

成功すると、ESRGAN-master.zip というZipファイルがダウンロードされます。

続けてモデルを入手します。下記のGoogleドライブでモデルが公開されているので、ダウンロードして下さい。

https://drive.google.com/drive/u/0/folders/17VYV_SoZZesU6mbxz2dMAIccSSlqLecY

最後に、ESRGAN-master.zip を任意のフォルダに解凍し、その中にあるmodels フォルダにダウンロードしたモデル（RRDB_ESRGAN_x4.pth)をコピーして下さい。

モジュールのインストール

以下の説明では、WinPython＋PortablGit」環境で＠CommandPrompt.exe を実行した時のコマンドプロンプトを前提としています。

コマンドプロンプトが開いたら、下記のコマンドを実行します。

pip install opencv-python
pip install tensorflow
pip install torch==2.0.1.0+cu118 torchvision torchaudio -f
https://download.pytorch.org/whl/torch_stable.html

尚、３行目にある cu118 の部分は、お使いの環境（ビデオドライバのバージョン等）により変わります。 cu117 の可能性もありますので、cu118を cu117に変えて実行してみてください。

使い方

ESRGAN-master.zip　を解凍した場所にカレントディレクトリを移動します。

私の環境では ESRGAN-master というフォルダに解凍したので、下記のコマンドになります。

cd ESRGAN-master

次に、下記のコマンドを実行して下さい。

python test.py

このコマンドにより、LRフォルダに格納されているサンプル画像（baboon.png、comic.png）が高解像化され、results フォルダに格納されます。

試しにStable Diffusion で生成した画像を LRフォルダにコピーし、高解像化を試みました。結果は以の通りです。

Real ESRGAN

Real-ESRGANは、ESRGANの改良版であり、モデルアーキテクチャの改良により、ESRGANより高品質でリアルな超解像度画像が生成できます。

個人的には、Real-ESRGANの超解像化はESRGANより優れてはいるものの、人物の実写においては加工が強すぎて自然さが失われた印象があります。

もう少しシャープさやノイズ削減が弱くても良いから、自然な人物画を求める場合は ESRGAN、風景やアニメ系の場合はReal-ESRGANといった具合に使い分けましょう。

ダウンロード

Real ESRGANは GitHubで公開されています。git が使える方は、git clone でダウンロードして下さい。

git clone https://github.com/xinntao/Real-ESRGAN

git を使わなくても、下記URLからダウンロードが可能です。

https://github.com/xinntao/Real-ESRGAN

Real-ESRGAN-master.zip　というZIPファイルがダウンロードされますので任意のフォルダに解凍して下さい。

モジュールのインストール

以下の説明では、WinPython Command Prompt.exe によるコマンドプロンプトでの操作を前提としています。

コマンドプロンプトを開き、下記のコマンドを実行します。

pip install basicsr
pip install facexlib
pip install gfpgan
pip install -r requirements.txt
python setup.py develop

超解像化を行うタイミングで slow_conv2_cpu not implemented for 'Half' ～　の様なエラーが出るかもしれません。

この場合は、追加で下記のコマンドを実行してみてください。

pip install torch==2.0.1.0+cu118 torchvision torchaudio -f
https://download.pytorch.org/whl/torch_stable.html

尚、cu118 の部分は、お使いの環境によっては cu117 の可能性もありますのでご注意ください。

サンプルプログラム実行時の注意

後述するサンプルプログラム（ inference_realesrgan.py ）を使って、解凍時に展開されるinputs フォルダのサンプル画像を高解像化します。

ここには動画ファイルが含まれており、今回実行するオプションではエラーになるので、あらかじめ別の場所に退避するか、inputsフォルダから削除しておいてください。

また、サンプルプログラム実行中に下記のエラーが表示された場合、変換できない画像が inputsフォルダに含まれています。今回は 00017_gray を実行中にエラーになりました。

下記の画像が 00017_gray です。一度 Windowsのペイントで開いて、そのまま保存すればエラーは出なくなります。

使い方

サンプルプログラムとして inference_realesrgan.py が用意されていますので、これを使います。このプログラムには多くのオプションが用意されていますが、下記の３つ程度を理解しておけば問題はありません。

まず最初に、Real-ESRGAN-master.zip　を解凍した場所にカレントディレクトリを移動します。私の環境では Real-ESRGAN-master というフォルダに解凍したので、下記のコマンドになります。

cd Real-ESRGAN-master

今回は標準添付のサンプル画像を高解像化しますので、下記のコマンドを実行して下さい。-n オプションで指定したモデルがPC上に存在しない場合、自動でダウンロードされます。

python inference_realesrgan.py -n RealESRGAN_x4plus -i inputs --face_enhance

オプション	説明
-h, --help	ヘルプメッセージを表示して終了します。
-i INPUT, --input INPUT	入力画像またはフォルダを指定します。
-n MODEL_NAME, --model_name MODEL_NAME	モデル名を指定します。可能なモデル名: RealESRGAN_x4plus、RealESRNet_x4plus、RealESRGAN_x4plus_anime_6B、RealESRGAN_x2plus、realesr-animevideov3、realesr-general-x4v3
-o OUTPUT, --output OUTPUT	出力フォルダを指定します。
-dn DENOISE_STRENGTH, --denoise_strength DENOISE_STRENGTH	ノイズリダクションの強度を指定します。0はノイズを保持する弱いノイズリダクション、1は強力なノイズリダクションです。realesr-general-x4v3モデルでのみ使用されます。
-s OUTSCALE, --outscale OUTSCALE	画像の最終的なアップサンプリングスケールを指定します。
--model_path MODEL_PATH	[オプション] モデルのパスを指定します。通常、指定する必要はありません。
--suffix SUFFIX	復元された画像の接尾辞を指定します。
-t TILE, --tile TILE	タイルサイズを指定します。0はタイルを使用しないことを意味します。
--tile_pad TILE_PAD	タイルのパディングを指定します。
--pre_pad PRE_PAD	各境界での事前パディングサイズを指定します。
--face_enhance	顔を強調するためにGFPGANを使用します。
--fp32	推論時にfp32精度を使用します。デフォルトはfp16（半精度）です。
--alpha_upsampler ALPHA_UPSAMPLER	アルファチャンネルのアップサンプラーを指定します。オプション: realesrgan、bicubic
--ext EXT	画像の拡張子を指定します。オプション: auto、jpg、png。"auto"は入力と同じ拡張子を使用します。
-g GPU_ID, --gpu-id GPU_ID	使用するGPUデバイスを指定します。デフォルトはNoneですが、複数のGPUを使用する場合、0、1、2などを指定できます。

inputs フォルダの画像が全て高解像化されると、inputs と同じ階層に results というフォルダが作成され、そこに高解像化された画像が格納されます。

results フォルダは初回実行時に自動で作成されます。

Stable Diffusionで生成した画像を使って超解像化の品質を比べてみました。

--face_enhance　は「顔を強調」するオプションで、人物の顔をより自然に高解像化するオプションです。

少し分かり難いかもしれませんが、下記の通り比べてみると --face_enhance が無い場合はくっきり感が強く絵画調になります。一方、--face_enhance が有る場合は写真としての自然さが保たれていることが分かります。

SwinIR

SwinIRは、超解像化において優れた性能を発揮する深層学習モデルであり、"Swin"（"Swin Transformer"の略）と"IR"（"Image Restoration"の略）の頭文字を取って命名されました。

SwinIR、ESRGAN、Real-ESRGAN は共に深層学習モデルを採用していますが、以下の様な違いがあります。

項目	SwinIR	ESRGAN/Real-ESRGAN
アーキテクチャ	Swin Transformer	GAN（Generative Adversarial Network）
トレーニングデータ	画像復元タスクに適したデータセット	超解像度タスクに特化したデータセット
主な用途	画像復元、超解像度、ノイズリダクション	超解像度
画像品質	高品質、汎用的	高品質、超解像度特化

ダウンロード

SwinIRは GitHubで公開されています。git が使える方は、git clone でダウンロードして下さい。

git clone https://github.com/JingyunLiang/SwinIR

git を使わなくても、下記URLからダウンロードが可能です。

https://github.com/JingyunLiang/SwinIR

SwinIR-0.0.zip　というZIPファイルがダウンロードできますので、任意のフォルダに解凍して下さい。

モジュールのインストール

以下の説明では、WinPython Command Prompt.exe によるコマンドプロンプトでの操作を前提としています。

コマンドプロンプトを開き、下記のコマンドを実行します。

pip install opencv-python
pip install tensorflow
pip install torch==2.0.1.0+cu118 torchvision torchaudio -f https://download.pytorch.org/whl/torch_stable.html
pip install timm

WinPython Command Promptの場合は、tensorflowは既にインストール済みなので、opencv-python と timm を追加でインストールすれば動作します。ただし、この場合はCPUのみで処理されるため、１画像あたり数十秒程度の時間が掛かります。

GPUを使いたい場合は 3行目の pip install torch==～を実行する必要があります。

使い方

main_test_swinir.py を実行することで、指定フォルダにある画像を一括して高解像化できます。このプログラムのオプションは次のようになります。

今回は testsets というフォルダにサンプル画像が格納されているので、これを高解像化してみます。

まず最初にSwinIR-0.0.zip を解凍した場所にカレントディレクトリを移動します。私の環境では SwinIR-main というフォルダに解凍したので、下記のコマンドになります。

cd SwinIR-main

次に、下記のコマンドを実行して下さい。尚、--model_path オプションで指定したモデルがPC上に存在しない場合、自動でダウンロードされます。

python main_test_swinir.py --task real_sr --scale 4 --large_model --model_path model_zoo/003_realSR_BSRGAN_DFOWMFC_s64w8_SwinIR-L_x4_GAN.pth --folder_lq testsets/RealSRSet+5images

自力でダウンロードしたモデルを使う場合は別ですが、モデルを自動でダウンロードしたい場合は、モデル名の先頭に必ず "model_zoo/" を付けて下さい。

　--model_path model_zoo/003_realSR_BSRGAN_DFOWMFC_s64w8_SwinIR-L_x4_GAN.pth