【実験】C#、C#スクリプト、Pythonの処理速度を比較しました!

Python入門
この記事は約7分で読めます。

今まではバッチ処理といえばJavaかC#だったんですが、最近はAIブームの影響を受けてか、Pythonによるバッチ処理も増えてきています。

Pythonはインタープリタ(逐次実行)型の言語であるため、処理速度はJavaやC#に劣ると言われてきましたが、実際はどうでしょう?

一説によると、Pythonのライブラリ(pandas や numpy)を使うと、処理速度はC#やPythonに引けを取らないという説もあります。

仕事でC#の処理をPythonに移植することになったので、これを機にケースごとの処理速度を計測してみましたので、紹介します。

実験の概要と注意事項

今回の実験は、C#、C#スクリプト、Pythonの3種類の言語に対して、次の5種類の実験を行い、速度計測(各10回づつ実施した平均値を採用)をしました。

  1. 一覧形式のデータに対して、列を追加する(関数名=func1)
  2. 一覧形式のデータに対して、行番号と列名でセルを指定して値を更新(関数名=func2)
  3. 一覧形式のデータに対して、欠損値(NaN)に0を代入(関数名=func3)
  4. クラスのインスタンス生成(関数名=func4)
  5. リストデータへのデータ追加(関数名=func5)

ここで登場する一覧形式のデータは、C#とC#スクリプトについては DataTable を、Pythonについては Panda の DataFrameを使いました。

C#については、Visual Studioのデバッグを前提としたデバッグ用ビルドとリリースを前提としたリリース用ビルド+最適化オプション=ONの2通りについても計測しております。

デバッグ用ビルドVisual Studioのデバッグを前提としたコードが埋め込まれ、
且つ処理速度の最適化が図られていない。
Visual Studioの初期設定はこの状態。
リリース用ビルド

最適化=ON
Visual Studioのデバッグ用コードが除外される。
リリース用ビルドのみ「最適化オプション」有効にできるので、
今回はONにした。
これにより、処理速度向上の為にコードが最適化される。

実験環境(PC)のスペックは次の通りです。

項目内容
OSWindows 10 Pro 20H2
CPUIntel(R) Core(TM) i5-9400 (6コア6スレッド)2.90GHz
メモリ32.0 GB

実験結果サマリ

計測結果は次のようになりました。

関数名説明 C#最適化ON C#最適化OFF C#スクリプト python
func1 一覧形式データへの列追加0.023700.038750.023660.02895
func2 行Noと列名を指定したセルへの値の代入0.036400.039110.037241.57433
func3 NaNの補間処理0.037610.043870.035930.00715
func4 クラスの呼び出し
(100万回)
0.015110.020040.027590.44559
func5 リストへの値の追加
(100万回)
0.010400.010520.016290.07438
関数名

下記は、C#の最適化をOFF(Visual Studioの初期状態)にした処理速度を1にした時の倍率です。

関数名 説明 C#最適化ON C#最適化OFF C#スクリプト python
func1 一覧形式データへの列追加0.61.00.60.7
func2 行Noと列名を指定したセルへの値の代入0.91.01.040.3
func3 NaNの補間処理0.91.00.80.2
func4 クラスの呼び出し0.81.01.422.2
func5 リストへの値の追加1.01.01.57.1

総合的に分析すると、やはりC#に比べてPythonは圧倒的に遅いというのが分かります。

特にループの中で何らかの処理を行う場合の速度低下は顕著です。

しかし、Pythonの欠損値補間は pandas の fillna で行ったのですが、このケースのみ Python の方が圧倒的に高速です。

よく言われることですが、やはりPython の数値計算系ライブラリ(pandas や numpy)は C++で書かれてあるだけに高速ですね。

Pythonでもうまく処理すればC#やJavaより高速なバッチ処理が行えるという事が言えそうです。

個々の計測結果

では、それぞれの計測結果について、もう少し詳しく見ていきます。

func1 :一覧形式のデータに対して、列を追加する)

この実験は空のDataTable 又は DataFrame に対して、100行1列のデータを100回追加するという内容です。

意外なことに、C#でビルドしたものより、C#スクリプトで記述した方が高速でした。

C#スクリプトの方が多少なりとも最適化されているということなんでしょうか。

また、Pythonの場合は DataFrame に列を追加するのは高速に処理されるようで、C#の場合とほぼ互角と言ったところです。

下記はテストコードですが、この手の処理はPythonの方が圧倒的にコード量が少なく手済みますね。

func2 :一覧形式のデータに対して、行番号と列名でセルを指定して値を更新

この実験は2重ループを使って、個々のセルに対して値を代入するという内容です。

Xの値が偶数ならNaNを、奇数なら0.5 を代入していますので、これで全データ(100行×100列=1万セル)の半分にNaNが代入されます。

Pythonはループ処理が遅いと言われていますが、この実験ではC#最適化OFFの場合と比較して40倍も遅いということが分かります。

今回はあえて列名を使っていますが、もし行と列を指定して何かを行う場合は、iat メソッドの方が6k~7倍高速です。

セルの指定メソッド処理時間(秒)locの速度を1とした時の倍率
DataFrameのセルを loc で指定した場合 1.57433 1
DataFrameのセルを iat で指定した場合 0.20682 0.13

func3 :一覧形式のデータに対して、欠損値(NaN)に0を代入

この実験は、func3の結果に対してNaNを0に置き換えるものですが、C#の場合は2重ループで実現しているのに対し、Pythonは fillna メソッドを使っています。

つまり、Python ライブラリを使うことで速度がどれくらい速くなるのかを調べるためのものです。

思った通り、Python がC# に比べて約5倍速いことが分かりました。

func4 :クラスのインスタンス生成

この実験は、単純にクラスのインスタンスを生成する速度がどれくらいかを調べるためのものです。

C#に比べてPythonは22倍遅いので、例えばデータベースから取得した何万件もデータを、1つづつ個々のクラスに格納するような使い方は避けた方が無難です。

ちなみに、Python で単純に100万回ループするのに掛かる時間は0.02秒と小さく、十分無視できる時間であるため、インスタンス生成時間が22倍遅いと考えられます。

func5 :リストデータへのデータ追加

この実験は、リストに大量のデータを格納する場合の処理速度を調べるためのものです。

結果を見ると、やはりPythonの方が7倍程度遅いですね。

実験で使ったソースコード一式

C#のソースコード

C#スクリプトのソースコード

Pythonのソースコード

まとめ

今回はC#、C#スクリプト、Pythonの速度比較について実験してみました。

C#やC#スクリプトの方が圧倒的に早いので、 for ループを多用してゴリゴリ各場合は C#を使った方が処理速度を速くできます。

一方Python の場、ループ処理を使わず numpy や pandas などのライブラリが提供するメソッドの組み合わせで事が足りるのであれば、python の方が処理を速くできそうです。

もし C#の処理をPythonに置き直すのであれば、ループを極力減らして、ライブラリの機能で置き換えていくという事に注力すべきです。

今回の記事がPythonの開発のお役に立てれば幸いです。

タイトルとURLをコピーしました