pandas parallelisieren¶
In Enhancing performance werden einige Möglichkeiten beschrieben, wie die Performance von Pandas verbessert werden kann. Es gibt jedoch auch spezielle Bibliotheken, die die Verarbeitung von Dataframes parallelisieren können.
cuDF¶
cuDF ist eine GPU-DataFrame-Bibliothek, die eine Pandas-ähnliche API implementiert.
Siehe auch
Modin¶
Modin parallelisiert fast die gesamte Pandas-API. Dabei muss der bestehende Pandas-Code meist nur um folgenden Import erweitert werden:
import modin.pandas as pd
Die Einschränkungen beziehen sich auf pd.read_json, das nur für
lines=True implementiert ist.
Dask¶
Dask DataFrame ist ein großer paralleler
DataFrame aus mehreren pandas DataFrames. Dabei ist die dask.dataframe-API
eine Teilmenge der pandas-API, wobei es jedoch geringfügige Änderungen gibt.
Siehe auch