pandas parallelisieren¶

In Enhancing performance werden einige Möglichkeiten beschrieben, wie die Performance von Pandas verbessert werden kann. Es gibt jedoch auch spezielle Bibliotheken, die die Verarbeitung von Dataframes parallelisieren können.

cuDF¶

cuDF ist eine GPU-DataFrame-Bibliothek, die eine Pandas-ähnliche API implementiert.

Siehe auch

Docs
GitHub
PyPI
Beispiel Notebooks

Modin¶

Modin parallelisiert fast die gesamte Pandas-API. Dabei muss der bestehende Pandas-Code meist nur um folgenden Import erweitert werden:

import modin.pandas as pd

Die Einschränkungen beziehen sich auf pd.read_json, das nur für lines=True implementiert ist.

Siehe auch

Docs
GitHub

Dask¶

Dask DataFrame ist ein großer paralleler DataFrame aus mehreren pandas DataFrames. Dabei ist die dask.dataframe-API eine Teilmenge der pandas-API, wobei es jedoch geringfügige Änderungen gibt.

Siehe auch

Home
API docs
Example notebook
Tutorial