.. SPDX-FileCopyrightText: 2021 cusy GmbH .. .. SPDX-License-Identifier: BSD-3-Clause pandas parallelisieren ====================== In :doc:`pandas:user_guide/enhancingperf` werden einige Möglichkeiten beschrieben, wie die Performance von Pandas verbessert werden kann. Es gibt jedoch auch spezielle Bibliotheken, die die Verarbeitung von Dataframes parallelisieren können. cuDF ---- cuDF ist eine GPU-DataFrame-Bibliothek, die eine `Pandas-ähnliche API `_ implementiert. .. seealso:: * `Docs `__ * `GitHub `__ * `PyPI `__ * `Beispiel Notebooks `_ Modin ----- Modin parallelisiert fast die gesamte Pandas-API. Dabei muss der bestehende Pandas-Code meist nur um folgenden Import erweitert werden: .. code-block:: python import modin.pandas as pd Die Einschränkungen beziehen sich auf ``pd.read_json``, das nur für ``lines=True`` implementiert ist. .. seealso:: * `Docs `__ * `GitHub `__ Dask ---- :ref:`/performance/dask.ipynb#dask-dataframe` ist ein großer paralleler DataFrame aus mehreren pandas DataFrames. Dabei ist die ``dask.dataframe``-API eine Teilmenge der pandas-API, wobei es jedoch geringfügige Änderungen gibt. .. seealso:: * `Home `__ * `API docs `__ * `Example notebook `_ * `Tutorial `__