.. SPDX-FileCopyrightText: 2021 cusy GmbH
..
.. SPDX-License-Identifier: BSD-3-Clause
pandas parallelisieren
======================
In :doc:`pandas:user_guide/enhancingperf` werden einige Möglichkeiten
beschrieben, wie die Performance von Pandas verbessert werden kann. Es gibt
jedoch auch spezielle Bibliotheken, die die Verarbeitung von Dataframes
parallelisieren können.
cuDF
----
cuDF ist eine GPU-DataFrame-Bibliothek, die eine `Pandas-ähnliche API
`_ implementiert.
.. seealso::
* `Docs `__
* `GitHub `__
* `PyPI `__
* `Beispiel Notebooks
`_
Modin
-----
Modin parallelisiert fast die gesamte Pandas-API. Dabei muss der bestehende
Pandas-Code meist nur um folgenden Import erweitert werden:
.. code-block:: python
import modin.pandas as pd
Die Einschränkungen beziehen sich auf ``pd.read_json``, das nur für
``lines=True`` implementiert ist.
.. seealso::
* `Docs `__
* `GitHub `__
Dask
----
:ref:`/performance/dask.ipynb#dask-dataframe` ist ein großer paralleler
DataFrame aus mehreren pandas DataFrames. Dabei ist die ``dask.dataframe``-API
eine Teilmenge der pandas-API, wobei es jedoch geringfügige Änderungen gibt.
.. seealso::
* `Home `__
* `API docs `__
* `Example notebook `_
* `Tutorial `__