.. SPDX-FileCopyrightText: 2022 cusy GmbH
..
.. SPDX-License-Identifier: BSD-3-Clause
pandas
======
`pandas `_ ist eine Python-Bibliothek zur
Datenanalyse, die in den letzten Jahren sehr populär geworden ist. Auf der
Website wird pandas so beschrieben:
»pandas ist ein schnelles, leistungsfähiges, flexibles und einfach zu
bedienendes Open-Source-Tool zur Datenanalyse und -manipulation, das auf der
Programmiersprache Python aufbaut.«
Genauer ist pandas ein In-Memory-Analysewerkzeug, das SQL-ähnliche Konstrukte,
sowie statistische und analytische Werkzeuge bietet. Dabei baut pandas auf
`Cython `_ und :doc:`../numpy/index` auf, wodurch es
weniger speicherintensiv und schneller ist als reiner Python-Code. Meist wird
pandas genutzt, um
* :doc:`/data-processing/serialisation-formats/excel` und `Power BI
`_ zu
ersetzen
* einen `ETL-Prozess `_ zu
realisieren
* :doc:`/data-processing/serialisation-formats/csv/index`- oder
:doc:`/data-processing/serialisation-formats/json/index`-Daten zu
verarbeiten
* maschinelles Lernen vorzubereiten
.. tip::
`cusy Seminar: Daten analysieren mit pandas
`_
.. seealso::
* `Home
`_
* `User guide
`_
* `API reference
`_
* `GitHub
`_
pandas vs. Polars vs. Dask und DuckDB
-------------------------------------
Die Wahl zwischen pandas, `Polars `_, :doc:`/performance/dask`
und `DuckDB `_ hängt von der Art der Arbeitslast ab:
pandas
ist die kanonische Python-DataFrame-Bibliothek für Analysen auf einem
einzelnen Rechner.
Polars
ist in Rust geschrieben und erlaubt leistungsfähige Analysen auf einem
einzigen Knoten oder wenn `Lazy
Evaluation `_ und
`Expressions-API
`_
wichtig sind.
Dask
ist eine Python-Bibliothek für paralleles Rechnen, die bekannte APIs,
:abbr:`u.a. (unter anderem)` von pandas und `Scikit-Learn
`_ auf Cluster skaliert.
DuckDB
ist eine In-Process `OLAP
`_-Datenbank
für Analysen und SQL über **lokale** Dateien, die häufig pandas DataFrames
ergänzt, da es sich hervorragend für In-Process-Analysen und SQL-Aufgaben
eignet.
.. toctree::
:hidden:
:titlesonly:
:maxdepth: 0
data-structures.ipynb
python-data-structures.ipynb
indexing.ipynb
date-time.ipynb
select-filter.ipynb
transforming.ipynb
string-manipulation.ipynb
arithmetic.ipynb
descriptive-statistics.ipynb
sorting-ranking.ipynb
discretisation.ipynb
combining-merging.ipynb
group-operations.ipynb
aggregation.ipynb
apply.ipynb
pivoting-crosstab.ipynb
convert-dtypes.ipynb