pandas¶

pandas ist eine Python-Bibliothek zur Datenanalyse, die in den letzten Jahren sehr populär geworden ist. Auf der Website wird pandas so beschrieben:

»pandas ist ein schnelles, leistungsfähiges, flexibles und einfach zu bedienendes Open-Source-Tool zur Datenanalyse und -manipulation, das auf der Programmiersprache Python aufbaut.«

Genauer ist pandas ein In-Memory-Analysewerkzeug, das SQL-ähnliche Konstrukte, sowie statistische und analytische Werkzeuge bietet. Dabei baut pandas auf Cython und NumPy auf, wodurch es weniger speicherintensiv und schneller ist als reiner Python-Code. Meist wird pandas genutzt, um

Excel und Power BI zu ersetzen
einen ETL-Prozess zu realisieren
CSV- oder JSON-Daten zu verarbeiten
maschinelles Lernen vorzubereiten

Tipp

cusy Seminar: Daten analysieren mit pandas

Siehe auch

pandas vs. Polars vs. Dask und DuckDB¶

Die Wahl zwischen pandas, Polars, Dask und DuckDB hängt von der Art der Arbeitslast ab:

pandas: ist die kanonische Python-DataFrame-Bibliothek für Analysen auf einem einzelnen Rechner.
Polars: ist in Rust geschrieben und erlaubt leistungsfähige Analysen auf einem einzigen Knoten oder wenn Lazy Evaluation und Expressions-API wichtig sind.
Dask: ist eine Python-Bibliothek für paralleles Rechnen, die bekannte APIs, u.a. von pandas und Scikit-Learn auf Cluster skaliert.
DuckDB: ist eine In-Process OLAP-Datenbank für Analysen und SQL über lokale Dateien, die häufig pandas DataFrames ergänzt, da es sich hervorragend für In-Process-Analysen und SQL-Aufgaben eignet.