Daten bereinigen und validieren

Im Folgenden wollen wir euch einen praktischen Überblick über verschiedene Bibliotheken und Methoden zur Datenbereinigung und -validierung mit Python geben. Dabei verwenden wir neben bekannten Bibliotheken wie NumPy und pandas auch mehrere kleine, spezialisierte Bibliotheken wie dedupe, fuzzywuzzy, voluptuous, tdda und hypothesis. Wir bevorzugen diese leichtgewichtigeren Lösungen gegenüber großen, universellen Systemen wie Great Expectations oder MobyDQ.

Überblick

Ruhende Projekte

GitHub-Insights

Name

Stars

Mitwirkende

Commit-Aktivität

Lizenz

Bulwark

https://raster.shields.io/github/stars/ZaxR/bulwark https://raster.shields.io/github/contributors/ZaxR/bulwark https://raster.shields.io/github/commit-activity/y/ZaxR/bulwark https://raster.shields.io/github/license/ZaxR/bulwark

PandasSchema

https://raster.shields.io/github/stars/multimeric/PandasSchema https://raster.shields.io/github/contributors/multimeric/PandasSchema https://raster.shields.io/github/commit-activity/y/multimeric/PandasSchema https://raster.shields.io/github/license/multimeric/PandasSchema

pandas-validation

https://raster.shields.io/github/stars/jmenglund/pandas-validation https://raster.shields.io/github/contributors/jmenglund/pandas-validation https://raster.shields.io/github/commit-activity/y/jmenglund/pandas-validation https://raster.shields.io/github/license/jmenglund/pandas-validation

Opulent-Pandas

https://raster.shields.io/github/stars/danielvdende/opulent-pandas https://raster.shields.io/github/contributors/danielvdende/opulent-pandas https://raster.shields.io/github/commit-activity/y/danielvdende/opulent-pandas https://raster.shields.io/github/license/danielvdende/opulent-pandas

signpost

https://raster.shields.io/github/stars/ilsedippenaar/signpost https://raster.shields.io/github/contributors/ilsedippenaar/signpost https://raster.shields.io/github/commit-activity/y/ilsedippenaar/signpost https://raster.shields.io/github/license/ilsedippenaar/signpost