Daten verwalten¶

Daten und Verzeichnisse hinzufügen¶

Mit DVC könnt ihr Dateien, ML-Modelle, Verzeichnisse und Zwischenergebnisse mit Git speichern und versionieren, ohne dass der Dateiinhalt in Git eingecheckt werden muss:

$ uv run dvc get https://github.com/treeverse/dataset-registry \
    get-started/data.xml -o data/data.xml
$ uv run dvc add data/data.xml

Dies fügt die Datei data/data.xml in data/.gitignore hinzu und schreibt die Meta-Angaben in data/data.xml.dvc.

Siehe auch

.dvc Files

Um nun verschiedene Versionen eurer Projektdaten mit Git verwalten zu können, fügt ihr nur data/.gitignore und data/data.xml.dvc hinzu:

$ git add data/.gitignore data/data.xml.dvc
$ git commit -m ":monocle_face: Add data to dvc"

Siehe auch

External Dependencies and Outputs

Daten speichern und abrufen¶

Die Daten können vom Arbeitsverzeichnis eures Git-Repository auf den entfernten Speicherplatz kopiert werden mit

$ uv run dvc push

Falls ihr aktuellere Daten abrufen wollt, könnt ihr dies mit

$ uv run dvc pull

Daten importieren und aktualisieren¶

Alternativ zu dvc get könnt ihr auch Daten und Modelle aus einem anderen Projekts mit dvc import importieren, z. B.:

$ uv run dvc import https://github.com/treeverse/dataset-registry  get-started/data.xml -o data/data.xml
Importing 'get-started/data.xml (https://github.com/treeverse/dataset-registry)' -> 'data/data.xml'

Dies lädt die Datei aus der dataset-registry in unser data-Verzeichnis, fügt sie .gitignore hinzu und erstellt data.xml.dvc.

Mit dvc update könnt ihr diese Datenquellen aktualisieren, bevor ihr eine Pipeline reproduziert, die von diesen Datenquellen abhängt, z. B.:

$ uv run dvc update data/data.xml.dvc
'data/data.xml.dvc' didn't change, skipping

Siehe auch

Daten löschen¶

Wenn ihr Dateien oder Verzeichnisse aus der Verwaltung von DVC entfernen möchtet, könnt ihr dies mit dvc remove:

$ uv run dvc remove data/data.xml.dvc

Anschließend könnt ihr dvc gc -w verwenden, um alle Dateien und ihre früheren Versionen aus dem Cache zu löschen.