Daten verwalten¶
Daten und Verzeichnisse hinzufügen¶
Mit DVC könnt ihr Dateien, ML-Modelle, Verzeichnisse und Zwischenergebnisse mit Git speichern und versionieren, ohne dass der Dateiinhalt in Git eingecheckt werden muss:
$ uv run dvc get https://github.com/iterative/dataset-registry \
get-started/data.xml -o data/data.xml
$ uv run dvc add data/data.xml
Dies fügt die Datei data/data.xml in data/.gitignore hinzu und
schreibt die Meta-Angaben in data/data.xml.dvc.
Siehe auch
Um nun verschiedene Versionen eurer Projektdaten mit Git verwalten zu können,
fügt ihr nur data/.gitignore und data/data.xml.dvc hinzu:
$ git add data/.gitignore data/data.xml.dvc
$ git commit -m ":monocle_face: Add data to dvc"
Siehe auch
Daten speichern und abrufen¶
Die Daten können vom Arbeitsverzeichnis eures Git-Repository auf den entfernten Speicherplatz kopiert werden mit
$ uv run dvc push
Falls ihr aktuellere Daten abrufen wollt, könnt ihr dies mit
$ uv run dvc pull
Daten importieren und aktualisieren¶
Alternativ zu dvc get könnt ihr auch Daten und Modelle aus einem anderen
Projekts mit dvc import importieren, z. B.:
$ uv run dvc import https://github.com/iterative/dataset-registry get-started/data.xml -o data/data.xml
Importing 'get-started/data.xml (https://github.com/iterative/dataset-registry)' -> 'data/data.xml'
Dies lädt die Datei aus der dataset-registry in unser
data-Verzeichnis, fügt sie .gitignore hinzu und erstellt
data.xml.dvc.
Mit dvc update könnt ihr diese Datenquellen aktualisieren, bevor ihr eine
Pipeline reproduziert, die von diesen Datenquellen abhängt, z. B.:
$ uv run dvc update data/data.xml.dvc
'data/data.xml.dvc' didn't change, skipping
Siehe auch
Daten löschen¶
Wenn ihr Dateien oder Verzeichnisse aus der Verwaltung von DVC entfernen möchtet, könnt ihr dies mit dvc remove:
$ uv run dvc remove data/data.xml.dvc
Anschließend könnt ihr dvc gc -w verwenden, um alle Dateien und ihre
früheren Versionen aus dem Cache zu löschen.