gpt4 book ai didi

data-management - 从其他项目更新 dvc 注册表中的数据

转载 作者:行者123 更新时间:2023-12-04 08:02:04 25 4
gpt4 key购买 nike

我有几个项目正在使用和更新相同的数据源。我最近了解到 dvc's data registries ,这听起来像是跨这些不同项目(例如刮板、计算管道)版本化数据的好方法。
我已将所有相关数据放入data-registry然后我将相关文件导入到刮板项目中:

$ poetry run dvc import https://github.com/username/data-registry raw
哪里 raw是一个存储抓取数据的目录。这似乎工作正常,但是当我去构建 a dvc pipeline 时将数据输出到已被 dvc 跟踪的文件中,出现错误:
$ dvc run -n menu_items -d src/ -o raw/menu_items/restaurant.jsonl scrapy crawl restaurant
ERROR: Paths for outs:
'raw'('raw.dvc')
'raw/menu_items/restaurant.jsonl'('menu_items')
overlap. To avoid unpredictable behaviour, rerun command with non overlapping outs paths.
有人可以帮助我了解这里发生了什么吗? 使用数据注册表跨项目共享和更新数据的最佳方法是什么?
理想情况下,我想用来自刮刀项目的新数据更新数据注册表,然后允许其他依赖项目在准备好更新数据时更新它们的数据。

最佳答案

当您import (或 add )一些东西到你的项目中,一个 .dvc 文件被创建,其中列出了一些东西(在这种情况下是 raw/ 目录)作为“输出”。
DVC 不允许 .dvc 文件或 dvc.yaml 阶段之间的重叠输出,这意味着您的“menu_items”阶段不应写入 raw/因为它已经在 raw.dvc 的控制之下.
你能为管道输出创建一个单独的目录吗?例如。使用 processed/menu_items/restaurant.jsonl

关于data-management - 从其他项目更新 dvc 注册表中的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66409283/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com